本申请还要求2015年4月13日提交的序号为62/146,810的美国临时申请、2015年4月13日提交的序号为62/146,833的美国临时申请、2015年4月14日提交的序号为62/147,124的美国临时申请、2015年4月13日提交的序号为62/146,852的美国临时申请、2015年4月14日提交的序号为62/147,058的美国临时申请、2015年4月14日提交的序号为62/147,077的美国临时申请、2015年4月14日提交的序号为62/147,315的美国临时申请、和2015年4月14日提交的序号为62/147,337的美国临时申请的权益,其每一个通过该引用以其整体并入本文。
实施方案描述
本发明的实施方案的以下描述不意图将本发明限制为这些实施方案,而是意图使本领域的任何技术人员能够制造和使用本发明。
1.用于表征微生物组来源的状况和鉴定治疗措施的方法
如图1A中示出的,用于诊断和治疗神经系统健康问题(neurological healthissue)的第一方法100包括:接收来自受试者群体的样品的聚合集(an aggregate set ofsamples)S110;表征与受试者群体相关的样品的聚合集中的每一个的微生物组组成和/或功能特征(features),从而生成受试者群体的微生物组组成数据集和微生物组功能多样性数据集中的至少一种S120;接收与受试者群体的至少一个子集(at least a subset ofthe population of subjects)相关的补充数据集,其中补充数据集提供与神经系统健康问题相关的特性(characteristics)的信息S130;以及将补充数据集和从微生物组组成数据集和微生物组功能多样性数据集中的至少一种提取的特征转化成神经系统健康问题的表征模型S140。在一些变化形式中,第一方法100还可以包括:基于表征,生成被配置为改进神经系统健康问题的状态的疗法模型S150。
第一方法100用于生成可用于根据受试者的微生物组组成和功能特征中的至少一种来表征和/或诊断受试者(例如,作为临床诊断、作为伴随诊断(companion diagnostic)等等)的模型,并基于对受试者群体的微生物组分析为受试者提供治疗措施(例如基于益生菌的治疗措施、基于噬菌体的治疗措施、基于小分子的治疗措施、基于益生元(prebiotic)的治疗措施、临床措施等等)。因此,来自受试者群体的数据可以用于根据其微生物组组成和/或功能特征表征受试者,基于表征指示健康状态和改善的方面(area),以及安排(promote)可以使受试者的微生物组的组成朝向期望的平衡状态的集合中的一种或更多种调整的一种或更多种疗法。
在变化形式中,第一方法100可用于对罹患神经系统健康状况、紊乱或不利状态的受试者安排靶向疗法,其中该神经系统健康状况产生社会行为、运动行为和能量水平的至少一种方面的观察到的差异。在这些变化形式中,与神经健康状况相关的诊断可以通常使用以下的一种或更多种来评估:行为调查工具(例如,患者健康问卷-9(PHQ-9)调查、患者健康问卷-2(PHQ-2)调查、来源于精神障碍诊断与统计手册(DSM)的一个版本的工具、来源于孤独症诊断检查(ADI)的工具、来源于社会交往问卷(SCQ)的工具、临床总体印象(CGI)量表、简易精神病学评定量表等);基于运动技能的评估、生物样品的血细胞分析和任何其他标准工具。在具体实例中,方法100可用于以下一种或更多种的表征和/或治疗介入:注意力缺陷障碍(ADD)、注意力缺陷多动障碍(ADHD)、焦虑症、抑郁症、孤独症谱系障碍、阿斯伯格综合征(Asperger’s syndrome)、慢性疲劳综合征、恶性贫血、精神障碍和中风。同样地,方法100可用于以完全非典型的方法表征神经健康状况、紊乱、和/或不利状态。特别地,本发明人提出,个体的微生物组的表征可以是对预测受试者中神经系统健康问题(例如,神经系统紊乱)发生的可能性有用的。这种表征也可以是对筛选神经系统健康问题和/或为具有神经系统健康问题的个人确定治疗过程有用的。例如,通过深度测序来自患病和健康受试者的细菌DNA,本发明人提出,与某些微生物组组成和/或功能特征相关的特征(例如,某些细菌和/或对应于某些遗传途径的细菌序列的量)可用于预测神经系统健康问题的存在或不存在。在某些情况下,细菌和遗传途径在具有如以下更详细讨论的各种神经系统健康问题的个体中以一定丰度存在,而细菌和遗传途径在不具有神经系统健康问题的个体中以统计学上不同的丰度。
因此,在一些实施方案中,第一方法100的输出可以用于基于受试者的微生物组组成和/或受试者的微生物组的功能特征的分析来为受试者生成诊断和/或提供治疗措施。因此,如图1B中示出的,源自第一方法100的至少一种输出的第二方法200可以包括:接收来自受试者的生物样品S210;基于处理源自生物样品的微生物组数据集,表征受试者具有某种形式的神经系统健康问题S220;以及基于表征和疗法模型为患有神经系统健康问题的受试者安排疗法S230。方法200的变化形式还可以例如通过贯穿疗法的过程接收、处理和分析来自受试者的另外的样品来便于监测和/或调整提供给受试者的疗法。下文更详细地描述了第二方法200的实施方案、变化形式和实例。
因此,方法100、200用于生成以下模型,所述模型可用于基于对个体群体的微生物组分析对个体分类和/或向个体提供治疗措施(例如,疗法建议、疗法、疗法方案等等)。因此,来自个体群体的数据可以用于生成可以根据其微生物组组成对个体分类(例如,作为诊断措施)的模型,基于分类指示健康状态和改善的方面,和/或提供可以将个体微生物组的组成朝向改善的平衡状态的集合中的一种或更多种推进的治疗措施。第二方法200的变化形式还可以例如通过贯穿疗法的过程接收、处理和分析来自个体的另外的样品来便于监测和/或调整提供给个体的疗法。
在一种应用中,方法100、200中的至少一个至少部分地在如图2中示出的系统300实施,该系统300通过样品接收试剂盒(sample reception kit)的方式接收源自受试者(或与受试者相关的环境)的生物样品,并且在处理系统处理生物样品,所述处理系统实施表征方法和被配置为积极影响受试者(例如,人、非人类动物、环境生态系统等等)中的微生物分布的疗法模型。在该应用的变化形式中,处理系统可以被配置为基于从受试者群体接收的样品数据来生成和/或改进表征方法和治疗模型。然而,方法100可以可选地使用被配置为接收和处理与其他信息聚集的受试者的微生物组相关数据,以生成用于微生物组来源的诊断及相关治疗的模型的任何其他合适的系统来实施。因此,方法100可以针对受试者群体(例如,包括受试者,不包括受试者)来实施,其中受试者群体可以包括与受试者不同和/或类似的患者(例如,在健康状况方面、在膳食需要方面、在人口学特征方面等等)。因此,由于来自受试者群体的数据的聚集,可以使用源自受试者群体的信息来提供在受试者的行为和对受试者的微生物组的影响之间的联系的另外的洞察。
因此,方法100、200可以针对受试者群体(例如,包括受试者,不包括受试者)来实施,其中受试者群体可以包括与受试者不同和/或类似的受试者(例如,在健康状况方面、在膳食需要方面、在人口学特征方面等等)。因此,由于来自受试者群体的数据的聚集,可以使用源自受试者群体的信息来提供在受试者的行为和对受试者的微生物组的影响之间的联系的另外的洞察。
1.1第一方法:样品处理
模块S110叙述:接收来自受试者群体的生物样品的聚合集,其作用是使能够生成可以从中生成用于表征受试者和/或向受试者提供治疗措施的模型的数据。在模块S110中,优选地以非侵入性方式从受试者群体中的受试者接收生物样品。在变化形式中,非侵入性方式的样品接收可以使用以下中的一种或更多种:渗透性基底(例如,被配置为擦拭受试者的身体的区域的拭子、厕纸、海绵等等)、非渗透性基底(例如,载玻片、胶带等等)、被配置为从受试者的身体的区域接收样品的容器(例如,小瓶、管、袋等等)以及任何其他合适的样品接收元件(sample-reception element)。在特定实例中,可以以非侵入性方式(例如,使用拭子和小瓶)从受试者的鼻、皮肤、生殖器、口和肠中的一个或更多个收集样品。然而,可以另外地或可选地以半侵入性方式或侵入性方式接收生物样品集的一个或更多个生物样品。在变化形式中,样品接收的侵入性方式可以使用以下任何一种或更多种:针、注射器、活组织检查元件、柳叶刀和用于以半侵入性或侵入性方式收集样品的任何其他合适的器具。在特定实例中,样品可以包含血液样品、血浆/血清样品(例如,以使能够提取无细胞DNA)、脑脊液和组织样品。
在以上变化形式和实例中,样品可以在无另一个实体(例如,与个人相关的看护者、健康保健专业人员、自动化或半自动化样品收集装置等等)的辅助下从受试者的身体获取,或者可以可选地在另一个实体的协助下从个体的身体获取。在其中在样品抽取过程中在无另一个实体的辅助下从受试者的身体获取样品的一个实例中,可以向受试者提供样品准备试剂盒(sample-provision kit)。在该实例中,试剂盒可以包括用于样品采集的一个或更多个拭子、被配置为接收拭子用于储存的一个或更多个容器、用于样品准备和使用者账户的设置的说明书,被配置为将样品与受试者相关联的元件(例如,条形码标识物、标签等等)和允许来自个体的样品被递送至样品处理操作(例如,通过邮件递送系统)的接收器(receptacle)。在其中在另一个实体的辅助下从使用者抽取样品的另一个实例中,可以在临床或研究环境中从受试者收集一个或更多个样品(例如,在临床预约期间)。
在模块S110中,生物样品的聚合集优选地接收自很多种受试者,并且可以包括来自人类受试者和/或非人类受试者的样品。对于人类受试者,模块S110可以包括接收来自很多种人类受试者的样品,集合地包括以下中的一种或更多种的受试者:不同的人口学特征(例如,性别、年龄、婚姻状况、种族、国籍、社会经济状况、性取向等等)、不同的健康状况(例如,健康和疾病状态)、不同的生活情况(例如,独自生活、与宠物一起生活、与重要他人一起生活、与儿童一起生活等等)、不同的饮食习惯(例如,杂食、素食、纯素食、糖消耗(sugarconsumption)、酸消耗(acid consumption)等等)、不同的行为倾向(例如,身体活动水平、药物使用水平、酒精使用水平等等)、不同的活动性(mobility)水平(例如,关于在给定时间段内行进的距离)、生物标志物状态(例如,胆固醇水平,脂质水平等等)、体重、身高、身体质量指数、基因型因子以及对微生物组组成具有影响的任何其他合适的特征(trait)。因此,随着受试者数量的增加,在方法100的随后模块中生成的基于特征的模型关于基于其微生物组表征多种受试者的预测能力(predictive power)增加。另外地或可选地,在模块S110中接收的生物样品的聚合集可以包括接收来自在以下一个或更多个方面相似的目标受试者群的生物样品:人口学特征、健康状况、生活情况、饮食习惯、行为倾向、活动性水平、年龄范围(例如小儿、成年、老年),以及对微生物组组成具有影响的任何其他合适的特征。另外地或可选地,方法100、200可以适应于表征通常通过实验室测试条件(例如,基于聚合酶链式反应的测试、基于细胞培养的测试、血液测试、活检、化学测试等)、物理检测方法(例如,测压法)、基于病史的评估、行为评估和基于成像学(imagenology)的评估检测的状况。另外地或可选地,方法100、200可以适应于表征急性状况、慢性状况、不同人口统计学患病率具有差异的状况、具有特征性疾病区域的状况(例如,头部、消化道、内分泌系统疾病、心脏、神经系统疾病、呼吸系统疾病、免疫系统疾病、循环系统疾病、肾系统疾病、运动系统疾病等)和共病状况。
在一些实施方案中,模块S110中接收生物样品的聚合集可以根据如于2015年1月9日提交并且标题为“Method and System for Microbiome Analysis”的美国申请第14/593,424号中描述的样品接收的实施方案、变化形式和实例来进行,该申请通过该引用以其整体并入本文。然而,在模块S110中接收生物样品的聚合集可另外地或可选地以任何其他合适的方式来进行。此外,第一方法100的一些可选变化形式可以省略模块S110,而如下文描述的在方法100的后续模块中进行处理源自生物样品集的数据。
1.2第一方法:样品分析、微生物组组成和功能方面
模块S120叙述:表征与受试者群体相关的生物样品的聚合集中的每一个的微生物组组成和/或功能特征,由此生成受试者群体的微生物组组成数据集和微生物组功能多样性数据集中的至少一种。模块S120用于处理生物样品的聚合集中的每一个,以确定与受试者群体中的每一个的微生物组相关的组成和/或功能方面。组成和功能方面可以包括在微生物水平的组成方面,包括与微生物跨越界、门、纲、目、科、属、种、亚种、株、种下分类单元(infraspecies taxon)(例如,如以每个群的总丰度、每个群的相对丰度、代表的群的总数等等测量的)和/或任何其他合适的分类单元的不同群的分布相关的参数。组成和功能方面也可以根据可操作分类单位(OTU)呈现。组成和功能方面可以另外地或可选地包括在遗传水平的组成方面(例如,通过多位点序列分型确定的区域、16S序列、18S序列、ITS序列、其他遗传标志物、其他系统发育标志物等等)。组成和功能方面可以包括与特定功能(例如,酶活性、转运功能、免疫活性等等)相关的基因的存在或不存在或量。因此,模块S120的输出可以用于提供感兴趣的特征用于模块S140的表征过程,其中该特征可以是基于微生物的(例如,细菌属的存在)、基于遗传的(例如,基于特异性遗传区域和/或序列的呈现)和/或基于功能的(例如,特定催化活性的存在、代谢途径的存在等等)。
在一种变化形式中,模块S120可以包括基于源自细菌和/或古细菌的与基因家族相关的系统发育标志物的鉴定而表征特征,所述基因家族与以下的一种或更多种相关:核糖体蛋白S2、核糖体蛋白S3、核糖体蛋白S5、核糖体蛋白S7、核糖体蛋白S8、核糖体蛋白S9、核糖体蛋白S10、核糖体蛋白S11、核糖体蛋白S12/S23、核糖体蛋白S13、核糖体蛋白S15P/S13e、核糖体蛋白S17、核糖体蛋白S19、核糖体蛋白L1、核糖体蛋白L2、核糖体蛋白L3、核糖体蛋白L4/L1e、核糖体蛋白L5、核糖体蛋白L6、核糖体蛋白L10、糖体蛋白L11、糖体蛋白L13、糖体蛋白L14b/L23e、核糖体蛋白L15、糖体蛋白L16/L10E、核糖体蛋白L18P/L5E、核糖体蛋白L22、核糖体蛋白L24、核糖体蛋白L25/L23、核糖体蛋白L29、翻译延伸因子EF-2、翻译起始因子IF-2、金属内肽酶(metalloendopeptidase)、ffh信号识别颗粒蛋白、苯丙氨酰-tRNA合成酶α亚基、苯丙氨酰-tRNA合成酶β亚基、tRNA假尿苷合酶B、胆色素原脱氨酶、磷酸核糖甲酰甘氨脒环状连接酶(phosphoribosylformylglycinamidine cyclo-ligase)和核糖核酸酶HII。然而,标志物可以包括任何其他合适的标志物。
因此,在模块S120中表征生物样品的聚合集中的每一个的微生物组组成和/或功能特征优选地包括样品处理技术(例如,湿实验室技术(wet laboratory techniques))和计算技术(例如,利用生物信息学工具)的组合,以定量地和/或定性地表征与来自受试者或受试者群体的每个生物样品相关的微生物组和功能特征。
在变化形式中,模块S120中的样品处理可以包括以下中的任何一种或更多种:裂解生物样品、破坏生物样品的细胞中的膜、将不期望的成分(例如,RNA、蛋白)与生物样品分离、纯化生物样品中的核酸(例如,DNA)、扩增来自生物样品的核酸、进一步纯化生物样品的扩增的核酸以及测序生物样品的扩增的核酸。如此,模块S120的部分可以使用如于2015年1月9日提交并且标题为“Method and System for Microbiome Analysis”的美国申请第14/593,424号中描述的样品处理网络和/或计算系统的实施方案、变化形式和实例来实施,该申请通过此引用以其整体并入本文。因此,实施方法100的一个或更多个部分的计算系统可以在一个或更多个计算系统中实施,其中计算系统可以至少部分地在云中和/或作为被配置为接收存储计算机可读指令的计算机可读介质的机器(例如,计算机器、服务器、移动计算设备等)被实施。然而,可以使用任何其他合适的系统来进行模块S120。
在变化形式中,裂解生物样品和/或破坏生物样品的细胞中的膜优选地包括物理方法(例如,珠击打、氮减压、均质化、超声处理),其省略了在测序后在某些细菌群的呈现方面产生偏倚的某些试剂。另外地或可选地,模块S120中的裂解或破坏可以包括化学方法(例如,使用去垢剂、使用溶剂、使用表面活性剂等等)。另外地或可选地,模块S120中的裂解或破坏可以包括生物学方法。在变化形式中,不期望的成分的分离可以包括使用RNA酶除去RNA和/或使用蛋白酶除去蛋白。在变化形式中,核酸的纯化可以包括以下中的一种或更多种:沉淀来自生物样品的核酸(例如,使用基于醇的沉淀方法)、基于液体-液体的纯化技术(例如,苯酚-氯仿提取)、基于层析的纯化技术(例如,柱吸附)、包括利用被配置为结合核酸并被配置为在洗脱环境(例如,具有洗脱溶液、提供pH改变、提供温度改变等等)的存在下释放核酸的结合部分结合颗粒(binding moiety-bound particles)(例如,磁珠、浮珠(buoyant beads)、具有粒度分布的珠、超声响应的珠等等)的纯化技术、以及任何其他合适的纯化技术。
在变化形式中,对纯化的核酸进行扩增操作S123可以包括进行以下中的一种或更多种:基于聚合酶链式反应(PCR)的技术(例如,固相PCR、RT-PCR、qPCR、多重PCR、降落PCR(touchdown PCR)、纳米PCR(nanoPCR)、巢式PCR、热启动PCR等等)、依赖解旋酶的扩增(HDA)、环介导的等温扩增(LAMP)、自主持续序列复制(3SR)、基于核酸序列的扩增(NASBA)、链置换扩增(SDA)、滚环扩增(RCA)、连接酶链式反应(LCR)和任何其他合适的扩增技术。在纯化的核酸的扩增中,使用的引物优选地被选择为防止扩增偏倚或使扩增偏倚最小化,并且被配置为扩增以下核酸区域/序列(例如,16S区域、18S区域、ITS区域等等的),所述核酸区域/序列提供分类学信息、提供系统发育信息、提供用于诊断的信息、提供用于制剂(例如,用于益生菌制剂)的信息和/或提供用于任何其他合适的目的的信息。因此,在扩增中可以使用被配置为避免扩增偏倚的通用引物(例如,用于16S RNA的F27-R338引物组、用于16SRNA的F515-R806引物组等等)。在模块S110的变化形式中使用的引物可以另外地或可选地包括对每个生物样品特异的掺入的条形码序列,所述条形码序列可以有利于扩增后生物样品的鉴定。在模块S110的变化形式中使用的引物可以另外地或可选地包括被配置为与包括互补衔接子的测序技术(例如,根据用于Illumina测序的方案)配合的衔接子区域。
用于多重扩增操作的引物组的鉴定可以根据如于2015年8月18日提交并且标题为“Method and System for Multiplex Primer Design”的美国申请第62/206,654号中描述的方法的实施方案、变化形式和实例来进行,该申请通过此引用以其整体并入本文。在模块S123中使用引物组(a set of primers)进行多重扩增操作可另外地或可选地以任何其他合适的方式来进行。
另外地或可选地,如图3中示出的,模块S120可以实施被配置为利于处理的任何其他步骤(例如,使用Nextera试剂盒),用于与扩增操作S123配合地执行片段化操作S122(例如,片段化并用测序衔接子加标签)(例如,S122可以在S123之后进行、S122可以在S123之前进行、S122可以与S123基本上同时进行等等)。另外,模块S122和/或S123可以在存在或不存在核酸提取步骤下进行。例如,可以在扩增核酸之前进行提取,随后进行片段化,且然后扩增片段。可选地,可以进行提取,随后进行片段化,且然后扩增片段。如此,在一些实施方案中,模块S123中进行扩增操作可以根据如于2015年1月9日提交并且标题为“Method andSystem for Microbiome Analysis”的美国申请第14/593,424号中描述的扩增的实施方案、变化形式和实例来进行。此外,模块S123中的扩增可以另外地或可选地以任何其他合适的方式来进行。
在特定实例中,来自生物样品集的生物样品的核酸的扩增和测序包括:固相PCR,所述固相PCR包括用寡核苷酸衔接子桥式扩增基底上的生物样品的DNA片段,其中扩增包括具有正向索引序列(例如,相应于MiSeq/NextSeq/HiSeq平台的Illumina正向索引)或反向索引序列(例如,相应于MiSeq/NextSeq/HiSeq平台的Illumina反向索引)的引物、正向条形码序列或反向条形码序列、转座酶序列(例如,相应于MiSeq/NextSeq/HiSeq平台的转座酶结合位点)、接头(例如,被配置以降低均一性并改善序列结果的0个、1个或2个碱基的片段)、另外的随机碱基和用于靶向特定靶标区域(例如,16S区域、18S区域、ITS区域)的序列。如遍及公开内容表明的,可进一步对任何合适的扩增子进行扩增和测序。在特定实例中,测序包括使用合成测序技术的Illumina测序(例如,用HiSeq平台、用MiSeq平台、用NextSeq平台等等)。另外地或可选地,可以使用任何其他合适的下一代测序技术(例如,PacBio平台、MinION平台、Oxford Nanopore平台等)。另外地或可选地,可以使用任何其他合适的测序平台或方法(例如,Roche 454Life Sciences平台、Life Technologies SOLiD平台等)。在实例中,测序可以包括深度测序来定量样品中特定序列的拷贝数,然后还可用于确定样品中不同序列的相对丰度。深度测序是指核酸序列的高度冗余测序,例如使得可以确定或估计样品中序列的原始拷贝数。测序的冗余度(即,深度)由待确定的序列的长度(X)、测序读段的数目(N)和平均读段长度(L)决定。然后冗余度是NxL/X。测序深度可以是,或是至少约2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、70、80、90、100、110、120、130、150、200、300、500、500、700、1000、2000、3000、4000、5000或更多。
模块S120中的样品处理的一些变化形式可以包括在测序之前进一步纯化扩增的核酸(例如,PCR产物),其用于除去过量的扩增成分(例如,引物、dNTP、酶、盐等等)。在实例中,可以使用以下中的任一种或更多种来利于另外的纯化:纯化试剂盒、缓冲液、醇类、pH指示剂、离液盐、核酸结合过滤器、离心和任何其他合适的纯化技术。
在变化形式中,模块S120中的计算处理可以包括以下中的任一种或更多种:进行包括微生物组来源的序列(例如,与受试者序列和污染物相对)的鉴定的序列分析操作S124、进行微生物组来源的序列的比对和/或映射操作S125(例如,使用单端比对(single-ended alignment)、无空位比对(ungapped alignment)、空位比对(gapped alignment)、配对中的一种或更多种比对片段化的序列)以及生成源自与生物样品相关的微生物组的组成和/或功能方面的特征S126。
进行测序分析操作S124以鉴定微生物组来源的序列可以包括将来自样品处理的序列数据映射到受试者参考基因组(例如,由Genome Reference Consortium提供的),以除去受试者基因组来源的序列。然后,在将序列数据映射到受试者参考基因组之后剩余的未被鉴定的序列,可以利用比对算法(例如,基本局部比对搜索工具(Basic Local AlignmentSearch Tool)、FPGA加速比对工具、具有BWA的BWT索引、具有SOAP的BWT索引、具有Bowtie的BWT索引等等),而进一步基于序列相似性和/或基于参考的方法(例如,使用VAMPS、使用MG-RAST、使用QIIME数据库)聚类成可操作分类单位(OTU)、比对(例如,使用基因组散列方法(genome hashing approach)、使用Needleman-Wunsch算法、使用Smith-Waterman算法)、并映射到参考细菌基因组(例如,由美国国家生物技术信息中心(National Center forBiotechnology Information)提供的)。未被鉴定的序列的映射可以另外地或可选地包括映射到参考古细菌基因组、病毒基因组和/或真核基因组。此外,可以相对于现有数据库和/或相对于定制生成的数据库进行分类单元的映射。
另外地或可选地,关于生成微生物组功能多样性数据集,模块S120可以包括提取与生物样品的聚合集中如微生物组组成数据集中指示的一种或更多种微生物组组分的功能方面相关的候选特征S127。提取候选功能特征可以包括鉴定与以下中的一种或更多种相关的功能特征:蛋白的原核直系同源聚类(COG);蛋白的真核直系同源聚类(KOG);任何其他合适类型的基因产物;RNA加工和修饰功能分类;染色质结构和动力学功能分类;能量生成和转化功能分类;细胞周期控制和有丝分裂功能分类;氨基酸代谢和转运功能分类;核苷酸代谢和转运功能分类;碳水化合物代谢和转运功能分类;辅酶代谢功能分类;脂质代谢功能分类;翻译功能分类;转录功能分类;复制和修复功能分类;细胞壁/膜/包膜生物发生功能分类;细胞运动功能分类;翻译后修饰、蛋白周转和伴侣功能功能分类;无机离子转运和代谢功能分类;次生代谢物生物合成、转运和分解代谢功能分类;信号传导功能分类;细胞内运输和分泌功能分类;核结构功能分类;细胞骨架功能分类;仅一般功能预测的功能分类;和功能未知的功能分类;和任何其他合适的功能分类。
另外地或可选地,模块S127中的提取候选功能特征可以包括鉴定与以下中的一种或更多种相关的功能特征:系统信息(例如,细胞和生物体功能的途径图谱、基因的模块或功能单元、生物实体的分级分类);基因组信息(例如,全基因组、全基因组中的基因和蛋白、全基因组中的直系同源基因群);化学信息(例如,化学化合物和聚糖、化学反应、酶命名法);健康信息(例如,人类疾病、批准的药物、天然药物(crude drug)和健康相关物质);代谢途径图谱;遗传信息加工(例如,转录、翻译、复制和修复等等)途径图谱;环境信息加工(例如,膜转运、信号传导等等)途径图谱;细胞过程(例如,细胞生长、细胞死亡、细胞膜功能等等)途径图谱;生物体系统(例如,免疫系统、内分泌系统、神经系统等等)途径图谱;人类疾病途径图谱;药物开发途径图谱;和任何其他合适的途径图谱。
在提取候选功能特征中,模块S127可以包括进行搜索一个或更多个数据库,诸如京都基因和基因组百科全书(the Kyoto Encyclopedia of Genes and Genomes,KEGG)和/或由美国国家生物技术信息中心(National Center for Biotechnology Information,NCBI)管理的直系同源聚类(Clusters of Orthologous Groups,COG)数据库。可以基于从生物样品的聚合集中的一个或更多个生成微生物组组成数据集和/或来自样品的集的材料的测序的结果来进行搜索。更详细地,模块S127可以包括向KEGG数据库的面向数据的入口点的实现,包括以下中的一种或更多种:KEGG途径工具、KEGG BRITE工具、KEGG模块工具、KEGG ORTHOLOGY(KO)工具、KEGG基因组工具、KEGG基因工具、KEGG化合物工具、KEGG聚糖工具、KEGG反应工具、KEGG疾病工具、KEGG药物工具,KEGG医师工具(KEGG medicus tool)。搜索可以另外地或可选地根据任何其他合适的过滤器进行。另外地或可选地,模块S127可以包括向KEGG数据库的生物体特异性入口点的实现,包括KEGG生物体工具。另外地或可选地,模块S127可以包括分析工具的实现,包括以下中的一种或更多种:映射KEGG途径、BRITE或模块数据的KEGG映射工具;用于探索KEGG全局地图的KEGG地图集工具、用于基因组注释和KEGG映射的BlastKOALA工具、BLAST/FASTA序列相似性搜索工具和SIMCOMP化学结构相似性搜索工具。在特定实例中,模块S127可以包括基于微生物组组成数据集从KEGG数据库资源和COG数据库资源提取候选功能特征;然而,模块S127可以包括以任何其他合适的方式提取候选功能特征。例如,模块S127可包括提取候选的功能特征,所述候选的功能特征包括来源于基因本体功能分类(Gene Ontology functional classification)的功能特征、和/或任何其他合适的特征。
在一个实例中,分类群(taxonomic group)可包括一种或更多种细菌和其相应的参考序列。当序列读段与分类群的参考序列对齐时,序列读段可基于比对被分配到该分类群。功能群(functional group)可对应于标记为具有相似功能的一种或更多种基因。如此,功能群可由功能群中的基因的参考序列代表,其中特定基因的参考序列可对应于不同细菌。由于每个群包括代表该群的一个或更多个参考序列,分类群和功能群可共同地称为序列群(sequence group)。多细菌分类群可由多个参考序列代表,例如,分类群中每个细菌物种一个参考序列。实施方案可使用序列读段与多个参考序列的对齐程度来基于比对确定该序列读段分配到哪个序列群。
1.2.1实例和变化形式:序列群对应于分类群
分类群可对应于代表该分类群的一个或更多个基因座(例如,基因)的一个或更多个参考序列的任何组。任何给定水平的分类层次结构将包括多个分类群。例如,在一个属水平群中的参考序列可以在另一个科水平群中。
RAV可对应于被分配到特定分类群的读段的比例。该比例可以是相对于各种分母值,例如,相对于所有序列读段,相对于被分配到至少一个群(分类或功能的)的所有序列读段,或对于层次结构中的给定水平被分配的所有序列读段。比对可以以可将序列读段分配到特定分类群的任何方式实施。
例如,基于对16S区域中参考序列的映射,可以鉴定对于该比对具有最佳匹配的分类群。然后可以对该分类群确定RAV,使用特定序列群的序列读段(或序列读段的选票)的数目除以被鉴定为细菌的序列读段的数目,其可以是针对特定区域或甚至对于给定水平的层次结构的。
1.2.2实例和变化形式:序列群对应于功能群或基因
代替确定对应于特定分类群的序列读段的计数或除此以外,实施方案可使用对应于特定基因或具有特定功能的注释的基因的集合的许多序列读段的计数,其中该集合称为功能群。RAV可以以如对分类群相似的方式确定。例如,功能群可包括对应于功能群的一种或更多种基因的多个参考序列。对于同一基因,多个细菌的参考序列可对应于相同功能群。然后,为了确定RAV,被分配到功能群的序列读段的数目可用于确定功能群的比例。
使用可包含单个基因的功能群可以帮助鉴定以下情况:其中许多分类群中存在小的变化(例如,增加),使得变化太小而不是统计学上显著的。但是,变化可以都是对于同一基因或者相同的功能群的一组基因,且因此该变化可以对于功能群是统计学上显著的,尽管该变化对于分类群可以不是显著的。反之也可以是正确的,分类群可以比特定功能群更具预测性,例如,当单个分类群包括具有相对少量变化的许多基因时。
作为实例,如果10个分类群增加了10%,则当每个分类群单独被分析时,区分两个群之间的统计功效可以是低的。但是,如果增加都是对于同一功能群的基因,则增加将是100%,或对于该分类群的比例的倍增。这种大的增加将具有用于区分两个群的大得多的统计功效。如此,功能群可作用以提供对于各个分类群的小变化的总和。并且,正好都在同一分类群的对于各个功能群的小变化可加和以提供对于该特定分类群的高统计功效。
分类群和功能群可以相互补充,因为信息可以是正交的,或者至少部分正交的,每个群的RAV之间仍然可能存在一些关系。例如,一种或更多种分类群和功能群的RAV可作为特征向量的多个特征一起使用,特征向量被分析以提供诊断,如本文描述的。例如,特征向量可与作为表征模型的部分的疾病标志(disease signature)比较。
1.2.3实例和变化形式:用于分类群的流水线(Pipeline)
实施方案可提供分类学上注释样品中存在的微生物的生物信息学流水线。实例注释流水线可包括以下操作。
在第一模块中,可鉴定样品并可加载序列数据。例如,流水线可以以多路分解的fastq文件(或其他合适的文件)开始,所述多路分解的fastq文件是扩增子(例如,16S基因的V4区域的扩增子)的对端测序(pair-end sequencing)的产物。对给定的输入测序文件,所有样品可以被鉴定,且对应的fastq文件可从fastq存储服务器获得并加载到流水线中。
在第二模块中,可过滤读段。例如,在fastq文件中读段的全局质量过滤可以接受具有全局Q-评分>30的读段。在一个实施中,对于每个读段,每位置Q-评分被平均,并且如果平均值等于或高于30,则读段被接受,否则读段被丢弃,其配对的读段也一样。
在第三模块中,可鉴定和去除引物。在一个实施方案中,只有包含正向引物的正向读段和包含反向引物的反向读段(允许引物与多达5个错配或其他数目的错配退火)被进一步考虑。引物和其5’的任何序列从读段去除。朝向正向引物3’的125bp(或其他合适的数目)被认为来自正向读段,且朝向反向引物3’的仅124bp(或其他合适的数目)被认为用于反向读段。<125bp的所有加工的正向读段和<124bp的反向读段被从进一步加工排除,其配对的读段也一样。
在第四模块中,正向和反向读段可被书写到文件(例如,FASTA文件)。例如,保持配对的正向和反向读段可用于生成包含来自正向读段的125bp、与来自反向读段的124bp连结(以反向互补物方向)的文件。
在第五模块中,可将序列读段聚类,例如,以鉴定嵌合序列或确定细菌的共有序列。例如,文件中的序列可以使用Swarm算法,以距离为1进行聚类。这一处理允许生成包括中心生物实体的聚类,所述中心生物实体被距该生物实体1个突变的序列围绕,所述序列是较不丰富的并且是与高通量测序相关的正常碱基调用错误的结果。单例(Singletons)被从进一步分析中去除。在剩余的聚类中,每个聚类最丰富的序列然后被用作代表和分配聚类中所有成员的计数。
在第六模块中,可去除嵌合序列。例如,基因超家族的扩增可导致嵌合DNA序列的形成。这些来自超家族的一个成员的部分PCR产物,其在随后的PCR循环中沿超家族的不同成员延伸。为了去除嵌合DNA序列,一些实施方案可以使用VSEARCH嵌合检测算法,以从头选项和标准参数。该算法使用PCR产物的丰度以鉴定参考“真实”序列为最丰富的那些,且鉴定嵌合产物为较不丰富的那些,并展示与两个或更多个参考序列的局部相似性。所有嵌合序列可从进一步分析中去除。
在第七模块中,可使用序列同一性搜索将分类学注释分配到序列。为了将分类学分配到已经通过以上所有过滤器的序列,一些实施方案可以针对包含注释到门、纲、目、科、属和物种水平、或任何其他分类学水平的细菌菌株(例如参考序列)的数据库进行同一性搜索。考虑到可以推断较低水平分类学水平的较高阶分类学命名,可以保留序列的分类学注释的最具体的水平。序列同一性搜索可使用算法VSEARCH,以允许所使用的参考数据库的穷尽探查的参数(maxaccepts=0,maxrejects=0,id=1)进行。序列同一性的递减的值可用于分配序列到不同分类群:>97%序列同一性用于分配到物种,>95%序列同一性用于分配到属,>90%用于分配到科,>85%用于分配到目,>80%用于分配到纲,且>77%用于分配到门。
在第八模块中,可估计每个分类单元(taxa)的相对丰度并输出到数据库。例如,在所有序列已被用于鉴定参考数据库中的序列后,每个分类单元的相对丰度可以通过将被分配到同一分类群的所有序列的计数除以通过过滤器(例如,被分配)的读段的总数来确定。结果可以上传到用作分类学注释数据的存储的数据库表。
1.2.4实例和变化形式:用于功能群的流水线
对于功能群,方法可如下进行。
在第一步骤中,可发现样品OTU(可操作分类单位)。这可在来自以上的第六模块后发生。在以上第六模块后,序列可被聚类,例如,基于序列同一性(例如,97%序列同一性)。
在第二步骤中,分类学可被分配,例如,通过比较OTU与已知分类学的参考序列。比较可以是基于序列同一性(例如,97%)。
在第三步骤中,分类学丰度可以针对16S拷贝数,或可被分析的任何基因组区域调整。不同物种可具有不同拷贝数的16S基因,所以在相同细胞数目下,具有较高拷贝数的那些将比其他物种具有更多的16S材料用于PCR扩增。因此,丰度可通过调整16S拷贝数来归一化。
在第四步骤中,预先计算的基因组查看表可用于将分类学与功能、和功能的量相关。例如,显示每个分类群重要KEGG或COG功能类别的基因数目的预先计算的基因组查看表可用于基于归一化的16S丰度数据估计那些功能类别的丰度。
在鉴定与生物样品相关的微生物组的代表性微生物群和/或鉴定候选功能方面(例如,与生物样品的微生物组组分相关的功能)之后,可以进行生成源自与生物样品的聚合集相关的微生物组的组成方面和/或功能方面的特征。
在一种变化形式中,生成特征可以包括生成源自多位点序列分型(multilocussequence typing)(MLST)的特征,其可以在与方法100、200的实施相关的任何阶段实验性地进行,以鉴定用于在方法100的后续模块中表征的标志物。另外地或可选地,生成特征可以包括生成描述微生物的某些分类群的存在或不存在和/或呈现的微生物的分类群之间的比率的特征。另外地或可选地,生成特征可以包括生成描述以下中的一种或更多种的特征:呈现的分类群的数量、呈现的分类群的网络、不同分类群的呈现的相关性、不同分类群之间的相互作用、由不同分类群产生的产物、由不同分类群产生的产物之间的相互作用、死亡和活着的微生物之间的比率(例如,对于呈现的不同的分类群,基于RNA的分析)、系统发育距离(例如,在Kantorovich-Rubinstein距离、Wasserstein距离等等方面)、任何其他合适的分类群相关特征、任何其他合适的遗传或功能特征。
另外地或可选地,生成特征可以包括例如使用sparCC方法、使用基因组相对丰度和平均大小(Genome Relative Abundance and Average size,GAAS)方法和/或使用利用混合模型理论的基因组相对丰度(Genome Relative Abundance using Mixture Modeltheory,GRAMMy)方法生成描述不同微生物群的相对丰度的特征,所述利用混合模型理论的基因组相对丰度方法使用序列相似性数据来进行一个或更多个微生物群的相对丰度的最大似然估计。另外地或可选地,生成特征可以包括生成如源自丰度度量的分类学变化的统计测量。另外地或可选地,生成特征可以包括生成源自相对丰度因素(例如,关于分类单元的丰度的变化,其影响其他分类单元的丰度)的特征。另外地或可选地,生成特征可以包括生成描述单独的和/或组合的一个或更多个分类群的存在的定性特征。另外地或可选地,生成特征可以包括生成与遗传标志物(例如,代表性16S、18S和/或ITS序列)相关的特征,所述遗传标志物表征与生物样品相关的微生物组的微生物。另外地或可选地,生成特征可以包括生成与特定基因和/或具有该特定基因的生物体的功能关联相关的特征。另外地或可选地,生成特征可以包括生成与分类单元和/或归属于分类单元的产物的致病性相关的特征。然而,模块S120可以包括生成源自生物样品的核酸的测序和映射的任何其他合适的特征。例如,特征可以是组合的(例如,包括成对的(pairs)、三个一组(triplets))、相关联的(例如,关于不同特征之间的相关性)和/或关于特征的变化(即,时间变化、跨样品部位的变化、空间变化等等)。然而,在模块S120中可以以任何其他合适的方式生成特征。
1.3第一方法:补充数据
模块S130叙述:接收与受试者群体的至少一个子集相关的补充数据集,其中补充数据集提供与神经系统健康问题相关的特性的信息。因此,补充数据集可提供受试者群体中该状况的存在的信息。模块S130用于获得与受试者的集合中的一个或更多个受试者相关的另外的数据,所述另外的数据可以用于训练和/或验证在模块S140中进行的表征过程。在模块S130中,补充数据集优选地包括调查来源的数据,但是可以另外地或可选地包括以下中的一种或更多种:源自传感器的上下文数据(contextual data)、医学数据(例如,与神经系统健康问题相关的当前和历史医学数据、行为工具数据、来源于源于精神障碍诊断与统计手册的工具的数据等)以及任何其他合适类型的数据。在包括接收调查来源的数据的模块S130的变化形式中,调查来源的数据优选地提供与受试者相关的生理学信息、人口学信息和行为信息。生理学信息可以包括与生理学特征(例如,高度、体重、身体质量指数、身体脂肪百分比、身体毛发水平等等)相关的信息。人口学信息可以包括与人口学特征(例如,性别、年龄、种族、婚姻状况、同胞数(number of siblings)、社会经济状况,性取向等等)相关的信息。行为信息可以包括与以下中的一种或更多种相关的信息:健康状况(例如,健康和疾病状态)、生活状况(例如,独自生活、与宠物一起生活、与重要他人一起生活、与儿童一起生活等等)、饮食习惯(例如,杂食、素食、纯素食、糖消耗、酸消耗等等)、行为倾向(例如,身体活动水平、药物使用水平、酒精使用水平等等)、不同的活动性水平(例如,关于在给定时间段内行进的距离)、不同的性活动水平(例如,关于伴侣数和性取向)以及任何其他合适的行为信息。调查来源的数据可以包括定量数据和/或可以被转化为定量数据的定性数据(例如,使用严重度等级、将定性反应映射到定量评分等等)。
在有利于接收调查来源的数据方面,模块S130可以包括向受试者群体的受试者或向与受试者群体的受试者相关的实体提供一种或更多种调查。可以以人员(例如,与来自受试者的样品提供和接收协调)、电子地(例如,在受试者设置帐户期间、在受试者的电子设备执行的应用处、在通过互联网连接可进入的网络应用处等等)、和/或以任何其他合适的方式提供调查。
另外地或可选地,在模块S130中接收的补充数据集的部分可以源自与受试者相关联的传感器(例如,可佩戴计算设备的传感器、移动设备的传感器、与使用者相关联的生物计量传感器等等)。因此,模块S130可以包括接收以下中的一种或更多种:身体活动(physical activity)相关数据或身体动作(physical action)相关数据(例如,来自受试者的移动设备或可佩戴电子设备的加速计和陀螺仪数据)、环境数据(例如,温度数据、高程数据(elevation data)、气候数据、光参数数据等等)、患者营养或饮食相关数据(例如,来自食品机构记录(food establishment check-ins)的数据、来自分光光度分析的数据等等)、生物计量数据(例如,通过患者的移动计算设备内的传感器记录的数据、通过与患者的移动计算设备通信的可佩戴或其他外围设备记录的数据)、位置数据(例如,使用GPS元件)以及任何其他合适的数据。另外地或可选地,补充数据集的部分可以源自受试者的医学记录数据和/或临床数据。因此,补充数据集的部分可以源自一个或多个受试者的一个或更多个电子健康记录(EHR)。
另外地或可选地,模块S130的补充数据集可以包括任何其他合适的诊断信息(例如,临床诊断信息),其可以与源自特征的分析结合以支持方法100的后续模块中的受试者的表征。例如,源自结肠镜检查、活组织检查、血液测试、诊断成像、调查相关信息和任何其他合适的测试的信息可以用于补充模块S130。
1.4.第一方法:神经系统健康问题的表征
模块S140叙述:将补充数据集和从微生物组组成数据集和微生物组功能多样性数据集中的至少一种提取的特征转化成神经系统健康问题的表征模型。模块S140用于进行表征过程,所述表征过程用于鉴定可以用于基于受试者的微生物组组成和/或功能特征表征受试者或群具有神经系统健康问题的特征和/或特征组合。另外地或可选地,表征过程可以被用作诊断工具,所述诊断工具可以基于受试者的微生物组组成和/或功能特征,关于其他健康状况状态、行为特征、医学状况、人口学特征和/或任何其他合适的特性,表征受试者(例如,在行为特征方面、在医学状况方面、在人口学特性方面等等)。然后此类表征可以通过模块S150的疗法模型用于建议或提供个性化疗法。
在进行表征过程中,模块S140可以使用计算方法(例如,统计学方法、机器学习方法、人工智能方法、生物信息学方法等等)来将受试者表征为表现出具有神经系统健康问题的受试者群特有的特征。
在一种变化形式中,表征可以基于源自在第一组受试者和第二组受试者之间的相似性和/或差异的统计分析(例如,概率分布的分析)的特征,所述第一组受试者表现出与神经系统健康问题相关的靶标状态(例如,健康状况状态),所述第二组受试者未表现出与神经系统健康问题相关的靶标状态(例如,“正常”状态)。在实施该变化形式时,可以使用Kolmogorov-Smirnov(KS)检验、置换检验(permutation test)、Cramér-von Mises检验和任何其他统计检验(例如,t检验、Welch t检验、z检验、卡方检验、与分布相关的检验等等)中的一种或更多种。特别地,一种或更多种此类统计假设检验可以用于评价在表现出与神经系统健康问题相关的靶标状态(即,不利状态)的第一组受试者和未表现出与神经系统健康问题相关的靶标状态(即,具有正常状态)的第二组受试者中具有变化的丰度程度(或跨其的变化)的特征的集合。更详细地,可以基于丰度百分比和/或从属于与第一组受试者和第二组受试者相关的多样性的任何其他合适的参数来约束所评价的特征的集合,以提高或降低表征的置信度。在该实例的具体实施中,特征可以源自在特定百分比的第一组的受试者和第二组的受试者中丰富的微生物的分类单元和/或功能特征的存在,其中分类单元在第一组受试者和第二组受试者之间的相对丰度可以从KS检验或Welch t-检验(例如,具有对数正态变换的t-检验)的一种或更多种以显著性的指示(例如,在p-值方面)来确定。因此,模块S140的输出可以包括归一化相对丰度值(例如,患病受试者中的分类单元来源的特征和/或功能特征的丰度比在健康患者中的大25%)以及显著性的指示(例如,p-值为0.0013)。特征生成的变化形式可以另外地或可选地实施或源自功能特征或元数据特征(例如,非细菌标志物)。
在变化形式和实例中,表征可使用具有疾病的受试者群体(状况群体)和不具有该疾病的受试者群体(对照群体)的相对丰度值(RAV)。如果状况群体的特定序列群的RAV的分布与对照群体的RAV的分布统计学上不同,则特定序列群可以鉴定为包括在疾病标志中。由于两个群体具有不同分布,新样品对于疾病标志中的序列群的RAV可以用于分类(例如,确定概率)该样品是否具有该疾病。分类还可用于确定治疗,如本文描述的。鉴别水平(discrimination level)可用于鉴定具有高预测值的序列群。如此,实施方案可以过滤出对于提供诊断不是非常准确的分类群和/或功能群。
已经对对照和状况群体确定序列群的RAV后,各种统计检验可用于确定序列群用于区分疾病(状况)和无疾病(对照)的统计功效。在一个实施方案中,Kolmogorov-Smirnov(KS)检验可用于提供两个分布实际上相同的概率值(p-值)。p-值越小,正确鉴定样品属于哪个群体的概率越大。两个群体之间的平均值的较大分离通常导致较小的p-值(鉴别水平的一个实例)。可以使用用于比较分布的其他检验。Welch’s t-检验假定,分布是高斯分布,这对于特定序列群不一定是真实的。KS检验,由于其是非参数检验,非常适合于比较其概率分布未知的分类单元或功能的分布。
对照和状况群体的RAV的分布可以被分析以鉴定在两个分布之间具有大的分离的序列群。分离可被测量为p-值(参见实施例部分)。例如,对于对照群体的相对丰度值可具有在第一值达到峰值的分布,分布有一定的宽度和衰减。而且,状况群体可具有在统计学上不同于第一值的第二值达到峰值的另一分布。在这种情况下,对照样品的丰度值具有较低的概率处于状况样品遇到的丰度值的分布中。两个分布之间的分离越大,确定给定的样品是属于对照群体还是状况群体的鉴别越准确。如以后所讨论的,分布可用于确定RAV在对照群体中的概率以及确定RAV在状况群体中的概率,其中与两个手段(means)之间的最大差异百分比相关的序列群具有最小的p-值,指示两个群体之间的更大的分离。
在一个实例中,图7显示图解焦虑症的对照分布和状况分布的图,其中序列群是用于根据本发明的实施方案的属分类群的八叠球菌属(Sarcina)。如人们可看出的,具有焦虑症的状况组的RAV倾向于具有比对照分布低的值。如此,如果存在八叠球菌属,较低的RAV将具有较高概率在焦虑症群体中。这一情形中的p-值是4.28e-10。
在进行表征过程中,模块S140可以另外地或可选地将来自微生物组组成数据集和微生物组功能多样性数据集中的至少一种的输入数据转换为可以在预测受试者群体的表征中测试功效的特征向量。来自补充数据集的数据可以用于报告神经系统健康问题的表征,其中用候选特征和候选分类的训练数据集训练表征过程以鉴定在准确预测分类方面具有高程度(或低程度)的预测能力的特征和/或特征组合。因此,用训练数据集精化(refinement)表征方法鉴定出与神经系统健康问题的存在具有高度相关性的(例如,受试者特征的、特征组合的)特征集。
在变化形式中,在预测表征过程的分类中有效的特征向量可以包括与以下中的一种或更多种相关的特征:微生物组多样性度量(例如,关于跨分类群的分布、关于跨古细菌、细菌、病毒和/或真核生物群的分布)、分类群在个体的微生物组中的存在、特定基因序列(例如,16S序列)在个体的微生物组中的呈现、分类群在个体的微生物组中的相对丰度、微生物组恢复力度量(例如,响应于从补充数据集确定的扰动)、编码具有给定功能的蛋白或RNA(酶、转运蛋白、来自免疫系统的蛋白、激素、干扰RNA等等)的基因的丰度以及来源于微生物组组成数据集、微生物组功能多样性数据集(例如COG来源的特征、KEGG来源的特征、其他功能特征等)和/或补充数据集的任何其他合适的特征。另外地,可以将特征的组合用于特征向量,其中在提供组合的特征作为特征集的一部分中,特征可以被分组和/或加权。例如,一个特征或特征集可以包括呈现的细菌类别在个体的微生物组中的数目、特定的细菌属在个体的微生物组中的存在、特定的16S序列在个体的微生物组中的呈现、以及第一细菌门相对于第二细菌门的相对丰度的加权的组合特征(weighted composite)。然而,特征向量可以另外地或可选地以任何其它合适的方式确定。
在模块S140的实例中,假设测序已经以足够的深度发生,人们可以定量指示特征(例如,下面的1.4.1-1.4.8节中描述的特征)存在的序列的读段的数目,从而允许人们为标准之一的估计量设定一个值。读段的数目或特征之一的量的其他量度可作为绝对值或相对值提供。绝对值的一个实例是映射到属拟杆菌属(Bacteroides)的16S RNA编码序列读段的读段数目。可选地,可确定相对量。示例相对量计算是确定特定细菌分类单元(例如,属、科、目、纲或门)的16S RNA编码序列读段的量相对于被分配到细菌域(domain)的16S RNA编码序列读段的总数目。然后,指示样品中特征的量的值可以与神经系统健康问题的疾病标志中的截止值或概率分布比较。例如,如果疾病标志指示,特征#1的相对量为在该水平可能的所有特征的50%或更多指示神经系统健康问题的可能性,则样品中与特征#1相关的基因序列小于50%的定量将指示健康的更高可能性(或至少不是该特定的神经系统健康问题)且可选地,样品中与特征#1相关的基因序列多于50%的定量将指示疾病的更高可能性。
在实例中,分类群和/或功能群可被称为特征群,或在确定对应于特定群(特征)的序列读段的量的上下文中,称为序列群。在实例中,对特定细菌或遗传途径的评分可根据丰度值与已知样品的一种或更多种参考(校准)丰度值的比较来确定,例如,其中小于某一值的检测的丰度值与所讨论的神经系统健康问题相关,且高于某一值的检测的丰度值被评分为与健康相关,或反之亦然,取决于特定标准。各种细菌或遗传途径的评分可被合并以为受试者提供分类。而且,在实例中,丰度值与一种或更多种参考丰度值的比较可包括与从一种或更多种参考值确定的截止值比较。此类截止值可以是使用参考丰度值确定的决策树或聚类技术的部分(其中截止值用于确定丰度值属于哪个聚类)。比较可包括中间确定其他值(例如,概率值)。比较还可包括比较丰度值与参考丰度值的概率分布,并从而与概率值比较。
在一些实施方案中,某些样品可能不表现特定分类群的任何存在,或至少不是高于相对低的阈值的存在(即,低于对照和状况群体的两个分布的任一个的阈值)。如此,特定序列群可以在群体中是普遍的,例如,多于30%的群体可具有该分类群。另一序列群可以在群体中较不普遍,例如,在仅5%群体中出现。某一序列群的普遍性(例如,群体的百分比)可提供有关序列群可用于确定诊断的可能性如何的信息。
在这样的实例中,当受试者落入30%时,序列群可用于确定状况的状态(例如,诊断状况)。但是,当受试者未落入30%,使得分类群简单地不存在时,特定分类群在确定受试者的诊断中可能没有帮助。如此,特定分类群或功能群在诊断特定受试者中是否有用可取决于对应于序列群的核酸分子是否实际上被测序。
因此,疾病标志可包括用于给定受试者的更多序列群。作为一个实例,疾病标志可包括100个序列群,但仅60个序列群可在样品中检测到。受试者的分类(包括在应用中的任何概率)将基于60个序列群确定。
关于表征模型的生成,对于给定疾病具有高鉴别水平(例如,低-p值)的序列群可以被鉴定并用作表征模型的部分,例如,其使用疾病标志确定受试者患有疾病的概率。疾病标志可以包括一组序列群,以及用于提供受试者的分类的区别标准(例如,截止值和/或概率分布)。分类可以是二元的(例如,疾病或非疾病)或具有更多分类(例如,具有疾病或不具有疾病的概率值)。在进行分类中使用疾病标志的哪个序列群依赖于获得的特定序列读段,例如,如果没有序列读段被分配到序列群,则不使用该序列群。在一些实施方案中,可以对不同群体确定单独的表征模型,例如,由受试者当前居住的地理学(例如,国家、地区或大陆)、受试者的一般历史(例如,种族)、或其他因素。
1.4.0序列群的选择、序列群区别标准、和序列群的使用
如以上提到的,具有至少指定的鉴别水平的序列群可以被选择以包括在表征模型中。在各种实施方案中,指定的鉴别水平可以是绝对水平(例如,具有低于指定值的p-值),百分比(例如,在鉴别水平的前10%),或指定数目的前鉴别水平(top discriminationlevel)(例如,前100个鉴别水平)。在一些实施方案中,表征模型可以包括网络图,其中图中的每个节点对应于具有至少指定的鉴别水平的序列群。
在表征模型的疾病标志中使用的序列群也可以基于其他因素来选择。例如,特定序列群只可在一定百分比的群体中被检测到,称为覆盖百分比。理想的序列群将在群体的高百分比中被检测到,并且具有高鉴别水平(例如,低p-值)。在将序列群添加到特定疾病的表征模型之前,可需要最小百分比。最小百分比可以基于伴随的鉴别水平而变化。例如,如果鉴别水平较高,则可以容忍较低的覆盖百分比。作为另一个实例,具有状况的患者的95%可以被分类为数个序列群的之一或组合,并且剩余的5%可以被基于一个序列群解释,其涉及序列群的覆盖之间的正交或重叠。如此,为5%的患病个体提供鉴别功效的序列群可以是有价值的。
用于确定在表征模型的疾病特征中包括哪个序列的另一个因素是显示疾病特征的序列群的受试者的重叠。例如,两个序列群可以都具有高覆盖百分比,但序列群可以覆盖完全相同的受试者。如此,添加一个序列群确实增加了疾病标志的总体覆盖。在这种情况下,两个序列群可以被认为是相互平行的。另一个序列群可以基于该序列群与已经在表征模型中的其他序列群覆盖不同受试者而被选择添加到表征模型。这样的序列群可以被认为与表征模型中已经存在的序列群正交。
例如,选择序列群可以考虑以下因素。一个分类单元可出现在100%的健康个体和100%的患病个体中,但其中在两组中的分布如此接近,以致知晓该分类单元的相对丰度仅允许将几个个体列为患病或健康(即它具有低的鉴别水平)。而出现在仅20%的健康个体和30%的患病个体的分类单元可以具有彼此如此不同的相对丰度的分布,以致其允许列入20%的健康个体和30%的患病个体(即它具有高的鉴别水平)。
在一些实施方案中,机器学习技术可以允许自动鉴定特征(例如序列群)的最佳组合。例如,主成分分析可以将用于分类的特征数目减少到只有彼此最正交的那些,并且可以解释数据中的大部分变化。网络理论方法也是如此,其中人们可以基于不同特征创建多个距离度量,并评价哪个距离度量是最好地将患病个体与健康个体分离的距离度量。
表征模型的疾病标志中包含的序列群的鉴别标准可以基于该疾病的状况分布和对照分布确定。例如,序列群的鉴别标准可以是在两个分布的平均值之间的截止值。作为另一个实例,序列群的鉴别标准可以包括对照和状况群体的概率分布。概率分布可以以与确定鉴别水平的过程不同的方式确定。
概率分布可以基于两个群体的RAV分布确定。两个群体的平均值(mean value)(或其他平均数(average)或中位数)可用于集中两个概率分布的峰值。例如,如果状况群体的平均RAV为20%(或0.2),则状况群体的概率分布可以在20%具有其峰值。宽度或其他形状参数(例如,下降)也可以基于状况群体的RAV分布确定。可以对对照群体做同样的事情。
被包括在表征的疾病标志中的序列群可用于分类新的受试者。序列群可以被认为是特征向量的特征,或者序列群的RAV可以被认为是特征向量的特征,其中特征向量可以与疾病标志的鉴别标准比较。例如,可以将新的受试者的序列群的RAV与疾病标志的每个序列群的概率分布比较。如果RAV为零或接近零,则该序列群可被跳过且不在分类中使用。
在新的受试者中展示的序列群的RAV可用于确定分类。例如,可以将每个展示的序列群的结果(例如,概率值)合并以得到最终分类。作为另一个实例,可以进行RAV的聚类,并且聚类可以用于确定状况的分类。
如图4中示出的,在模块S140的一个可选的变化形式中,可以根据随机森林预测器(random forest predictor,RFP)算法来生成和训练表征过程,所述随机森林预测器(RFP)算法结合bagging(即,靴襻法聚集(bootstrap aggregation))和选择来自训练数据集的随机特征集,以构建与随机特征集相关的决策树集T。在使用随机森林算法中,来自决策树集的N个样本以替换随机取样,创建决策树的子集,并且对于每个节点,从所有预测特征选择m个预测特征用于评价。在节点处提供最佳分裂的预测特征(例如,根据目标函数)用于进行分裂(例如,作为节点处的二叉树(bifurcation)、作为节点处的三叉树(trifurcation))。通过从大数据集多次取样,表征过程鉴定在预测分类方面强的特征的强度可以实质性地增大。在该变化形式中,在处理期间可以包括防止偏倚(例如取样偏倚)和/或解释偏倚量的措施,以提高模型的稳健性。
1.4.1ADHD/ADD表征
在一种实施方案中,模块S140的基于统计分析的表征过程可以基于用源自受试者群体的子集的验证数据集训练并验证的算法,来鉴定与注意力缺陷障碍(例如ADHD、ADD)具有最高相关性的特征集,对于所述注意力缺陷障碍(例如ADHD、ADD)一种或更多种疗法将具有积极效果。特别地,该第一变化形式中的注意力缺陷障碍是神经精神紊乱,其特征是执行功能(例如,注意力控制、抑制性控制)的问题,如通常基于精神障碍手册(例如,精神障碍诊断与统计手册)中描述的标准评估的。在第一变化形式中,对于诊断有用的与注意力缺陷障碍相关的特征集包括源自以下分类单元中的一种或更多种的特征:假单胞菌属(Pseudomonas)(属)、微单胞菌属(Parvimonas)(属)、假单胞菌科(Pseudomonadaceae)(科)、拟杆菌门(Bacteroidetes)(门)、和拟杆菌纲(Bacteroidia)(目)。
另外地或可选地,与ADD/ADHD相关的特征集可来源于以下分类单元中的一种或更多种:紫单胞菌科(Porphyromonadaceae)(科)、Parabacteroides(属)、Poryphyromonas(属)、Streptococcus pseudopneumoniae(物种)、细菌NLAE-zl-P827(物种)、未定地位的芽孢杆菌目(Bacillales)(未分类)、和未定地位的芽孢杆菌科XI.(未分类)。
另外地或可选地,与注意力缺陷障碍相关的特征集可包括COG和/或KEGG-来源的特征,在具体实例中其包括以下中的一种或更多种:神经系统KEGG L2来源的特征;细胞过程和信号传导KEGG L2来源的特征;氨基酸代谢KEGG L2来源的特征;内分泌系统KEGG L2来源的特征;其他转运蛋白KEGG L3来源的特征;丙氨酸、天冬氨酸和谷氨酸代谢KEGG L3来源的特征;谷氨酸能突触KEGG L3来源的特征;和转录机制KEGG L3来源的特征。
因此,受试者的表征包括以经典诊断方法的替代或补充的方式,基于检测一种或更多种以上特征,将受试者表征为患有注意力缺陷障碍的受试者。然而,在特定实例的变化形式中,特征集可以包括对诊断有用的任何其他合适的特征。
1.4.2焦虑症表征
在另一种实施方案中,模块S140的基于统计分析的表征方法可以基于用源自受试者群体的子集的验证数据集训练并验证的算法,来鉴定与焦虑症具有最高相关性的特征集,对于所述焦虑症一种或更多种疗法将具有积极效果。特别地,该第一变化形式中的焦虑症是通过评估行为并将此类行为与精神障碍手册(例如,精神障碍诊断与统计手册)中描述的标准比较而表征的心理障碍。在第一变化形式中,对于诊断有用的与焦虑症相关的特征集包括源自以下分类单元中的一种或更多种的特征:八叠球菌属(属)、拟杆菌属(Bacteroides)(属)、萨特氏菌属(Sutterella)(属)、Dorea(属)、Terrisporobacter(属)、Moryella(属)、Blautia(属)、乳杆菌属(Lactobacillus)(属)、Parabacteroides(属)、拟杆菌科(Bacteroidaceae)(科)、乳杆菌科(Lactobacillaceae)(科)、梭菌科(Clostridiaceae)(科)、消化链球菌科(Peptostreptococcaceae)(科)、颤螺菌科(Oscillospiraceae)(科)、瘤胃菌科(Ruminococcaceae)(科)、黄杆菌科(Flavobacteriaceae)(科)、拟杆菌目(Bacteroidales)(目)、黄杆菌目(Flavobacteriales)(目)、红螺菌目(Rhodospirillales)(目)、拟杆菌纲(纲)、黄杆菌纲(Flavobacteriia)(纲)、变形菌门(Proteobacteria)(门)、和拟杆菌门(门)。特别地,在图7所示的实例数据中,关于样品的百分比和相对丰度描绘了属八叠球菌属在焦虑症受试者与对照受试者中的分布。
另外地或可选地,与焦虑症相关的特征集可来源于以下分类单元中的一种或更多种:黏胶球形菌门(Lentisphaerae)(门)、巴斯德氏菌目(Pasteurellales)(目)、柄杆菌目(Caulobacterales)(目)、拟杆菌科(科)、真杆菌科(Eubacteriaceae)(科)、消化链球菌科(科)、巴斯德氏菌科(Pasteurellaceae)(科)、柄细菌科(Caulobacteraceae)(科)、Flavonifractor(属)、拟杆菌属(属)、嗜胆菌属(Bilophila)(属)、真杆菌属(Eubacterium)(属)、Turicibacter(属)、放线杆菌属(Actinobacillus)(属)、Flavonifractor plautii(物种)、沃氏嗜胆菌(Bilophila wadsworthia)(物种)、Alistipes onderdonkii(物种)、Subdoligranulum sp.4_3_54A2FAA(物种)、Clostridium lavalense(物种)、细菌NLAE-zl-H54(物种)、Eubacterium desmolans(物种)、消化链球菌科细菌TM5(物种)、Actinobacillus porcinus(物种)、和细菌NLAE-zl-P562(物种)。
另外地或可选地,与焦虑症相关的特征集可来源于COG和/或KEGG特征,包括以下中的一种或更多种:碳水化合物代谢KEGG L2来源的特征;翻译KEGG L2来源的特征;遗传信息加工KEGG L2来源的特征;其他次级代谢产物的生物合成KEGG L2来源的特征;代谢KEGGL2来源的特征;复制和修复KEGG L2来源的特征;转运和分解代谢KEGG L2来源的特征;细胞生长和死亡KEGG L2来源的特征;核苷酸代谢KEGG L2来源的特征;神经系统KEGG L2来源的特征;细胞过程和信号传导KEGG L2来源的特征;脂质代谢KEGG L2来源的特征;环境适应KEGG L2来源的特征;核糖体生物发生KEGG L3来源的特征;半乳糖代谢KEGG L3来源的特征;翻译蛋白KEGG L3来源的特征;戊糖和葡糖醛酸互变KEGG L3来源的特征;RNA聚合酶KEGG L3来源的特征;真核生物中的核糖体生物发生KEGG L3来源的特征;链霉素生物合成KEGG L3来源的特征;碳水化合物代谢KEGG L3来源的特征;果糖和甘露糖代谢KEGG L3来源的特征;D-丙氨酸代谢KEGG L3来源的特征;多聚乙酰糖单元生物合成KEGG L3来源的特征;乙醛酸和二羧酸代谢KEGG L3来源的特征;氨酰基-tRNA生物合成KEGG L3来源的特征;鞘脂代谢KEGG L3来源的特征;核糖体KEGG L3来源的特征;生物素代谢KEGG L3来源的特征;其他聚糖降解KEGG L3来源的特征;翻译因子KEGG L3来源的特征;萜类骨架生物合成KEGG L3来源的特征;DNA修复和重组蛋白KEGG L3来源的特征;分泌系统KEGG L3来源的特征;阿尔茨海默病KEGG L3来源的特征;蛋白输出KEGG L3来源的特征;氨基糖和核苷酸糖代谢KEGGL3来源的特征;复制、重组和修复蛋白KEGG L3来源的特征;次级代谢产物的生物合成和生物降解KEGG L3来源的特征;其他转运蛋白KEGG L3来源的特征;细菌分泌系统KEGG L3来源的特征;氨基酸代谢KEGG L3来源的特征;嘧啶代谢KEGG L3来源的特征;肽聚糖生物合成KEGG L3来源的特征;组氨酸代谢KEGG L3来源的特征;半胱氨酸和甲硫氨酸代谢KEGG L3来源的特征;精氨酸和脯氨酸代谢KEGG L3来源的特征;氰基氨基酸代谢KEGG L3来源的特征;苯丙烷类(phenylpropanoid)生物合成KEGG L3来源的特征;错配修复KEGG L3来源的特征;DNA复制KEGG L3来源的特征;丙酮酸代谢KEGG L3来源的特征;结核KEGG L3来源的特征;DNA复制蛋白KEGG L3来源的特征;谷氨酸能突触KEGG L3来源的特征;染色体KEGG L3来源的特征;细胞周期-柄细菌属(caulobacter)KEGG L3来源的特征;无机离子转运和代谢KEGGL3来源的特征;核苷酸切除修复KEGG L3来源的特征;烟酸和烟酰胺代谢KEGG L3来源的特征;叶酸的一碳库(one carbon pool by folate)KEGG L3来源的特征;胰岛素信号传导途径KEGG L3来源的特征;氮代谢KEGG L3来源的特征;细菌毒素KEGG L3来源的特征;丙氨酸、天冬氨酸和谷氨酸代谢KEGG L3来源的特征;异戊烯转移酶KEGG L3来源的特征;甘油磷脂代谢KEGG L3来源的特征;嘌呤代谢KEGG L3来源的特征;核黄素代谢KEGG L3来源的特征;ABCB-BAC、ATP-结合盒,亚科B,细菌KEGG L4来源的特征;和未表征的蛋白KEGG L4来源的特征。
因此,受试者的表征包括以经典诊断方法的替代或补充的方式,基于检测一种或更多种以上特征,将受试者表征为患有焦虑症的受试者。然而,在特定实例的变化形式中,特征集可以包括对诊断有用的任何其他合适的特征。
1.4.3阿斯伯格综合征表征
在另一种实施方案中,模块S140的基于统计分析的表征方法可以基于用源自受试者群体的子集的验证数据集训练并验证的算法,来鉴定与阿斯伯格综合征具有最高相关性的特征集,对于所述阿斯伯格综合征一种或更多种疗法将具有积极效果。特别地,该第一变化形式中的阿斯伯格综合征是孤独症谱系障碍,其特征是社会交流和非语言沟通的重大困难,并使用精神障碍手册(例如,精神障碍诊断与统计手册)中描述的诊断标准评估。在第一种变化形式中,对于诊断有用的与阿斯伯格综合征相关的特征集包括源自以下分类单元中的一种或更多种的特征:乳球菌属(Lactococcus)(属)、Pseudoclavibacter(属)、柠檬酸菌属(Citrobacter)(属)、梭杆菌属(Fusobacterium)(属)、甲烷球形菌属(Methanosphaera)(属)、微杆菌科(Microbacteriaceae)(科)、梭杆菌科(Fusobacteriaceae)(科)、梭杆菌目(Fusobacteriales)(目)、拟杆菌目(目)、黄杆菌目(目)、梭杆菌纲(Fusobacteriia)(纲)、拟杆菌纲(纲)、黄杆菌纲(纲)、梭杆菌门(Fusobacteria)(门)、和拟杆菌门(门)。
另外地或可选地,与阿斯伯格综合征相关的特征集可来源于以下分类单元中的一种或更多种:产丁酸细菌L1-93(物种)。
另外地或可选地,与阿斯伯格综合征相关的特征集可来源于以下中的一种或更多种:COG来源的特征、KEGG L2、L3、L4来源的特征、以及任何其他合适的功能特征。因此,受试者的表征包括以经典诊断方法的替代或补充的方式,基于检测以上特征中的一种或更多种而将受试者表征为患有阿斯伯格综合征的受试者。然而,在特定实例的变化形式中,特征集可以包括对诊断有用的任何其他合适的特征。
1.4.4孤独症表征
在另一种实施方案中,模块S140的基于统计分析的表征方法可以基于用源自受试者群体的子集的验证数据集训练并验证的算法,来鉴定与焦虑症具有最高相关性的特征集,对于所述焦虑症一种或更多种疗法将具有积极效果。特别地,该第一变化形式中的孤独症是行为和/或认知上表现的神经发育障碍,如使用精神障碍手册(例如,精神障碍诊断与统计手册)中描述的诊断标准评估的。在第一变化形式中,对于诊断有用的与孤独症相关的特征集包括源自以下分类单元中的一种或更多种的特征:厌氧孢杆菌属(Anaerosporobacter)(属)、Finegoldia(属)、嗜胨菌属(Peptoniphilus)(属)、乳球菌属(属)、柠檬酸菌属(属)、无甾醇支原体属(Asteroleplasma)(属)、Dorea(属)、巨单胞菌属(Megamonas)(属)、红蝽菌科(Coriobacteriaceae)(科)、红蝽菌目(Coriobacteriales)(目)、和软膜体纲(Mollicutes)(纲)。
另外地或可选地,与孤独症相关的特征集可来源于以下分类单元中的一种或更多种:脆弱拟杆菌(Bacteroides fragilis)(物种)、霍尔德曼氏菌属(Holdemania)(属)、Subdoligranulum sp.4_3_54A2FAA(物种)、Blautia(属)、瘤胃球菌属(Ruminococcus)(属)、卵瘤胃球菌(Ruminococcus obeum)(物种)、普雷沃氏菌属(Prevotella)(属)、Dorea(属)、粪球菌属(Coprococcus)(属)、产气柯林斯菌(Collinsella aerofaciens)(物种)、Marvinbryantia(属)、梭菌目(Clostridiales)细菌A2-162(物种)、和颤螺菌科(科)。
另外地或可选地,与孤独症相关的特征集可来源于以下中的一种或更多种:COG来源的特征、KEGG L2、L3、L4来源的特征、以及任何其他合适的功能特征。因此,受试者的表征包括以经典诊断方法的替代或补充的方式,基于检测一种或更多种以上特征,将受试者表征为患有孤独症的受试者。然而,在特定实例的变化形式中,特征集可以包括对诊断有用的任何其他合适的特征。
1.4.5慢性疲劳综合征表征
在另一种实施方案中,模块S140的基于统计分析的表征方法可以基于用源自受试者群体的子集的验证数据集训练并验证的算法,来鉴定与慢性疲劳综合征具有最高相关性的特征集,对于所述慢性疲劳综合征一种或更多种疗法将具有积极效果。特别地,该第一变化形式中的慢性疲劳综合征是使人虚弱而无清楚的病因的医学状况,且通常基于通过测试患者的其他状况(例如抑郁症、精神分裂症、进食障碍、双相情感障碍、酒精滥用、药物滥用、肌肉骨骼紊乱等)排除其他状况来评估。在第一变化形式中,对于诊断有用的与慢性疲劳综合征相关的特征集包括源自以下分类单元中的一种或更多种的特征:Dorea(属)、柯林斯菌属(Collinsella)(属)、双歧杆菌属(Bifidobacterium)(属)、Moryella(属)、Faecalibacterium(属)、Erysipelatoclostridium(属)、Intestinimona(属)、小杆菌属(Dialister)(属)、拟杆菌属(属)、红蝽菌科(科)、颤螺菌科(科)、双歧杆菌科(Bifidobacteriaceae)(科)、瘤胃菌科(科)、丹毒丝菌科(Erysipelotrichaceae)(科)、普雷沃氏菌科(Prevotellaceae)(科)、拟杆菌科(科)、链球菌科(Streptococcaceae)(科)、理研菌科(Rikenellaceae)(科)、消化链球菌科(科)、红蝽菌目(目)、双歧杆菌目(Bifidobacteriales)(目)、丹毒丝菌目(Erysipelotrichales)(目)、拟杆菌目(目)、梭菌目(目)、Selenomonadales(目)、放线菌目(Actinomycetales)(目)、放线菌纲(Actinobacteria)(纲)、丹毒丝菌纲(Erysipelotrichia)(纲)、拟杆菌纲(纲)、梭菌纲(Clostridia)(纲)、Negativicutes(纲)、疣微菌纲(Verrucomicrobiae)(纲)、放线菌门(Actinobacteria)(门)、拟杆菌门(门)、硬壁菌门(Firmicutes)(门)、和疣微菌门(Verrucomicrobia)(门)。
另外地或可选地,与慢性疲劳综合征相关的特征集可来源于以下分类单元中的一种或更多种:Clostridium lavalense(物种)、δ-变形菌纲(Deltaproteobacteria)(纲)、霍尔德曼氏菌属(属)、Alistipes(属)、理研菌科(科)、嗜胆菌属(属)、沃氏嗜胆菌(物种)、细菌NLAE-zl-P827(物种)、红螺菌目(目)、红螺菌科(Rhodospirillaceae)(科)、粪球菌属(属)、放线菌门(门)、Odoribacter splanchnicus(物种)、放线菌亚纲(Actinobacteridae)(亚纲)、柔嫩梭菌(Clostridium leptum)(物种)、硬壁菌门(门)、Odoribacter(属)、放线菌目(门)、罗氏菌属(Roseburia)(属)、细菌NLAE-zl-H54(物种)、棒状杆菌亚目(Corynebacterineae)(科)、棒状杆菌属(Corynebacterium)(属)、棒状杆菌科(Corynebacteriaceae)(科)、Dorea(属)、消化链球菌科(科)、Roseburia inulinivorans(物种)、嗜热链球菌(Streptococcus thermophilus)(物种)、放线菌属(Actinomyces)(属)、放线菌科(Actinomycetaceae)(科)、和放线菌亚目(Actinomycineae)(科)。
另外地或可选地,与慢性疲劳综合征相关的特征集可来源于COG和/或KEGG特征,包括以下中的一种或更多种:碳水化合物代谢KEGG L2来源的特征;代谢KEGG L2来源的特征;翻译KEGG L2来源的特征;遗传信息加工KEGG L2来源的特征;转运和分解代谢KEGG L2来源的特征;酶家族KEGG L2来源的特征;脂质代谢KEGG L2来源的特征;辅因子和维生素的代谢KEGG L2来源的特征;核苷酸代谢KEGG L2来源的特征;细胞生长和死亡KEGG L2来源的特征;复制和修复KEGG L2来源的特征;环境适应KEGG L2来源的特征;信号传导分子和相互作用KEGG L2来源的特征;其他次级代谢产物的生物合成KEGG L2来源的特征;聚糖生物合成和代谢KEGG L2来源的特征;神经变性疾病KEGG L2来源的特征;核糖体生物发生KEGG L3来源的特征;戊糖和葡糖醛酸互变KEGG L3来源的特征;肽聚糖生物合成KEGG L3来源的特征;翻译蛋白KEGG L3来源的特征;果糖和甘露糖代谢KEGG L3来源的特征;萘降解KEGG L3来源的特征;氨基酸相关的酶类KEGG L3来源的特征;无机离子转运和代谢KEGG L3来源的特征;碳水化合物代谢KEGG L3来源的特征;氨酰基-tRNA生物合成KEGG L3来源的特征;其他聚糖降解KEGG L3来源的特征;磷酸肌醇代谢KEGG L3来源的特征;RNA聚合酶KEGG L3来源的特征;核糖体KEGG L3来源的特征;染色体KEGG L3来源的特征;鞘脂代谢KEGG L3来源的特征;半乳糖代谢KEGG L3来源的特征;细胞运动性和分泌KEGG L3来源的特征;硫胺素代谢KEGG L3来源的特征;DNA修复和重组KEGG L3来源的特征;萜类骨架生物合成KEGG L3来源的特征;光合成蛋白KEGG L3来源的特征;次级代谢产物的生物合成和生物降解KEGG L3来源的特征;光合成;其他转运蛋白KEGG L3来源的特征;真核生物中的核糖体生物发生KEGG L3来源的特征;半胱氨酸和甲硫氨酸代谢KEGG L3来源的特征;柠檬酸循环(TCA循环)KEGG L3来源的特征;细胞周期-柄细菌属KEGG L3来源的特征;氨基糖和核苷酸糖代谢KEGGL3来源的特征;磷酸戊糖途径KEGG L3来源的特征;植物-病原体相互作用KEGG L3来源的特征;乙苯降解KEGG L3来源的特征;烟酸和烟酰胺代谢KEGG L3来源的特征;翻译因子KEGGL3来源的特征;丙酮酸代谢KEGG L3来源的特征;复制、重组和修复蛋白KEGG L3来源的特征;D-丙氨酸代谢KEGG L3来源的特征;嘧啶代谢KEGG L3来源的特征;核苷酸切除修复KEGGL3来源的特征;氨基酸代谢KEGG L3来源的特征;嘌呤代谢KEGG L3来源的特征;肽酶KEGGL3来源的特征;乙醛酸和二羧酸代谢KEGG L3来源的特征;同源重组KEGG L3来源的特征;和丁苷菌素和新霉素生物合成KEGG L3来源的特征。
因此,受试者的表征包括以经典诊断方法的替代或补充的方式,基于检测一种或更多种以上特征,将受试者表征为患有慢性疲劳综合征的受试者。然而,在特定实例的变化形式中,特征集可以包括对诊断有用的任何其他合适的特征。
1.4.6抑郁症表征
在另一种实施方案中,模块S140的基于统计分析的表征方法可以基于用源自受试者群体的子集的验证数据集训练并验证的算法,来鉴定与抑郁症具有最高相关性的特征集,对于所述抑郁症一种或更多种疗法将具有积极效果。特别地,该第一变化形式中的抑郁症是精神障碍,其特征是普遍和持久的情绪低落,伴随着自尊心低下,和失去对正常有趣活动的兴趣,且通常基于精神障碍手册(例如,精神障碍诊断与统计手册)中描述的诊断标准和工具评估。在第一变化形式中,对于诊断有用的与抑郁症相关的特征集包括源自以下分类单元中的一种或更多种的特征:拟杆菌属(属)、八叠球菌属(属)、Parabacteroides(属)、Terrisporobacter(属)、乳杆菌属(属)、Moryella(属)、颤螺菌科(科)、拟杆菌科(科)、乳杆菌科(科)、黄杆菌科(科)、梭菌科(科)、黄杆菌目(目)、拟杆菌目(目)、黄杆菌纲(纲)、拟杆菌纲(纲)、和拟杆菌门(门)。
另外地或可选地,与抑郁症相关的特征集可来源于以下分类单元中的一种或更多种:未分类的毛螺旋菌科(Lachnospiraceae)(科)、Flavonifractor(属)、细菌NLAE-zl-P827(物种)、细菌NLAE-zl-P430(物种)、拟杆菌属(属)、拟杆菌科(科)、Selenomonadales(目)、Negativicutes(纲)、单形拟杆菌(Bacteroides uniformis)(物种)、瘤胃菌科(科)、Dorea(属)、Blautia faecis(物种)、粪球菌属(属)、α-变形菌纲(Alphaproteobacteria)(纲)、消化链球菌科(科)、普雷沃氏菌科(科)、Christensenellaceae(科)、未分类的消化链球菌科(未分类)、普雷沃氏菌属(属)、和未分类的消化链球菌科(未分类)。
另外地或可选地,与抑郁症相关的特征集可来源于COG和/或KEGG特征,包括以下中的一种或更多种:碳水化合物代谢KEGG L2来源的特征;翻译KEGG L2来源的特征;复制和修复KEGG L2来源的特征;细胞生长和死亡KEGG L2来源的特征;代谢KEGG L2来源的特征;核苷酸代谢KEGG L2来源的特征;遗传信息加工KEGG L2来源的特征;折叠、分选和降解KEGGL2来源的特征;其他次级代谢产物的生物合成KEGG L2来源的特征;细胞过程和信号传导KEGG L2来源的特征;信号传导分子和相互作用KEGG L2来源的特征;脂质代谢KEGG L2来源的特征;辅因子和维生素的代谢KEGG L2来源的特征;转运和分解代谢KEGG L2来源的特征;萜类和多聚乙酰的代谢KEGG L2来源的特征;环境适应KEGG L2来源的特征;核糖体生物发生KEGG L3来源的特征;戊糖和葡糖醛酸互变KEGG L3来源的特征;半乳糖代谢KEGG L3来源的特征;翻译蛋白KEGG L3来源的特征;核糖体KEGG L3来源的特征;同源重组KEGG L3来源的特征;果糖和甘露糖代谢KEGG L3来源的特征;翻译因子KEGG L3来源的特征;氨基酸相关的酶类KEGG L3来源的特征;萜类骨架生物合成KEGG L3来源的特征;碳水化合物代谢KEGGL3来源的特征;真核生物中的核糖体生物发生KEGG L3来源的特征;磷酸戊糖途径KEGG L3来源的特征;氨基酸代谢KEGG L3来源的特征;DNA修复和重组KEGG L3来源的特征;氨酰基-tRNA生物合成KEGG L3来源的特征;细菌毒素KEGG L3来源的特征;乙醛酸和二羧酸代谢KEGG L3来源的特征;阿尔茨海默病KEGG L3来源的特征;RNA聚合酶KEGG L3来源的特征;氨基糖和核苷酸糖代谢KEGG L3来源的特征;嘧啶代谢KEGG L3来源的特征;染色体KEGG L3来源的特征;蛋白输出KEGG L3来源的特征;其他聚糖降解KEGG L3来源的特征;肽聚糖生物合成KEGG L3来源的特征;DNA复制蛋白KEGG L3来源的特征;结核KEGG L3来源的特征;叶酸的一碳库KEGG L3来源的特征;生物素代谢KEGG L3来源的特征;鞘脂代谢KEGG L3来源的特征;烟酸和烟酰胺代谢KEGG L3来源的特征;丙酮酸代谢KEGG L3来源的特征;细胞周期-柄细菌属KEGG L3来源的特征;淀粉和蔗糖代谢KEGG L3来源的特征;错配修复KEGG L3来源的特征;磷脂酰肌醇信号传导系统KEGG L3来源的特征;无机离子转运和代谢KEGG L3来源的特征;链霉素生物合成KEGG L3来源的特征;其他转运蛋白KEGG L3来源的特征;DNA复制KEGG L3来源的特征;核黄素代谢KEGG L3来源的特征;D-丙氨酸代谢KEGG L3来源的特征;核苷酸切除修复KEGG L3来源的特征;异戊烯转移酶KEGG L3来源的特征;多聚乙酰糖单元生物合成KEGG L3来源的特征;氯烷烃和氯烯烃降解KEGG L3来源的特征;精氨酸和脯氨酸代谢KEGG L3来源的特征;次级代谢产物的生物合成和生物降解KEGG L3来源的特征;半胱氨酸和甲硫氨酸代谢KEGG L3来源的特征;组氨酸代谢KEGG L3来源的特征;氰基氨基酸代谢KEGG L3来源的特征;苯丙烷类生物合成KEGG L3来源的特征;细菌分泌系统KEGG L3来源的特征;嘌呤代谢KEGG L3来源的特征;光合成蛋白KEGG L3来源的特征;RNA降解KEGG L3来源的特征;和光合成KEGG L3来源的特征。
因此,受试者的表征包括以经典诊断方法的替代或补充的方式,基于检测一种或更多种以上特征,将受试者表征为患有抑郁症的受试者。然而,在特定实例的变化形式中,特征集可以包括对诊断有用的任何其他合适的特征。
1.4.7恶性贫血表征
在另一种实施方案中,模块S140的基于统计分析的表征方法可以基于用源自受试者群体的子集的验证数据集训练并验证的算法,来鉴定与恶性贫血具有最高相关性的特征集,对于所述恶性贫血一种或更多种疗法将具有积极效果。特别地,第一变化形式中的恶性贫血是巨红细胞性贫血障碍,通过Schilling试验、血清B12水平的评估和来自患者的样品中针对胃壁细胞的抗体的检测来表征。在第一种变化形式中,对于诊断有用的与恶性贫血相关的特征集包括源自以下分类单元中的一种或更多种的特征:单形拟杆菌(物种)、Flavonifractor(属)、未分类的毛螺旋菌科(科)、梭菌目(目)、梭菌纲(纲)、普雷沃氏菌属(属)、瘤胃球菌属(属)、酸杆菌门(Acidobacteria)(门)、放线菌亚纲(亚纲)、未分类的拟杆菌目(目)、红螺菌科(科)、Blautia faecis(物种)、葡萄球菌科(Staphylococcaceae)(科)、环境样品、未定地位的梭菌目(科)、未定地位的梭菌科XI.(科)、放线菌目(目)、Finegoldia(属)、嗜胨菌属(属)、大芬戈尔德菌(Finegoldia magna)(物种)、棒状杆菌亚目(科)、棒状杆菌科(科)、和棒状杆菌属(属)。
另外地或可选地,与恶性贫血相关的特征集可来源于以下中的一种或更多种:COG来源的特征、KEGG L2、L3、L4来源的特征、以及任何其他合适的功能特征。因此,受试者的表征包括以经典诊断方法的替代或补充的方式,基于检测一种或更多种以上特征,将受试者表征为患有恶性贫血的受试者。然而,在特定实例的变化形式中,特征集可以包括对诊断有用的任何其他合适的特征。
1.4.8中风表征
在另一种实施方案中,模块S140的基于统计分析的表征方法可以基于用源自受试者群体的子集的验证数据集训练并验证的算法,来鉴定与中风具有最高相关性的特征集,对于所述中风一种或更多种疗法将具有积极效果。特别地,在该第一变化形式中的中风是心血管紊乱的并发症,其特征为向脑部的差的血液流动,如通常通过神经学检查、计算机断层扫描、磁共振成像、多普勒超声和/或动脉造影术评估的。在第一种变化形式中,对于诊断有用的与中风相关的特征集包括源自以下分类单元中的一种或更多种的特征:克罗诺杆菌属(Cronobacter)(属)、阪崎克罗诺杆菌(Cronobacter sakazakii)(物种)、γ-变形菌纲(Gammaproteobacteria)(纲)、梭菌目细菌A2-162(物种)、Barnesiella(属)、丹毒丝菌科(科)、和假单胞菌目(Pseudomonadales)(目)。
另外地或可选地,与中风相关的特征集可来源于以下中的一种或更多种:COG来源的特征、KEGG L2、L3、L4来源的特征、以及任何其他合适的功能特征。因此,受试者的表征包括以经典诊断方法的替代或补充的方式,基于检测一种或更多种以上特征,将受试者表征为患有中风的受试者。然而,在特定实例的变化形式中,特征集可以包括对诊断有用的任何其他合适的特征。
受试者的表征可以另外地或可选地实施使用高假阳性测试和/或高假阴性测试,以进一步分析表征方法在支持根据方法100的实施方案生成的分析中的灵敏度。
此外,关于上述方法,深度测序方法可以允许确定足够拷贝数的DNA序列,以确定样品中相应细菌或遗传途径的相对量。已经鉴定了在以上1.4.1-1.4.8节中描述的一种或更多种特征后,人们现在可以通过由任何定量检测方法检测一种或更多种以上特征来诊断个体中的神经系统健康问题(例如,以上描述的具体神经系统健康问题)。例如,尽管深度测序可用于检测1.4.1-14.8节中一种或更多种选项的存在、不存在或量,人们还可使用其他检测方法。例如,并非意图限制本发明的范围,人们可使用基于蛋白的诊断诸如免疫测定通过检测分类单元特异性蛋白标志物来检测细菌分类单元。
1.5第一方法:疗法模型和提供
如图1A中示出的,在一些变化形式中,第一方法100还可以包括模块S150,所述模块S150叙述:基于表征模型,生成被配置为矫正神经系统健康问题或以其他方式改进神经系统健康问题的状态的疗法模型。模块S150用以鉴定或预测可以使受试者的微生物组组成和/或功能特征朝向在改善受试者的健康方面期望的平衡状态改变的疗法(例如基于益生菌的疗法、基于益生元的疗法、基于噬菌体的疗法、基于小分子的疗法等等)。在模块S150中,疗法可以选自包括以下中的一种或更多种的疗法:益生菌疗法、基于噬菌体的疗法、益生元疗法、基于小分子的疗法、认知/行为疗法、物理康复疗法(physical rehabilitationtherapies)、临床疗法、基于药物的疗法、膳食相关疗法、和/或被设计为在改善使用者的健康方面以任何其他合适的方式起作用的任何其他适合的疗法。在基于噬菌体的疗法的特定实例中,可以使用对在患有神经系统健康问题的受试者中呈现的某些细菌(或其他微生物)特异的噬菌体的一个或更多个群体(例如,以集落形成单位为计),以下调或以其他方式消除某些细菌的群体。因此,可以使用基于噬菌体的疗法来减小受试者中呈现的细菌的不期望的群体的大小。互补地,可以使用基于噬菌体的疗法来增大未被所用噬菌体靶向的细菌群体的相对丰度。
例如,关于以上1.4.1至1.4.8节中的神经系统健康问题的变化形式,疗法(例如,益生菌疗法、基于噬菌体的疗法、益生元疗法等等)可以被配置为下调和/或上调与神经系统健康问题特有的特征相关的微生物群体或亚群(和/或其功能)。
在一个此类变化形式中,模块S150可包括以下步骤的一个或更多个:从受试者获得样品;从样品中纯化核酸(例如,DNA);深度测序来自样品的核酸以确定1.4.1-1.4.8节的一节或更多节中的特征的一种或更多种的量;和比较每种特征的所得量与1.4.1-1.4.8节的一节或更多节中所列的特征的一种或更多种的一种或更多种参考量,如在具有神经系统健康问题的一般个体或不具有神经系统健康问题的个体或二者中出现的。特征的汇编有时可称为具体疾病的“疾病标志”。疾病标志可用作表征模型,并可包括对照群体(无疾病)或具有疾病的状况群体或二者的概率分布。疾病标志可包括所列的一种或更多种特征(例如,细菌分类单元或遗传途径)并可任选地包括从对照和/或状况群体的丰度值确定的标准。示例标准可包括与一般健康或患病个体相关的那些特征的量的截止或概率值。
在益生菌疗法的特定实例中,如图5中示出的,治疗模型的候选疗法可以进行以下中的一种或更多种:通过提供物理屏障(例如,通过定植抵抗的方式)阻断病原体进入上皮细胞、通过刺激杯状细胞(goblet cells)诱导粘液屏障的形成、增强受试者的上皮细胞之间的顶端紧密连接的完整性(例如,通过刺激闭锁小带1(zona-occludens 1)的上调、通过防止紧密连接蛋白重新分布)、产生抗微生物因子、刺激抗炎细胞因子的产生(例如,通过树突细胞的信号传导和调节性T细胞的诱导)、触发免疫应答、以及进行调节受试者的微生物组远离失调状态的任何其他合适的功能。
在变化形式中,疗法模型优选地基于来自大的受试者群体的数据,所述大的受试者群体可以包括在模块S110中微生物组相关数据集源自的受试者群体,其中在暴露于多种治疗措施之前以及暴露于多种治疗措施之后,微生物组组成和/或功能特征或健康状态被充分表征。在基于不同的微生物组表征鉴定为受试者提供期望结果的治疗措施中,此类数据可以用于训练和验证疗法提供模型。在变化形式中,作为监督式机器学习算法的支持向量机可用于生成疗法提供模型。然而,以上描述的任何其他合适的机器学习算法可以有利于疗法提供模型的生成。
虽然以上关于模块的执行描述了统计分析和机器学习的一些方法,但是方法100的变化形式在进行表征过程中可以另外地或可选地使用任何其他合适的算法。在变化形式中,算法可以通过包括以下中的任何一种或更多种的学习方式来表征:监督式学习(例如,利用逻辑回归、利用反向传播神经网络)、非监督式学习(例如,利用Apriori算法、利用K-均值聚类)、半监督式学习、强化学习(例如,利用Q学习算法、利用时间差分学习)和任何其他合适的学习方式。此外,算法可以实施以下中的任何一种或更多种:回归算法(例如,普通最小二乘法、逻辑回归、逐步回归、多元自适应回归样条(multivariate adaptiveregression splines)、本地散点平滑估计(locally Estimated Scatterplot Smoothing)等等)、基于实例的方法(例如,k最近邻域、学习向量量化、自组织映射等等)、正则化方法(例如,岭回归、最小绝对值收缩和选择算子(least absolute shrinkage and selectionoperator)、弹性网络等等)、决策树学习方法(例如,分类和回归树、迭代二叉树3代、C4.5、卡方自动交互检测、决策树桩(decision stump)、随机森林、多元自适应回归样条、梯度推进机(gradient boosting machines)等等)、贝叶斯方法(例如,朴素贝叶斯(Bayes)、平均单依赖估计(averaged one-dependence estimators)、贝叶斯置信网络(Bayesian belief network)等等)、核方法(例如,支持向量机、径向基函数、线性判别分析等等)、聚类方法(例如,k-均值聚类、期望最大化等等),关联规则学习算法(associatedrule learning algorithm)(例如,Apriori算法、Eclat算法等等)、人工神经网络模型(例如,感知方法(Perceptron method)、反向传播方法(back-propagation method)、Hopfield网络方法、自组织映射方法、学习向量量化方法等等)、深度学习算法(例如,受限玻尔兹曼机(restricted Boltzmann machine)、深度置信网络方法(deep belief networkmethod)、卷积网络方法(convolution network method)、栈式自编码器方法(stackedauto-encoder method)等等)、降维方法(例如,主成分分析、偏最小二乘回归、Sammon映射、多维标度(multidimensional scaling)、投影寻踪等等)、集成方法(例如,推进(boosting)、靴襻式聚集(boostrapped aggregation)、AdaBoost、堆叠泛化(stackedgeneralization)、梯度推进机方法(gradient boosting machine method)、随机森林法等等)和任何合适形式的算法。
另外地或可选地,疗法模型可以涉及如从受试者群体中被鉴定为身体健康的受试者评价的“正常”或基线微生物组组成和/或功能特征的鉴定而得到。在鉴定受试者群体的被表征为身体健康的受试者子集(例如,使用表征过程的特征)之后,在模块S150中可以生成将微生物组组成和/或功能特征朝向处于身体健康的受试者的那些微生物组组成和/或功能特征调节的疗法。因此,模块S150可以包括鉴定一种或更多种基线微生物组组成和/或功能特征(例如,对于人口学特征集中的每一个,一个基线微生物组),以及可以使处于失调状态的受试者的微生物组朝向鉴定的基线微生物组组成和/或功能特征之一改变的潜在疗法制剂和疗法方案。然而,可以以任何其他合适的方式生成和/或精化疗法模型。
与疗法模型相关的益生菌疗法相关微生物组合物优选地包括可培养(例如,能够扩增以提供可扩展(scalable)疗法)且非致死性(例如,以其期望的治疗剂量是非致死性的)的微生物。此外,微生物组合物可以包含对受试者的微生物组具有急性或温和效果的单一类型的微生物。另外地或可选地,微生物组合物可以包括多种类型的微生物的平衡的组合,所述平衡的组合被配置为在将受试者的微生物组朝向期望的状态驱动方面彼此配合。例如,益生菌疗法中的多种类型的细菌的组合可以包括第一细菌类型,所述第一细菌类型生成被第二细菌类型使用的产物,所述第二细菌类型在积极影响受试者的微生物组方面具有强烈效果。另外地或可选地,益生菌疗法中的多种类型细菌的组合可以包括若干种细菌类型,所述若干种细菌类型产生具有积极影响受试者的微生物组的相同功能的蛋白。
在益生菌疗法的实例中,益生菌组合物可以包含一种或更多种已鉴定的微生物分类单元的组分(例如,如以上1.4.1至1.4.8节描述的),所述组分以100万至100亿CFU的剂量提供,如从预测响应于该疗法积极调整受试者的微生物组的疗法模型确定的。另外地或可选地,疗法可以包括归因于在未患有神经系统健康问题的受试者的微生物组组成中的功能存在的蛋白的剂量。在实例中,可以指导受试者摄入胶囊,所述胶囊根据对他/她的以下中的一种或更多种定制的方案包含益生菌制剂:生理学(例如,身体质量指数、体重、身高)、人口学特征(例如,性别、年龄)、失调的严重度、对药物的敏感性以及任何其他合适的因素。
此外,基于益生菌的疗法的益生菌组合物可以天然地或合成地得到。例如,在一种应用中,益生菌组合物可以天然地源自粪便物质或其他生物物质(例如,如利用表征过程和疗法模型鉴定的,具有基线微生物组组成和/或功能特征的一个或更多个受试者的粪便物质或其他生物物质)。另外地或可选地,益生菌组合物可以基于如利用表征过程和疗法模型鉴定的基线微生物组组成和/或功能特征合成地得到(例如,使用台式方法(benchtopmethod)得到)。在变化形式中,可以用于益生菌疗法的微生物剂可以包括以下中的一种或更多种:酵母(例如,布拉酵母菌(Saccharomyces boulardii))、革兰氏阴性细菌(例如,大肠杆菌Nissle(E.coli Nissle)、Akkermansia muciniphila、布氏普雷沃氏菌(Prevotellabryantii)等)、革兰氏阳性细菌(例如,动物双歧杆菌(Bifidobacterium animalis)(包括乳亚种)、长双歧杆菌(Bifidobacterium longum)(包括婴儿亚种)、双裂双歧杆菌(Bifidobacterium bifidum)、假长双歧杆菌(Bifidobacterium pseudolongum)、嗜热双歧杆菌(Bifidobacterium thermophilum)、短双歧杆菌(Bifidobacterium breve)、鼠李糖乳杆菌(Lactobacillus rhamnosus)、嗜酸乳杆菌(Lactobacillus acidophilus)、干酪乳杆菌(Lactobacillus casei)、瑞士乳杆菌(Lactobacillus helveticus)、植物乳杆菌(Lactobacillus plantarum)、发酵乳杆菌(Lactobacillus fermentum)、唾液乳杆菌(Lactobacillus salivarius)、德氏乳杆菌(Lactobacillus delbrueckii)(包括保加利亚亚种)、约氏乳杆菌(Lactobacillus johnsonii)、罗氏乳杆菌(Lactobacillus reuteri)、加氏乳杆菌(Lactobacillus gasseri)、短乳杆菌(Lactobacillus brevis)(包括凝结亚种)、蜡状芽孢杆菌(Bacillus cereus)、枯草芽孢杆菌(Bacillus subtilis)(包括纳豆变种)、Bacillus polyfermenticus、克劳氏芽孢杆菌(Bacillus clausii)、地衣芽孢杆菌(Bacillus licheniformis)、凝结芽孢杆菌(Bacillus coagulans)、短小芽孢杆菌(Bacillus pumilus)、Faecalibacterium prausnitzii、嗜热链球菌(Streptococcusthermophiles)、短短芽孢杆菌(Brevibacillus brevis)、乳酸乳球菌(Lactococcuslactis)、肠膜状明串珠菌(Leuconostoc mesenteroides)、屎肠球菌(Enterococcusfaecium)、粪肠球菌(Enterococcus faecalis)、耐久肠球菌(Enterococcus durans)、丁酸梭菌(Clostridium butyricum)、菊糖芽孢乳杆菌(Sporolactobacillus inulinus)、Sporolactobacillus vineae、乳酸片球菌(Pediococcus acidilactic)、戊糖片球菌(Pediococcus pentosaceus)等)、和任何其他合适的类型的微生物剂。
另外地或可选地,通过模块S150的治疗模型安排的疗法可以包括以下中的一种或更多种:消费品(例如,食物类物品(food items)、饮料类物品(beverage items)、营养补充剂)、建议的活动(例如,运动方案、对酒精消耗的调整、对香烟使用的调整、对药物使用的调整)、局部疗法(例如,洗剂、软膏剂、消毒剂(antiseptics)等等)、对卫生产品使用的调整(例如,洗发产品的使用、护发素产品(conditioner products)的使用、肥皂的使用、化妆品(makeup products)的使用等等)、对饮食的调整(例如,糖消耗、脂肪消耗、食盐消耗、酸消耗等等)、对睡眠行为的调整、生活安排的调整(例如,对与宠物一起生活的调整、对与个人的家庭环境中的植物一起生活的调整、对与个人的家庭环境中的光和温度的调整等等)、营养补充剂(例如,维生素、矿物质、纤维、脂肪酸、氨基酸、益生元(prebiotics)、益生菌等等)、药物、抗生素和任何其他合适的治疗措施。在作为任何食物或作为补充剂的部分的适合用于治疗的益生元中,包括以下组分:1,4-二羟基-2-萘甲酸(DHNA)、菊糖、反式-半乳糖寡糖(GOS)、乳果糖、甘露聚糖寡糖(MOS)、果糖寡糖(FOS)、新琼-寡糖(Neoagaro-oligosaccharides)(NAOS)、焦糊精、木-寡糖(XOS)、异麦芽-寡糖(IMOS)、直链淀粉-抗性淀粉(Amylose-resistant starch)、大豆寡糖(SBOS)、拉克替醇、乳蔗糖(Lactosucrose)(LS)、异麦芽酮糖(Isomaltulose)(包括帕拉金糖(Palatinose))、阿拉伯-木寡糖(Arabinoxylooligosaccharides)(AXOS)、棉子糖寡糖(RFO)、阿拉伯木聚糖(AX)、多酚或能够以期望作用改变微生物群组成的任何另一种化合物。
另外地或可选地,由模块S150的疗法模型安排的疗法可以包括以下中的一种或更多种:被配置为解决导致不利认知状态的各种因素的具有不同疗法取向(例如,动机、心理教育、认知行为、生物学、生理、专心相关、松弛相关、辩证行为、接受相关、承诺相关等)的不同形式的疗法;精神病学管理措施(例如,患者的教育、患者的熟人的教育、组建联盟、提供支持团体等);药物治疗措施(例如,抗精神病药物治疗、苯二氮卓类、抗抑郁药、情绪稳定剂、β受体阻滞剂);心理治疗措施(例如,认知行为疗法、人际疗法、问题解决疗法、心理动力学心理治疗);社会心理干预;体重管理干预(例如,以防止因药物治疗引起的不良体重相关副作用);电惊厥治疗措施;身体疗法康复措施;和任何其他合适的治疗措施。
然而,第一方法100可以包括被配置为利于以下的任何其他合适的模块或步骤:接收来自个体的生物样品、处理来自个体的生物样品、分析从生物样品获得的数据以及生成可用于根据个体的特定微生物组组成提供定制的诊断和/或治疗的模型。
1.6示例方法
实施方案可提供用于确定状况的存在或不存在的分类和/或确定具有该状况的个体人类的治疗过程。方法可由计算机系统进行。
在步骤1中,接收从分析来自个体人类的测试样品获得的细菌DNA的序列读段。分析可以以各种技术进行,如本文描述的,诸如测序或杂交阵列。序列读段可在计算机系统处被接收,例如,从检测设备,诸如提供数据到存储设备(其可以被加载到计算机系统中)或通过网络提供数据到计算机系统的测序机器。
在步骤2中,将序列读段映射到细菌序列数据库以获得多个映射的序列读段。细菌序列数据库包括多种细菌的多个参考序列。参考序列可以是对于细菌的预先确定的区域,例如,16S区域。
在步骤3中,映射的序列读段基于映射被分配到序列群以获得被分配到至少一个序列群的分配的序列读段。序列群包括多个参考序列的一种或更多种。映射可包括将序列读段映射到参考序列的一种或更多种预先确定的区域。例如,序列读段可被映射到16S基因。如此,序列读段不必映射到整个基因组,而是仅映射到序列群的参考序列覆盖的区域。
在步骤4中,确定分配的序列读段的总数目。在一些实施方案中,分配的读段的总数目可包括被鉴定为细菌,但未被分配到已知序列群的读段。在其他实施方案中,总数目可以是被分配到已知序列群的序列读段的总和,其中总和可包括被分配到至少一个序列群的任何序列读段。
在步骤5中,可确定相对丰度值。例如,对于与以上1.4.1-1.4.8节中描述的特征相关的一个或更多个序列群的疾病标志集的每个序列群,可确定被分配到序列群的分配的序列读段相对于分配的序列读段的总数目的相对丰度值。相对丰度值可形成测试特征向量,其中测试特征向量的每个值是不同序列群的RAV。
在步骤6中,将测试特征向量与从具有状况的已知状态的校准样品的相对丰度值生成的校准特征向量比较。校准样品可以是状况群体的样品和对照群体的样品。在一些实施方案中,比较可包括各种机器学习技术,诸如监督式机器学习(例如决策树、最近邻域、支持向量机、神经网络、朴素贝叶斯分类器等)和无监督机器学习(例如,聚类、主成分分析等)。
在一个实施方案中,聚类可使用网络方法,其中网络中每对样品之间的距离基于对于每种状况相关的序列群的相对丰度来计算。然后,新的样品可以使用基于相对丰度的相同度量与网络中的所有样品比较,并且可决定其应当属于哪个聚类。有意义的距离度量将允许所有患病个体形成一个或数个聚类且所有健康个体形成一个或数个聚类。一种距离度量是Bray-Curtis不相似性,或等价地相似性网络,其中度量是1–Bray-Curtis不相似性。另一种示例距离度量是Tanimoto系数。
在一些实施方案中,特征向量可通过将RAV转化成概率值,从而形成概率向量来比较。可对概率进行用于特征向量的类似加工,且由于概率向量从特征向量生成,此类过程仍然包括特征向量的比较。
步骤7可基于比较确定神经系统健康问题的存在或不存在的分类和/或确定具有神经系统健康问题的个体人类的治疗过程。例如,测试特征向量被分配到的聚类可以是状况聚类,且可作出该个体人类具有该状况或具有该状况的某一概率的分类。
在包括聚类的一个实施方案中,校准特征向量可被聚类到不具有该状况的对照聚类和具有该状况的状况聚类。然后,可确定测试特征向量属于哪个聚类。鉴定的聚类可用于确定分类或选择治疗过程。在一个实施中,聚类可使用Bray–Curtis不相似性。
在包括决策树的一个实施方案中,比较可通过比较测试特征向量与一种或更多种截止值(例如,作为相应的截止向量)来进行,其中一种或更多种截止值从校准特征向量确定,从而提供比较。如此,比较可包括比较测试特征向量的每个相对丰度值与从由校准样品生成的校准特征向量确定的各自的截止值。可确定各自的截止值以提供每个序列群的最佳鉴别。
可测量新的样品以检测疾病标志中的序列群的RAV。每个序列群的RAV可与特定序列群的对照和状况群体的概率分布比较。例如,对于RAV的给定输入,状况群体的概率分布可提供具有该状况的概率(状况概率)的输出。类似地,对于RAV的给定输入,对照群体的概率分布可提供不具有该状况的概率(对照概率)的输出。如此,概率分布在RAV处的值可提供样品处于每个群体中的概率。如此,通过考虑最大概率,可确定样品更可能属于哪个群体。
可使用跨疾病标志的序列群的总概率。对于被测量的所有序列群,对于样品是否处于状况组中可确定状况概率,且对于样品是否处于对照群体中可确定对照概率。在其他实施方案中,可以确定仅状况概率或仅对照概率。
跨序列群的概率可用于确定总概率。例如,可确定状况概率的平均值,从而基于疾病标志获得受试者具有该状况的最终状况概率。可确定对照概率的平均值,从而基于疾病标志获得受试者不具有该状况的最终对照概率。
在一个实施方案中,最终状况概率和最终对照概率可互相比较以确定最终分类。例如,可确定两个最终概率之间的差异,并从该差异确定最终分类概率。与最终状况概率的较高的大的正性差异将导致受试者具有该疾病的较高最终分类概率。
在其他实施方案中,只有最终状况概率可用于确定最终分类概率。例如,最终分类概率可以是最终状况概率。可选地,取决于概率的格式,最终分类概率可以是一减去最终对照概率,或100%减去最终对照概率。
在一些实施方案中,一个种类中一种疾病的最终分类概率可与同一种类中其他疾病的其他最终分类概率组合。然后集合的概率可用于确定受试者是否具有该种类疾病的至少一种。如此,实施方案可确定受试者是否具有健康问题,所述健康问题可包括与该健康问题相关的多种疾病。
分类可以是最终概率之一。在其他实例中,实施方案可比较最终概率与阈值值以进行状况是否存在的确定。例如,可将各自的状况概率取平均值,并可将平均值与阈值值比较以确定状况是否存在。作为另一个实例,平均值与阈值值的比较可提供用于治疗受试者的治疗。
2.用于生成微生物组来源的诊断的方法
如以上提及的,在一些实施方案中,第一方法100的输出可以用于基于个体的微生物组的分析为个体生成诊断和/或提供治疗措施。同样地,源自第一方法100的至少一种输出的第二方法200可以包括:接收来自受试者的生物样品S210:基于表征和疗法模型表征患有某种形式的神经系统健康问题的受试者S230。
模块S210叙述:接收来自受试者的生物样品,其用以利于生成受试者的微生物组组成数据集和/或微生物组功能多样性数据集。因此,处理和分析生物样品优选地利于生成受试者的微生物组组成数据集和/或微生物组功能多样性数据集,所述微生物组组成数据集和/或微生物组功能多样性数据集可用于提供输入,所述输入可用于关于神经系统健康问题的诊断表征个体,如模块S220中的。接收来自受试者的生物样品优选地以与以上关于模块S110描述的样品接收的实施方案、变化形式和/或实例之一的方式相似的方式进行。因此,可以使用与用于接收和处理用于生成第一方法100的表征和/或疗法提供模型的生物样品的那些过程类似的过程,对受试者进行模块S210中的生物样品的接收和处理,以提供过程的一致性。然而,模块S210中的生物样品接收和处理可以可选地以任何其他合适的方式进行。
模块S220叙述:基于处理源自生物样品的微生物组数据集,表征患有某种形式的神经系统健康问题的受试者。模块S220用于从受试者的微生物组来源的数据提取特征,并且使用该特征将个体正面地或负面地表征为患有某种形式的神经系统健康问题。因此,模块S220中的表征受试者优选地包括鉴定与受试者的微生物组组成和/或微生物组的功能特征相关的特征和/或特征的组合,并将这样的特征与患有神经系统健康问题的受试者特有的特征进行比较。模块S220还可以包括生成和/或输出与对个体的表征相关的置信度量。例如,置信度量可以源自用于生成分类的特征的数目、用于生成表征的特征的相对权重或排名、在以上模块S140中使用的模型中的偏倚的测量和/或与模块S140的表征操作的方面相关的任何其他合适的参数。
在一些变化形式中,从微生物组数据集提取的特征可以用来自个体的调查来源的和/或病史来源的特征补充,这可以用于进一步精化模块S220的表征操作。然而,个体的微生物组组成数据集和/或微生物组功能多样性数据集可以另外地或可选地以任何其他合适的方式用于增强第一方法100和/或第二方法200。
模块S230叙述:基于表征和疗法模型为患有神经系统健康问题的受试者安排疗法。模块S230用于向受试者推荐或提供个性化治疗措施,以使个体的微生物组组成朝向期望的平衡状态改变。因此,模块S230可以包括矫正神经系统健康问题,或者以其他方式关于神经系统健康问题积极地影响使用者的健康。因此,模块S230可包括基于受试者的关于神经系统健康问题的表征来为受试者安排一种或更多种治疗措施,如关于以上1.4.1至1.4.8节描述的,其中疗法被配置为以朝向关于以上描述的表征的“正常”状态的期望方式调整受试者的微生物组的分类学组成和/或调整受试者的功能特征方面。
在模块S230中,向受试者提供治疗措施可以包括推荐可用的治疗措施,所述治疗措施被配置为将受试者的微生物组组成朝向期望的状态调节。另外地或可选地,模块S230可以包括根据受试者的表征(例如,关于特定类型的神经系统健康问题)向受试者提供定制的疗法。在变化形式中,用于调整受试者的微生物组组成以改进神经系统健康问题的状态的治疗措施可以包括以下中的一种或更多种:益生菌、益生元、基于噬菌体的疗法、消费品、建议的活动、局部疗法、对卫生产品使用的调整、对饮食的调整、对睡眠行为的调整、生活安排、对性活动水平的调整、营养补充剂、药物、抗生素和任何其他合适的治疗措施。模块S230中的疗法提供可以包括通过电子设备、通过与个体相关联的实体、和/或以任何其他合适的方式来提供通知。
更详细地,模块S230中的疗法提供可以包括针对健康相关目标,向受试者提供关于推荐的治疗措施和/或其他行动路线(courses of action)的通知,如图6中示出的。可以通过执行被配置用于通知提供的应用程序(application)、网络界面(web interface)和/或信息传递客户端(messaging client)的电子设备(例如,个人计算机、移动设备、平板计算机(tablet)、头戴式可佩戴计算设备、手腕式可佩戴计算设备等等)向个人提供通知。在一个实例中,与受试者相关联的个人计算机或膝上型计算机(laptop)的网络界面可以提供受试者对该受试者的使用者帐户的访问,其中使用者帐户包括关于以下的信息:受试者的表征、受试者的微生物组组成和/或功能特征的方面的详细表征、以及关于在模块S150中生成的建议的治疗措施的通知。在另一个实例中,在个人电子设备(例如,智能电话、智能手表、头戴式智能设备)执行的应用程序可以被配置为提供关于由模块S150的疗法模型生成的治疗建议的通知(例如,显示、通过触觉(haptically)、以听觉方式等等)。另外地或可选地,可以通过与受试者相关的实体(例如,看护者、配偶、重要他人、医疗保健专业人员等等)直接提供通知。在一些另外的变化形式中,可以将通知另外地或可选地提供给与受试者相关的实体(例如,医疗保健专业人员),其中实体能够施用治疗措施(例如,通过处方、通过进行治疗会话等等)。然而,可以以任何其他合适的方式向受试者提供疗法施用的通知。
此外,在模块S230的延伸中,可以利用在治疗方案的过程期间监测受试者(例如,通过贯穿疗法接受和分析来自受试者的生物样品、通过贯穿疗法接受来自受试者的调查来源的数据),对根据在模块S150中生成的模型提供的每个推荐的治疗措施生成疗法效果模型。