CN113260710A

CN113260710A - 用于通过多个定制掺合混合物验证微生物组序列处理和差异丰度分析的组合物、系统、设备和方法

Info

Publication number: CN113260710A
Application number: CN201980062466.5A
Authority: CN
Inventors: C-E·T·周; T·Z·德桑蒂斯; R·L·哈尼鲍; J·D·拉维查德; N·R·纳拉扬
Original assignee: Second Genome Inc
Current assignee: Second Genome Inc
Priority date: 2018-09-24
Filing date: 2019-09-24
Publication date: 2021-08-13
Also published as: WO2020068881A9; EP3856926A1; JP2022502027A; US11473133B2; WO2020068881A1; US20200140925A1

Abstract

用于生成和使用包括模板掺料的组合的内标掺合混合物的组合物、系统和方法。本文所述的组合物、系统和方法涉及使用所述内标掺料混合物来评估一组工作流程以对含有所关注的目标核酸序列变异的样本进行差异丰度分析。本文所述的组合物、系统和方法涉及使用所述内部掺合混合物来验证从对含有所关注的目标核酸序列变异的样本进行的差异丰度分析获得的结果，其中所述变异可具有高度可变水平的相对丰度。

Description

用于通过多个定制掺合混合物验证微生物组序列处理和差异丰度分析的组合物、系统、设备和方法

相关申请的交叉引用

本申请要求于2019年9月24日提交的美国临时申请序列号62/735,374的优先权。

背景技术

几种生物体(例如人、动物、植物)与微生物以共生关系存在。例如，人体可包括超过100万亿的微生物。环境生态系统如土壤样本还包括形成其生态系统的重要部分的丰富的微生物群落。微生物组描述了存在于环境小生境中的微生物的集合基因组。

例如，虽然人类基因组可包括约25,000个人类基因，但人体也包括超过1千万个细菌基因，估计血流中30％的分子来自肠道细菌。人体与细菌的共生关系涉及微生物种群通过对人体的深层生物效应影响人体健康与福祉的独特能力，包括免疫调节、能量生物生成、神经信号传导、感染控制、维生素、氨基酸和膳食组分合成等。类似地，环境来源如土壤样本中各种微生物群落的组成或相对丰度影响直接的环境和更大的依赖于来源的生态系统。因此，分析环境和人类样本中微生物群落的相对丰度是高度信息性的并且是所关注的领域。

发明内容

本公开涉及提供对旨在处理微生物组核酸序列并分析检验样本中各种微生物菌株的差异丰度的方法的验证的组合物和方法。本公开还涉及被配置用于验证微生物组序列处理和差异丰度分析的多个定制掺合(spike-in)混合物的生成。

在一些实施例中，本文提供了一种组合物，其包含：一组n个管(其中“n”是管的数目)，每个管含有掺料混合物，其中掺料混合物包括m个多核苷酸序列(其中“m”是多核苷酸序列的数目)，其中所有n个管含有同一组m个多核苷酸序列，m个多核苷酸序列中的每一个以来自一组拷贝数的拷贝数存在于n个管的每一个中，拷贝数组包括选自高、低或超低水平，其中高水平是每反应单位大于1000个拷贝，低水平是每反应单位50至1000个拷贝，而超低水平是每反应单位小于50个拷贝。

在一些实施例中，本文提供了一种组合物，其包含：一组3个管，每个管含有掺料混合物，其中掺料混合物包含69个模板多核苷酸序列，其中所有3个管含有同一组69个模板多核苷酸序列，69个模板多核苷酸序列中的每一个以高、低或超低拷贝数存在于3个掺料混合物管中的每一个中，其中高是每反应单位大于1000个拷贝，低是每反应单位50至1000个拷贝，超低是每反应单位少于50个拷贝，69个模板多核苷酸序列中的每一个在5'至3'方向包含在PCR扩增反应期间将退火到标记基因的第一末端的核苷酸序列(例如正向引物序列)，和在PCR扩增反应期间将不会退火到标记基因的阴性对照核苷酸序列，和在PCR扩增反应期间将退火到标记基因的第二末端的核苷酸序列(例如反向引物序列)。在一些实施例中，阴性对照核苷酸序列中的每一个与其它68个标记基因序列不同。在一些实施例中，(a)3个管中的69个多核苷酸序列中的每一个的拷贝数在所有3个管中相同(高/高/高；低/低/低；超低/超低/超低)，(b)所有3个管中拷贝数不同(高/低/超低；高/超低/低；低/高/超低；低/超低/高；超低/低/高；或超低/高/低)，或(c)3个管中的2个管中拷贝数相同(高/高/低；高/高/超低，等等…)。在一些实施例中，标记基因是在被调查的生物体中保存的任何基因使得可以设计通用引物组以退火到5'和3'末端，以从样本进行PCR扩增。在一些实施例中，标记基因是原核、真核或病毒基因。在一些实施例中，标记基因由选自以下组成的组：16SrRNA、16SrRNA的V1、V2、V3、V4、V5、V6、V7、V8和/或V9区、18SrRNA。

在一些实施例中，本文提供了一种用于确定样本中微生物的数目的方法，所述方法包含：从所述样本分离基因组DNA，进行PCR反应以扩增标记基因序列，其中所述标记基因序列存在于所述微生物中，并且其中所述PCR反应在上述组合物中的任一种组合物存在的情况下进行，使得所述样本在多个反应容器中分配，并且所述多个反应容器中的每一个含有所述3种掺料混合物中的一种。

在一些实施例中，本文提供了一种确定和提供用于微生物组的差异丰度分析的置信度估计值的处理器实现的方法，所述方法包含：接收序列数据，所述序列数据包括与所述微生物组相关的数据，并且所述序列数据进一步包括与具有已知模板掺料序列的一组多核苷酸掺料混合物相关的数据；从所述序列数据计算序列相似性的度量；基于序列相似性的度量，将所述序列数据组织成一个或多个单位；进行统计分析以获得所述一个或多个单位的一组计算出的差异丰度估计值，所述计算出的差异丰度估计值包括计算出的与所述微生物组相关的估计值和计算出的与具有已知模板掺料序列的多核苷酸掺料混合物相关的估计值；计算与具有已知模板掺料序列的多核苷酸掺料混合物相关的预期差异丰度估计值；将与所述多核苷酸掺料混合物相关的所述预期差异丰度估计值与计算出的与所述多核苷酸掺料混合物相关的差异丰度估计值进行比较；基于所述比较，计算与所计算出的与具有已知模板掺料序列的多核苷酸掺料混合物相关的估计值相关联的置信度度量；以及提供置信度度量作为所述微生物组的差异丰度分析的置信度估计值。在一些实施例中，所述方法还包含基于包括在多核苷酸掺料混合物中的每个模板掺料的相对丰度的度量，将预期的差异丰度估计值和所计算出的与具有已知模板掺料序列的多核苷酸掺料混合物相关的差异丰度估计值分类；所述比较还包括将与每个类别中的多核苷酸掺料混合物相关的预期差异丰度估计值与计算出的与相同类别中的多核苷酸掺料混合物相关的差异丰度估计值进行比较；其中计算所述置信度度量包括计算与每一类别差异丰度估计值相关联的唯一置信度度量。在一些实施例中，具有已知模板掺料序列的多核苷酸掺料混合物组被配置成使得所有多核苷酸掺料混合物包括同一组模板掺料序列，多核苷酸掺料混合物进一步被配置成使得每个多核苷酸掺料混合物包括模板掺料序列组的第一子集，其拷贝数与剩余多核苷酸掺料混合物中模板掺料序列的第一子集的拷贝数相同；每个多核苷酸掺料混合物包括模板掺料序列的组的第二子集，其拷贝数不同于剩余多核苷酸掺料混合物中的至少一个中的模板掺料序列的该第二子集的拷贝数，拷贝数的差异为约一个数量级；并且每个多核苷酸掺料混合物包括所述模板掺料序列的组的第三子集，其拷贝数不同于剩余多核苷酸掺料混合物中的至少一个中的模板掺料序列的该第三子集的拷贝数，拷贝数的差异大于一个数量级。在一些实施例中，将序列数据组织成一个或多个单位包括将序列数据聚类成操作分类单位。在一些实施例中，将序列数据组织成一个或多个单位包括将序列数据映射到序列的参考数据库。在一些实施例中，将序列数据组织成一个或多个单位包括实施一种或多种纠错方法使得基于一组扩增子序列变体来定义所述单元。在一些实施例中，执行统计分析包括使用组织的序列数据进行假设检验。

在一些实施例中，本文提供了一种评估工作流程的处理器实现的方法，包含：使用多核苷酸掺料混合物来生成性能的度量或量度；计算最终流程排序量度；基于最终流程排序量度的计算，选择待用于研究方案的研究中的工作流程。在一些实施例中，最终流程排序量度计算为(归一化θ/2)+(归一化σ/2)+检测率+灵敏度+特异性+准确度+精确度+Spk16_PPV*1.5–(假阳性16S率+假阴性率)((theta_normalized/2)+(sigma_normalized/2)+detect_rate+Sensitivity+Specificity+Accuracy+Precision+Spk16_PPV*1.5–(FalsePos16S_Rate+FalseNeg_rate))。在一些实施例中，最终排序量度可用于选择待用于对准确度和检测敏感的研究中的工作流程。

在一些实施例中，本文提供了确对于定生物样本的分析结果的有效性的方法，所述方法包含：将所述生物样本与掺料混合物混合；扩增生物样本和掺料混合物中的一种或多种目标序列，从而获得扩增产物；对扩增产物进行测序和处理；以及确定所述掺料混合物中一个或多个目标序列的统计度量，从而推断对于所述生物样本的分析结果的有效性。在一些实施例中，生物样本是血液样本、组织样本、皮肤样本、尿液样本或粪便样本。在一些实施例中，生物样本是粪便样本。

在一些实施例中，本文提供了一种确定对于环境样本的分析结果的有效性的方法，所述方法包含：将所述环境样本与掺料混合物混合；扩增环境样本和掺料混合物中的一种或多种目标序列，从而获得扩增产物；对扩增产物进行测序和处理；以及确定所述掺料混合物中一个或多个目标序列的统计度量，从而推断对于所述环境样本的分析结果的有效性。在一些实施例中，环境样本是土壤样本或水样本。

附图说明

图1示出了绘示与稀疏数据相关联的问题的当前可用的序列处理方法的结果的实例图。

图2是根据一个实施例的差异丰度分析系统(DAA系统)的示意图。

图3A、3B和3C是可在使用根据一个实施例的DAA系统的验证序列处理方法中用作掺料的实例模板多核苷酸序列的示意图。

图3D是示出具有变化的GC含量和变化的相对丰度的一组模板多核苷酸掺料的示意图的图，其用于通过根据一个实施例的DAA系统验证差异丰度分析。输入拷贝(x)＝1；PCR检测极限为50fg。读段(y)＝1；在100k读段时测序检测极限。

图4A是三种掺料混合物(A、B和C)的示意图，表示包括在各掺料混合物中的独特模板掺料(标记)和各掺料混合物中各模板掺料的相对丰度。

图4B是一组图，绘示了图4A所绘示的三个掺料混合物中的实例独特模板掺料的变化的相对丰度。

图5A是根据一个实施例的生成掺料混合物以使用DAA系统进行差异丰度分析的实例工作流程的示意图。

图5B是根据一个实施例的使用DAA系统准备序列数据以进行差异丰度分析的实例工作流程的示意图。

图5C示出了生成用于Illumina测序的扩增子的PCR正向和反向引物的实例(参见，例如，Caporaso等人，2011，PNAS，108:4516)。

图6是描绘根据一个实施例的用于验证从差异丰度分析获得的结果的方法的流程图。

图7A和7B是可用于差异丰度分析的若干实例工作流程的示意图，所述差异丰度分析可使用根据一个实施例的DAA系统来评估和验证。

图8A是使用根据一个实施例的DAA系统，使用模板掺料的检测作为评估量度来评估用于差异丰度分析的若干工作流程的实例结果。

图8B是使用根据一个实施例的DAA系统，使用模板掺料的检测作为评估量度来评估用于差异丰度分析的若干工作流程的实例结果。

图8C是列出根据预期丰度水平分类的模板掺料的类别的表格。

图8D示出了图8A的结果，其进一步指示了在通过图8C所示的相对丰度水平分类的不同类别的模板掺料之间检测到模板掺料。

图8E示出了图8B的结果，其进一步指示了在通过图8C所示的相对丰度水平分类的不同类别的模板掺料之间检测到模板掺料。

图9是使用根据一个实施例的DAA系统，使用基础调用误差率作为评估量度来评估用于差异丰度分析的工作流程的实例结果。

图10A和10B是使用根据一个实施例的DAA系统，基于差异丰度分析，生成以评估疾病状况的检测准确度的实例真值表。

图11A和11B是使用根据一个实施例的DAA系统的用于差异丰度分析的工作流程的评估的实例结果。

图12A和12B是使用根据一个实施例的DAA系统的用于差异丰度分析的工作流程的评估的实例结果的示意图。

图13A和13B是使用根据一个实施例的DAA系统，使用灵敏度作为评估量度来评估用于差异丰度分析的工作流程的实例结果。

图14A和B是使用根据一个实施例的DAA系统，使用特异性作为评估量度来评估用于差异丰度分析的工作流程的实例结果。

图15A和B是使用根据一个实施例的DAA系统，使用检测准确度作为评估量度来评估用于差异丰度分析的工作流程的实例结果。

图16A和16B是使用根据一个实施例的DAA系统来评估用于差异丰度分析的工作流程所使用的逆误差率的图。

图17A和17B是使用根据一个实施例的DAA系统的用于评估用于差异丰度分析的工作流程的阳性预测值的图。

图18A是使用根据一个实施例的DAA系统，用于评估用于差异丰度分析的工作流程的按丰度的相对水平分类的阳性预测值的图。

图18B是表示根据相对丰度水平分类的模板掺料的类别和使用用于差异丰度分析的各种流程计算出的相应阳性预测值的表格。

图19A和19B是使用根据一个实施例DAA系统的差异丰度分析的预期结果和观测结果之间的量化差异的示意图。

图20A和20B是使用根据一个实施例的DAA系统来评估用于差异丰度分析的流程的结果的示意图。

图21A和21B是使用根据一个实施例的DAA系统，通过多个评估参数量化的用于差异丰度分析的评估流程的结果的示意图。

图22A和22B是表示使用根据一个实施例的DAA系统，通过排序分数量化的用于差异丰度分析的评估流程的结果的表格。

图23A至C是使用根据一个实施例的DAA系统，通过多个评估参数量化的用于差异丰度分析的评估流程的结果的一组示意图。

图24A和24B是使用根据一个实施例的DAA系统，通过多个评估参数量化的用于差异丰度分析的评估流程的结果的额外示意图。

图25A和25B是使用根据一个实施例的DAA系统，通过多个评估参数量化的用于差异丰度分析的评估流程的结果的额外示意图。

图26是基于掺料的丰度来估计PPV和未命中率的实例结果。

图27是通过应用来自掺料混合物分析的PPV和未命中率来确定置信度的实例结果，所述置信度与在接受检查点抑制剂治疗的黑素瘤受试者中在无应答者与应答者对比中确定的显著微生物组变化相关联。

图28是可用于差异丰度分析的若干实例工作流程的示意图，所述差异丰度分析可使用根据一个实施例的DAA系统来评估和验证。

图29是与一个工作流程(DDSS:Q2+DESeq2.poscounts)的混合物之间的预期差异丰度(预期log2倍数变化，Exp_l2fc)相比，观察到的差异丰度变化(观察到的log2倍数变化，obs_l2fc)的分类示意图。

图30是与所有四十个工作流程的混合物之间的预期差异丰度相比，观察到的差异丰度变化的分类的示意图。

图31是在三种示踪物混合物(A对B，B对C，A对C)的任一种之间观察到的效应大小(丰度的log2倍变化)的小提琴图的示意图。

图32A是所有差异丰度检验方法和序列处理工作流程的阳性预测值的图。

图32B是通过ASV、OTU或MCM的最大观测相对丰度分层的阳性预测值的图。

图33是使用根据一个实施例的DAA系统，通过多个评估参数量化的用于差异丰度分析的评估流程的结果的额外示意图。

图34是用于计算总流程分数的所有量度的雷达图。

图35是剩余的四种差异丰度方法[a)DESeq2.betapriors，b)MetagenomeSeq，c)edgeR，和d)t检验]中所有序列处理流程的所有量度的评分雷达图。

具体实施方式

本公开的系统、方法和设备涉及提供用于高通量测序数据(例如从PCR扩增样本获得的数据)的差异丰度分析的序列处理方法和工作流程的验证。本文公开的方法和设备还涉及预测和提供与差异丰度分析相关联的置信度或误差估计值，所述差异丰度分析用于检验与样本来源相关联的异常或不正常状况(例如疾病状况)。

对与人类、动物、植物和土壤相关的微生物组进行的基于标记基因的下一代测序调查，使我们对这些群落在宿主健康中的作用的理解有了显著提高。在人类健康方面的关键焦点是肠道微生物组，其中许多研究已经探索了饮食、抗生素、遗传和环境因素、免疫功能和微生物组之间的相关性。例如，最近的研究已经鉴定了肠道微生物，其描绘了经历检查点抑制剂治疗的黑素瘤患者中的应答者和非应答者群体。此外，肠道微生物组异常与诸如炎性肠病、NASH之类的疾病和其它代谢疾病有关。这种微生态失调的典型特征是肠道微生物组多样性的降低，机会病原体丰度的增加或功能上重要的细菌如丁酸盐生产者的减少。例如，对肠道微生物组组成的分析可在诊断和/或治疗中起重要作用。然而，在没有任何其它验证来源的情况下，由于缺乏统计功效和/或置信度作为估计值，数据稀疏性可能会导致有问题的结论。图1绘示了来自稀疏数据的一组实例结果，其指示来自具有各种健康状况(例如正常葡萄糖耐量(NGT)，葡萄糖耐量降低(IGT)和II型糖尿病(T2D))和与T2D患者相比的正常群体的两个实例微生物群落的组成估计值。此外，目前的对微生物组的差异丰度分析方法对严格的交叉研究分析提出了挑战。需要可用于评估来自稀疏或噪声数据的结果并比较和使用交叉研究数据以得出更严格的结论的验证方法。

对微生物群落组成的分析

由于16SrRNA基因在细菌和古细菌结构域中普遍存在，其作为广泛使用的标记基因，用于分析细菌群落组成。位于16SrRNA基因的九个高变区侧翼的保存区使得一个或多个高变区的PCR扩增能够进行。每个区都含有足够的序列多样性以允许区分细菌分类群，尽管分类分辨率的水平取决于目标高变区。基于16SrRNA基因的研究的典型目标是准确确定群落内成员的数量和分类注释以及样本间群落组成的变化。然而，确定微生物组的确切组成和结构是有挑战性的，因为存在大量的细菌分类群，群落成分、宿主和环境之间的大量相互作用以及在这种标记基因调查中生成的大量数据。

关于微生物群落组成的推论受到生物信息学流程选择的影响：序列处理流程，如mothur(Schloss，P.D.，等人(2009)。介绍mothur：开源、平台独立、社区支持的描述和比较微生物群落的软件。《应用和环境微生物学(AppliedandEnvironmentalMicrobiology)》,75(23),7537–7541.https://doi.org/10.1128/AEM.01541-09)和QIIME(Caporaso,J.G.,等人(2010)。QIIME允许分析高通量群落测序数据。《自然方法(NatureMethods)》,7(5),335–336.https://doi.org/10.1038/nmeth.f.303)，其允许基于质量来处理经测序的读段，以规定的百分比相似性将类似序列聚类到操作分类单位(OTU)，且将分类注释指派给OTU聚簇或读段。虽然OTU聚类降低了与测序误差传播相关联的噪声，但是由测序误差产生的低丰度假序列可以被解释为生物学上有意义的OTU，从而扩大了群落中的丰富度和多样性。

虽然预期通常用于聚类OTU的97％相似性截止值近似于物种级聚类，但它可能将系统发育上不同的物种置于同一聚簇中，导致群落之间精细刻度变化的损失。随着16SrRNA基因调查研究的发展，基于确定的百分比相似性聚类OTU的一个重要缺点是不能在没有显著再分析的研究中比较OTU。虽然通过将序列映射到参考数据库来生成聚簇的OTU-picking策略部分地规避了该警告，并允许跨研究的荟萃分析得以进行，但是关于数据库中没有匹配的真实生物序列的信息丢失。

基于去噪算法的方法，如DADA2(Callahan，B.J.，等人(2016)。《DADA2：根据Illumina扩增子数据进行高分辨率样本推论(DADA2:High-resolutionsampleinferencefromIlluminaamplicondata)》。《自然方法(NatureMethods)》,13(7),581–583.https://doi.org/10.1038/nmeth.3869),Deblur(AmirA,等人2017。《去模糊快速地解析单核苷酸群落序列模式(Deblurrapidlyresolvessingle-nucleotidecommunitysequencepatterns)》mSystems2:e00191-16.https://doi.org/10.1128/mSystems.00191-16),UNOISE2(Edgar,R.C.(2016)。《UNOISE2：用于Illumina16S和ITS扩增子测序的改进的纠错(UNOISE2:improvederror-correctionforIllumina16SandITSampliconsequencing)》。bioRxiv.https://doi.org/10.1101/081257),andSeekDeep(Hathaway,N.J.,等人(2018)。《SeekDeep：用于扩增子深度测序的单碱基分辨率重新聚类(single-baseresolutiondenovoclusteringforamplicondeepsequencing)》。《核酸研究(NucleicAcidsResearch)》,46(4),e21–e21.https://doi.org/10.1093/nar/gkx1201)已经使得通过校正测序误差根据Illumina序列数据推断扩增子序列变体(ASV)能够进行。例如，DADA2通过构建序列质量误差模型并将与误差模型一致的读段划分为ASV来推断ASV。这些方法提供了用于推断序列变体的无参考策略，并且还能够进行交叉研究荟萃分析，因为ASV代表推定真实的生物序列。此外，这些方法已经显示能够准确地捕获单核苷酸变异，这在鉴定区分健康和疾病的关键微生物群时是关键的。

为了说明可以在几个数量级上观察到的跨样本的序列深度的变化，归一化对于进行任何跨样本比较变得重要。虽然通过总和归一化(TSS)能够比较跨样本的组成数据，但是标准统计不能适用于TSS归一化的数据，因为分类群总和的相对丰度为1。另一方面，将数据集稀疏到均匀深度导致数据和精确度的损失。《用于检验分类群的差异丰度的统计方法，如DESeq2(StatisticalmethodsfortestingdifferentialabundanceoftaxasuchasDESeq2)》(Love,M.I.,等人(2014)。《用DESeq2适度估计RNA-seq数据的倍数变化和分散(ModeratedestimationoffoldchangeanddispersionforRNA-seqdatawithDESeq2)》。《基因组生物学(GenomeBiology)》,15(12),550。https://doi.org/10.1186/s13059-014-0550-8),MetagenomeSeq(Paulson,J.N.,等人(2013)。《用于微生物标记基因调查的差异丰度分析(Differentialabundanceanalysisformicrobialmarker-genesurveys)》。《自然方法(NatureMethods)》,10(12),1200–1202.https://doi.org/10.1038/nmeth.2658),EdgeR(Robinson,M.D.,等人(2009)。《Edger：用于数字基因表达数据的差异表达分析的生物导体包装(ABioconductorpackagefordifferentialexpressionanalysisofdigitalgeneexpressiondata)》。《生物信息学(Bioinformatics)》,26(1),139–140.https://doi.org/10.1093/bioinformatics/btp616),和Voom(Law,C.W.,等人(2014)。Voom：《精确度权重解锁用于RNA-seq读段计数的线性模型分析工具(precisionweightsunlocklinearmodelanalysistoolsforRNA-seqreadcounts)》。《基因组生物学(GenomeBiology)》,15(2),R29.https://doi.org/10.1186/gb-2014-15-2-r29)通过对数据进行一些分布假设并采用参数统计检验来克服标记基因数据集的非正态性和不均匀测序深度的挑战。这些方法消除了对归一化或稀疏化的需要，并且还提供了用于检测显著差异的稳健统计，而不管在微生物组数据集中普遍存在的稀疏性(过多的零)和欠采样。

群落组成推断的复杂性还来自提取、扩增和测序的测序过程中的技术差异，以及来自测序仪的碱基响应(basecall)准确度的确定。虽然生物信息学工具能够减少与测序相关联的一些固有误差，但是微生物组数据集的技术差异和再现性很差对交叉研究趋势的鉴定提出了挑战。

验证微生物群落的相对丰度估计值

为RNAseq、RNA微阵列和16SrRNA基因实验开发的内标使得评估转录物或标记基因丰度估计的灵敏度、再现性和准确度能够进行。低复杂性模拟群落，如由人类微生物组联盟(HumanMicrobiomeConsortium)开发的来自21种菌株的基因组DNA的等摩尔或交错混合物，已经常规地用于基准化湿实验室和生物信息学流程。

本文公开的实施例包括用于开发和应用一系列由69个独特模板组成的微生物组控制标准混合物的组合物、方法和系统，所述模板源自NIST标准参考材料。在一些实施例中，由69种独特模板组成的系列微生物组控制标准混合物来源于六个数量级的NIST标准参考材料。三种独特的混合物，在本文中也称为“掺料混合物”或“内部掺合标准物”或“定量微生物组测序示踪物”，每种混合物包括21种不同水平的所有69种模板掺料的不同丰度。本文描述了添加内部掺合标准物及其评估的实例演示，其可产生对估计16SrRNA基因序列的显著差异丰度的生物信息学流程的准确度和局限性的重要见解。该实例演示绘示了使用掺料混合物来识别和基准化生物信息学流程的实例，该流程将在识别显著差异丰富的分类群中提供高保真度并且还有助于交叉研究荟萃分析。实例演示还绘示了掺料混合的实例使用，以例如通过基于丰度水平提供预测置信度或误差估计值来验证从差异丰度分析获得的结果的意义。

差分丰度分析系统

图2示出了这里也称为“DAA系统”或“系统”100的实例差分丰度分析系统的示意图。DAA系统可以被配置成生成掺合混合物。在一些实施例中，DAA系统可以被配置成使用与掺合混合物相关的信息，并评估两个或更多个工作流程以用于序列数据的差异丰度分析。在一些实施例中，DAA系统可以被配置成使用与掺合混合物相关的信息，并验证从序列数据的差异丰度分析获得的结果。

系统100包括经由通信网络106耦合或适当连接(通过有线或无线连接方法)到用户装置102的序列处理验证装置110。尽管被绘示为一个用户装置102，但是序列处理验证装置(或SPV装置)110可以根据需要耦合到任何数量的用户装置和/或远程或本地数据源。

用户装置102可以是任何合适的客户端装置或计算机。例如，用户装置102可以是基于硬件的计算装置和/或多媒体装置，例如服务器、台式计算装置、智能电话、平板电脑、可穿戴装置、膝上型电脑、个人计算机(PC)、个人数字助理(PDA)、平板PC、服务器装置、工作站和/或等。在一些情况下，用户装置102还可以是被配置成分析样本的机器(例如，测序机器)的一部分，该机器被配置成能够传送由计算产生的数据。虽然在图1中未示出，但是用户装置102可以至少包括存储器、处理器、网络接口和输出装置。

通信网络106可以支持有线或无线连接。在一些实施例中，系统100可以是至少部分地托管在企业服务器(例如web服务器、应用服务器、代理服务器、远程登录服务器、文件传输协议(FTP)服务器、邮件服务器、列表服务器、协作服务器和/或等)中的企业系统。

SPV装置110可以包括处理器120、输入/输出(I/O)单元140、存储器160和通信器180和/或能够访问它们，其中每个都互连到另一个。在一些实施例中，SPV装置110可以是服务器装置。在一些实施例中，SPV装置110可以是企业装置，例如台式计算机、膝上型计算机、平板个人计算机(PC)，和/或等。在其它实施例中，SPV装置110的一些部分可以物理地分布在例如通过有线或无线连接互连的许多机箱和/或模块上。网络可以是任何类型的网络，例如局域网(LAN)、广域网(WAN)、虚拟网络、电信网络、实现为有线网络和/或无线网络。例如，输入/输出单元140或存储器160可以容纳在一个装置中，或者在一些实施例中，可以分布在许多装置中。类似地，在一些实施例中，通信器180可以容纳在一个装置中，而在一些其它实施例中，通信器可以跨多个装置分布。

处理器120可以是例如基于硬件的集成电路(IC)或被配置成运行和/或执行一组指令或代码的任何其它合适的处理装置。例如，处理器120可以是通用处理器、中央处理单元(CPU)、加速处理单元(APU)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、复杂可编程逻辑器件(CPLD)、可编程逻辑控制器(PLC)和/或等。处理器120可以通过系统总线(例如，地址总线、数据总线和/或控制总线)可操作地耦合到存储器160。

处理器120可被配置成运行一个或多个应用程序以支持在使用一个或多个工作流程处理测序数据和通过如本文所述的工作流程组执行的序列处理的统计评估中涉及的各种方法。在一些实施例中，在处理器120中运行的一个或多个应用程序可以是企业软件或分析软件包(例如，生物信息学软件包或统计分析软件包)的一部分。处理器120可以例如配备有一个或多个设备，所述设备可以包括一个或多个相关联的软件以执行生成一个或多个模板多核苷酸所需的设计或构建信息的各个部分，所述模板多核苷酸可以用作如本文所述的掺料和/或掺料混合物。处理器120可以包括一个或多个相关联的软件以执行设计序列处理的不同部分，这些不同部分包括例如对基因组数据集(例如，微生物组)的测序读段进行注释，这些基因组数据集是通过对基因组或微生物组数据中的PCR扩增的标记进行高通量测序而获得的，基于对测序读段的分析对扩增子序列变体(ASV)或操作分类单位(OTU)分类群进行分组和/或分类，预测和/或进行统计检验以评估相对丰度的差异等。在一些实施例中，处理器120可以配备有接收未知样本并验证其声称的来源或起源或作者的设备和相关软件。在一些实施例中，处理器120的每个上述部分可以是存储在存储器160中并由处理器120执行的软件。

存储器160可以是例如随机存取存储器(RAM)、存储器缓冲器、硬盘驱动器、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)，和/或等。存储器160可存储(例如)一个或多个软件模块和/或代码，所述软件模块和/或代码可包含使处理器120执行一个或多个过程，功能和/或等的指令，例如设计模板掺料多核苷酸，序列处理，使用预定义工作流程执行差异丰度分析，评估使用各种不同工作流程执行的差异丰度分析，预测误差或统计估计值等。在一些实施例中，存储器160可包括可递增地添加和使用的可扩展存储单元。在一些实施方案中，存储器160可以是可操作地耦合到处理器120的便携式存储器(例如，闪存驱动器、便携式硬盘和/或等)。在其它实例中，存储器可以与计算装置远程可操作地耦合。例如，远程数据库服务器可以用作存储器并且可操作地耦合到计算装置。

存储器160可以包括一个或多个数据库或查找表(图2中未示出)，这些数据库或查找表存储与原始数据有关的信息，这些信息包括序列读段，与模板掺料的生成和使用有关的序列信息，掺料混合物的组成，每种掺料混合物中每种模板掺料的相对丰度，来自使用独特工作流程进行的序列处理的结果等等。存储器160可以包括用于与这些特定用例相关联的信息(例如，用于模板掺料、掺料混合的唯一标识符，或用于差异丰度分析的序列处理流程等)的一个或多个存储系统。

通信器180可以被配置成经由通信网络106接收从用户装置102或任何其它外部装置或数据源发送的信息。通信网络106可以支持有线或无线通信方法。通信器180可以是可操作地耦合到处理器120和存储器160的硬件装置和/或由处理器120执行的存储在存储器160中的软件。通信器180可以是例如网络接口卡(NIC)、Wi-Fi^TM模块、

模块和/或任何其它合适的有线和/或无线通信装置。此外，通信器180可以包括交换机、路由器、集线器和/或任何其它网络装置。通信器180可以被配置成将SPV装置110连接到通信网络106。在一些实例中，通信器180可以被配置成连接到通信网络，例如因特网、内联网、局域网(LAN)、广域网(WAN)、城域网(MAN)、全球微波接入互操作性网络

基于光纤的网络、

网络、虚拟网络和/或其任何组合。

在一些情况下，通信器180可以便于通过通信网络106接收和/或发送文件和/或文件集。在一些情况下，所接收的文件可由处理器120处理和/或存储在存储器160中，如本文中进一步详细描述。在一些情况下，如前所述，通信器180可以被配置成将由处理器120采集和/或分析的数据发送到SPV装置110所连接到的另一装置。

虽然在图1的示意图中未示出，但是SPV装置110可以包括诸如数据呈现或显示装置(例如，LCD显示器)之类的输出装置。

模板多核苷酸序列-掺料

本文所述的实施例包括用于设计和生成独特多核苷酸的系统和方法，所述独特多核苷酸可用作用于验证差异丰度分析方法的模板掺料。图3A、3B和3C是可用于使用对应于16SrRNA基因的微生物组区来验证差异丰度分析的实例模板掺料的实例序列结构的示意图。可以设计和生成一组模板掺料(例如69个模板掺料)以形成库。诸如上述系统100的DAA系统可用于生成模板掺料库。掺料可以包括与所研究的目标分子(例如16S区)明显不同并且具有与所关注的目标分子的GC含量相当的不同GC含量的多种不同DNA序列。例如，在微生物组数据中的差异丰度分析的验证的所绘示应用中，模板掺料可具有可变GC含量以模拟各种微生物群落。在图3D中绘示了在测序时具有可变GC含量和可变输入拷贝和/或读段计数的69个独特模板掺料的实例分布。在模板掺料的实例组中，每个QS输入水平(丰度水平)有3至4个独特序列，总共有21个水平，每个水平的GC含量不同。模板掺料库被配置成跨越QS个数量级，例如，高达每反应单位2,000个拷贝的最大起始量(基于输入质量预PCR)。

掺料可包括对照DNA片段，其长度与库构建前样本的靶DNA片段的长度大致相同。在一些实施例中，它们具有与目标扩增子长度相似的长度。

如图3A、3B和3C所绘示，本文所述的实例实施方案中的每个实例模板掺料可包括非16S序列任一端上的16SV4引物的互补物。在一些实施方案中，中间非16S区可以被配置成具有预定长度(例如250个碱基)。在一些实施方案中，非16S区域可以来自现有的数据库，例如SRM2374数据库，其包含由国家标准和技术研究所(NIST)维护的用于外部RNA控制的DNA序列库。在一些实施方案中，模板的总长度可以被配置成满足预定义的目标(例如，～295bp，与V4扩增子大小相当)。双链DNA片段可以被配置成准备进行PCR，并且可以直接添加到PCR反应中(每个样本*1混合物)。例如，模板掺料的生成可以包括设计用于扩增来自NIST数据库的69个阴性对照模板掺料的引物的生成(POSA)，所述阴性对照模板掺料具有侧接16SrRNAV4通用引物序列的非16S序列。所有引物可以在它们的5'端包括用于扩增微生物16SrRNAV4区的通用序列，并且在它们的3'端包括特异性退火以与该模板掺料的NIST序列结合的序列。一些实例引物序列提供于下表1中。在一些情况下，扩增产物可通过Sanger测序验证并定量(POSA)。

虽然上述说明涉及生成16SV4区的模板掺料，但该方法可适用于任何扩增子区，包括例如V1-V3区、V3-V4区、或18S区，或对应于衣壳蛋白、真菌基因、线粒体基因、DNA或RNA聚合酶、尾蛋白等的病毒基因组区域。

掺合标准混合物

所生成的模板掺料的库可用于生成预定数目(例如三种)的掺合混合物，使得每种混合物包括同一组模板掺料，但具有每种模板掺料的预定相对丰度的已知组合。在一些实施方案中，3种混合物可以包括具有恒定浓度的N种掺料和具有变化浓度的N种掺料。混合物样本中的模板掺料的数目(N)可以是大于1的任何数目，例如75至100、50至100、25至100、10至100、2至100、50至75、25至75、10至75、2至75、25至50、10至50、2至50、10至25、2至25，小于200且大于10、20、30、40、50、60、70、80、90或100。

图4A绘示了具有由标记指示的模板掺料的三种混合A、B和C，每种混合物具有相同的水平(水平直线)或每种掺料具有变化的水平。在所绘示的实例中，3种混合物中的每一种包括变化水平的所有69种独特的掺料模板。通过在混合物之间包括具有高、低或无变化的掺料，掺料混合物可用于通过比较每种掺料的预期与观察到的变化来验证工作流程的功效。

图4B绘示了跨三种混合物的模板掺料的相对水平的实例图，其中一些保持恒定而另一些在混合物之间变化，具有可变变化程度(例如，一个数量级，或几个数量级等)。

图5A是生成内部掺合标准混合物的实例方法的示意图。示出了由模板掺料构成的69种独特的构建体被合并以形成可以被冷冻以用于测定的三种母原料(motherstock)。在下面的表2中示出了生成掺料混合物的模板掺料的一些实例组合。“PCRConcng/ul”示出阴性对照模板掺料多核苷酸(如上所述)的浓度，而“PCRConc.分子/μL”示出绝对拷贝数。

表2示出了如何使用定量的原料(stock)制备在混合物A、混合物B和混合物C(管A、B和C)的每一种中具有预定浓度(分子/μL)的50,000X主原料(masterstock)。实例程序可以包括：取1.34μlERCC-0004，将其在TE中稀释10X并添加至管A；取1.00μLERCC-0007，在TE中稀释10X，并添加至管A…取1.00μLERCC-00171，不稀释(稀释因子＝1)，并添加至管A，使A管容积达到100μL(加入0.21μlTE)。混合物A在50,000X原料(stock)混合物中将具有1.88E+07拷贝的ERCC-0004。混合物A的5X管具有1.88E+02拷贝。

制备的掺合混合物可用作内标，并在处理实验DNA样本期间直接加入PCR混合物中。图5B是样本DNA与内部掺合混合物混合并通过PCR处理和测序(例如使用IlluminaMiSeq)的实例程序的示意图。图5B所绘示的程序可用于使用掺合混合物与样本DNA来验证用于差异丰度分析的方法的准备中。

在该程序中，可以采集一种或多种样本(例如受试者的体液，如血液、尿液、唾液或源自受试者的生物物质，如粪便、切除的组织等，或土壤样本)。例如，在553，从每个样本中分离DNA，并用标准方法如MagAttractPowerMicrobiomeDNA/RNA试剂盒(Qiagen)进行定量。gDNA定量可以例如使用Quant-iTTMPicoGreen^TMdsDNA测定试剂盒(ThermoFisherScientific)来进行。

在555，样本与内部掺合标准混合物和融合引物混合并通过PCR处理。作为16SrDNA的PCR的实例，V4区(PosCtrlDNA，多个等分试样)PCR库扩增可以使用PlatinumHotStartMasterMix(ThermoFisherScientific)进行PCR。正向16SV4引物可以是GTGCCAGCMGCCGCGGTAA(SEQIDNO:1)。

生成用于Illumina测序的扩增子的PCR正向和反向引物可以与图5C中所绘示的那些相同，其源自Caporaso等人所著的科学出版物，2011，PNAS，108:4516。连接子提供了额外的空间，因此退火与芯片结合不会干扰测序反应。

正向引物：

AATGATACGGCGACCACCGAGACGTACGTACGGTGTGCCAGCMGCCGCGGTAA(SEQIDNO:2)

反向引物：

5'-CAAGCAGAAGACGGCATACGAGATNNNNNNNNNNNNAGTCAGTCAGCCGGACTACHVGGGTWTCTAAT(SEQIDNO:3)

反向16SV4引物：GGACTACHVGGGTWTCTAAT(SEQIDNO:4)

表3

试剂	容积
		PlatinumHotStartMasterMix(ThermoFisherScientific)	12.5μL
正向引物(10μM)	0.5μL
		带条形码的反向引物(10μM)	0.5μL
样本DNA(6.25ng/μL)	2μL
		5X标准(如表2中定义的混合物A、混合物B或混合物C)	2μL
PCR-级水	7.5μL
		总计	25μL

加入96孔板各孔中的主混合物(mastermix)可含有PlatinumHotStartMasterMix、正向引物和仅水(20.5μl)，然后，可将2μl样本分别等分至各孔中。在一些情况下，当只有一种样本时，将相同的样本吸移到除了阴性对照孔之外的所有孔中。将2μL标准掺合混合物A、B或C等分到各孔中，并将0.5μl反向引物等分到各孔中。表3提供了试剂及其容积的列表。

反向引物可包括独特的条形码序列，使得每个孔的PCR扩增子可被通过反向引物(即，具有

96孔板，其中96个反向引物仅在条形码序列中是独特的)中的条形码序列掺入的条形码识别。

在程序500的557处，在扩增96孔板后，可汇集所有样本并测序—该序列可用于鉴定各扩增子序列的样本来源。可以使用以下条件运行PCR。

热循环仪条件：

初始变性：94℃

周期：

在94℃下变性30秒

在50℃下将引物退火30秒

在72℃，延伸DNA30秒

重复步骤a、b、c25次

在72℃下最终延伸10分钟

保持在4℃

可以使用AMPureXPPCRPurification，Cleanup&SizeSelectionkit(BeckmanCoulter)纯化PCR样本，然后在20℃储存。每个PCR反应产物中的扩增子可以使用AgilentDNA7500试剂盒和Agilent2100Bioanalyzer(AgilentTechnologies)进行质量检查。每个PCR反应产物中的扩增子可以使用Quant-iTTMPicoGreenTMdsDNAAssayKit(ThermoFisherScientific)来定量。在质量控制和定量之后，在程序500的559处，可将等摩尔量的各扩增子产物添加到单管中以用IlluminaMiSeq系统测序。可以将DNA稀释至4nM，并且可以使用Illumina的《16S宏基因组测序库制备(16SMetagenomicSequencingLibraryPreparation)》中提供的方案，进行手动测序。

在一些情况下，PhiX对照库可通过将变性的V4库稀释至6pM，并将变性的PhiX对照库稀释至6pM，将15％PhiX库掺加至6pMV4库(90μL6pMPhiX库，510μL6pMV4库)来制备。

根据可通过Illumina获得的信息(在URLwww.illumina.com/products/by-type/ sequencing-kits/cluster-gen-sequencing-reagents/phix-control-v3.html)“PhiXControlv3是可靠的，接头连接的库，用作Illumina测序运行的对照。该库来源于小的，充分表征的PhiX基因组，为测序和比对提供了几个益处。多功能PhiXControlv3作为即用型库提供，可用于多种应用程序，以增加工作流程的价值并提高结果的置信度。PhiX库提供了用于聚簇生成、测序和比对的质量控制，以及用于串扰矩阵生成、定相和预定相的校准控制。它可以被快速对准以通过综合(SBS)量度如定相和误差率来估计相关测序。”

程序500的559处的测序可以用MiSeq试剂盒v3(600个循环)进行。可将组合库(掺入了PhiX的V4)装入到样本端口中。可以按如下所述对序列结果进行处理和分析。

使用掺合标准混合物验证差异丰度分析

图6绘示了使用内部掺合标准混合物来验证序列处理流程的性能的方法600。方法600还绘示了在基于差异丰度分析的结果提供置信度度量(例如指示状况(例如健康状况)的诊断或检测的检验的可靠性和灵敏度的度量)时使用内部掺料标准混合物。方法600的一些部分可以基本上类似于以上参考图5B中的图示描述的程序500。因此，这里不再进一步详细描述类似部分。例如，方法600在601包括接收模板多核苷酸掺料的库，并且在603包括生成掺料混合物，其包括差异丰富的模板掺料的已知组合。模板掺料可以基本上类似于上面参考图3A至3D描述的那些，并且掺料混合物可以类似于上面参考图4A、4B和5A至5C描述的混合物。在605处，可以将掺料混合物添加到从一个或多个样本分离的DNA中，并且在607处，可以使用PCR方法扩增合并的混合物，并且在609处测序，如参考图5中所示和上文所述的程序500所述。

在611，可以使用预定的工作流程来处理测序结果。工作流程可以是包括下面进一步详细描述的实例流程的许多之一。在611处的序列处理之后，在613，可以使用关于添加到每个样本的掺料混合物的先验信息(例如，在给定添加的掺料混合物的情况下，与每个模板掺料的预期相对丰度或丰度的变化有关的信息)来生成一组预期结果。可以将预期结果与从序列处理获得的计算结果进行比较。该比较可以用于对用于获得计算结果的工作流程进行任何适当的验证，或者用于验证所获得的结果的意义。在615处，例如，基于所述比较，可使用相同数据来评估两个或更多个工作流程的性能。在617，基于在613处的预期和计算结果的比较，可以确定与从计算结果生成的结果相关联的意义或置信度。例如，可以使用模板掺料的每个丰度水平的预期和计算数据之间的差异来计算检测相对丰度变化的可靠性或准确度的度量，并且这些度量可以用于验证从分析从未知样本获得的微生物组数据获得的结果。

用于差异丰度分析评估的实例工作流程

作为说明性实例，本文描述的DAA系统和生成和使用标准掺合混合的方法被用于比较和评估一组选择的序列处理工作流程，并评估使用这些流程获得的结果。图7A和7B绘示了被评估的所选工作流程的集合。在一些实例工作流程中，如所指示的，在经过聚类或分组例程(例如UPARSE)和使用统计分析工具(例如DESeq2、mtgSeq、edgeR、t-test等)进行差异丰度分析的统计检验之前，序列读段经过注释工具或映射算法(例如，STRAIN)处理。在一些工作流程中，在经过纠错例程(例如，DADA2)处理之后进行注释。在这里描述的实例实施方案中检验了一些实例流程。

使用UPARSE重新聚类序列

使用UPARSE，将序列以97％序列相似性聚类成OTU。从每个OTU聚簇推断代表性序列。值得注意的是，生成的OTU在研究中不具有可比性，并且不能生成组合的OTU表用于多个研究的分析。在使用UPARSE例程的流程中，首先使用USEARCH10.0.240合并和定向序列读段(例如，分别使用-fastq_mergepairs和-orient命令，使用默认设置)(参见Edgar,2020,《生物信息学(Bioinformatics)》,26:2460-2461)。在使用USEARCH中的-decrep_fulllength和-sortbysize命令去复制和按大小排序(丢弃单个)之前，基于最大预期误差1对读段进行质量过滤。然后使用USEARCH中的-cluster_otus命令以97％同一性阈值执行操作分类单位OTU的重新聚类。

使用DADA2的序列处理

在使用DADA2的流程中，扩增子序列变体(ASV)通过对序列读段中的误差建模然后在误差校正后推断‘真实’序列来推断。预期该方法推断ASV之间的单核苷酸差异。值得注意的是，使用DADA2，所得ASV在各研究中是可比较的。为了实施DADA2例程，使用用于过滤、学习误差、去复制，ASV推断和嵌合体去除的默认设置，用DADA2处理原始序列读段(Callahan等人,2016,《自然方法(NatMethods)》,13:581-583)。根据测序处理工作流程，将截短质量(truncQ)设置为2、5或10。对于正向和反向读段，从每个读段的起始和末端修剪10个核苷酸。

将读段映射到菌株数据库

STRAIN＝StrainSelectR是一个新的第二基因组R软件包，其利用USEARCH将所有读段同时映射到StrainSelect2016的参考数据库和掺料上。STRAIN14＝StrainSelect2014是基于python脚本的分类工具，使用USEARCH将读段映射到StrainSelect2014。通过将OTU代表性序列映射到掺料模板序列来鉴定掺料。在总共7项序列处理工作流程中的4项(标记为SS14或SS16-xx)中，首先将读段映射到内部菌株数据库。然后使用USEARCH(分别为-fastq_mergepairs和-orient命令)合并和定向读段(Edgar,2020,《生物信息学(Bioinformatics)》,26:2460-2461)。此外，未对与特定菌株匹配的读段进行SS##-xx工作流程的后续分析。将读段映射到两个菌株数据库：STRAIN和STRAIN14。STRAIN是指针对从已知原核菌株的16SrRNA基因测序、基因组、草案基因组和宏基因组装配获得的16SrRNA基因序列的数据库的读段映射(usarch)；STRAIN14指同一数据库的较老版本。

差异丰度检验

对于所有检验，进行流行度过滤。如果OTU/ASV/菌株/掺料存在于至少5％的样本中，则保持OTU/ASV/菌株/掺料。对于每组中少于3个阳性样本的特征，每组中最深测序的样本加入一个读段，使得3个样本具有阳性值(metagenomeSeq的要求)。

应用了5项独特的统计检验：(i)应用具有阳性计数法的DESeq2(1.18.1)，以处理稀疏微生物组数据，(ii)应用具有betapriors的DESeq2，(iii)edgeR(3.20.5)，(iv)metagenomeSeq(1.20.1)，和(v)t-tests(统计软件包(statspackage)，v3.4.1)(Love等人,2014,《基因组生物学(GenomeBiol)》,15:1-21；Robinson等人,2009,《生物信息学(Bioinformatics)》,26:139-140；McCarthy等人,2012,《核酸研究(NucleicAcidsRes)》,40:4288-4297)。DEseq2(poscounts)模拟通常用于微生物组分析的参数(DEseq2(bp)，betapriors＝TRUE，以前的微生物组标准)，但允许实施较新版本的DEseq2。两种DEseq2分析预期给出相似的结果。

DESeq2用于两种不同检验：应用具有阳性计数法的DESeq2，以处理稀疏微生物组数据，应用具有betapriors的DESeq2(Love等人,2014,《基因组生物学(GenomeBiol)》,15:1-21)。对于具有阳性计数的DESeq2，在用DESeq()进行差异丰度检验之前，使用类型＝poscounts设置应用estimateSizeFactors()。对于具有betapriors的DESeq2，使用设置betapriors＝TRUE，将DESeq()用于差异丰度检验。对于edgeR检验，我们遵循McMurdieandHolmes2014(Robinson等人,2009,《生物信息学Bioinformatics》,26:139-140；McCarthy等人,2012,《核酸研究(NucleicAcidsRes)》,40:4288-4297；McMurdieandHolmes,2015,PLoS计算生物学10(PLoSComputBio10))。对于metagenomeSeq，用cumNorm()进行css归一化，然后用fitFeatureModel()进行差异丰度检验(Paulson等人,2013,《自然方法(NatMethods)》,10:1200-1202)。对于t检验，我们使用非配对t检验进行差异丰度检验。此外，我们用gtools软件包v3.5.0中的foldchange()和foldchange2logratio()来计算log2倍变化(l2FC)(WarnesGR,BolkerB,LumleyT.2015。Gtools:《各种R编程工具(VariousRProgrammingTools)》3.5.0)。使用Benjamini-Hochburg方法，用p.adjust()(统计软件包，v3.4.1)((团队(Team),2017,PLoS计算生物学10)计算调整的p值。

流程排序计算。

对于每个独特的工作流程，基于调整的p值和预期的和观察到的log2FC，将每个掺料比较(混合物A对混合物B，混合物B对混合物C等)定义为真阳性、真阴性、假阳性或假阴性，其中真阳性是这样的掺料比较，当预期掺料差异丰富时，调整的p<0.05，且绝对log₂FC>0。由于所有库都是由相同的样本生物标本(例如粪便)制备的，因此预期在各组之间没有丰度显著不同的16S扩增子。因此，我们还确定涉及16S扩增子的真阴性和假阳性比较的数目。这六个值用于计算流程排序中使用的大多数量度。

检测率计算为工作流程中发现的掺料数除以掺料总数(总共69个掺料)。灵敏度计算为总真阳性掺料比较除以预期差异丰富掺料比较的总数。特异性计算为总的真阴性掺料比较除以预期不具有差异丰度的掺料比较的总数。假阴性率计算为总假阴性除以预期差异丰度掺料比较的总数。准确度计算为(总真阳性+总真阴性)/(总预期差异丰富+预期差异丰富的总掺料比较)。精确度计算为总真阳性/(总真阳性+总假阴性)。由观察到的69log2FC和预期的log2FC的线性回归来计算θ和σ。使用该回归的斜率作为绝对值(atan(((斜率-预期斜率)/(1+预期斜率*斜率))))*(180/)来计算θ，其中预期斜率为1(观察到的log2FC＝预期的log2FC)。归一化θ计算为1-(θ/180)。σ计算为与斜率为1的线相比的每个掺料比较的残差总和的平方根(观察到的log2FC＝预期的log2FC)。相对于所有40个独特工作流程的σ值来计算归一化σ，其中归一化σ＝1-(σ-最小σ)/(最大信号-最小σ)。逆16S假阳性率计算为1-(总假阳性16S比较/总16S比较)。Spk16_PPV(阳性预测值)计算为总真阳性/(总真阳性+总假阳性+总假阳性16S比较)。最终流程排序量度按如下方式计算：((归一化θ/2)+(归一化σ/2)+检测率+灵敏度+特异性+准确度+精确度+Spk16_PPV*1.5-(假阳性16S率+假阴性率)。图8至25示出了获得的结果。

图8A和8B绘示了标为SSP、SS16UP、SSDD、SSDDr、DDSS、DDSSr和DDSSmr的检验流程列表的每个工作流程所实现的掺料检测率的图，其中每个流程使用DESeq2.betapriors、DESEq2,poscounts、edgeR、metagenomeSeq2，以及t-test的列表中的每个分析工具来检验。曲线示出了检测到的掺料的归一化检测率除以掺料的总数(69)。如所示，DADA2漏掉了高达7个掺料，但使用调谐参数改善了恢复。SSUP恢复了47/69，分配了OTU代表性序列。

还使用以下计算，基于掺料的最大预期丰度，将掺料分类。丰度估计为每μl1X原料的输入拷贝，使用5μl/PCRrxn。然后使用掺料类别的最大相对丰度来将16SASV或OTU分类为丰度类别。图8C中的表格绘示了基于丰度的相对水平的掺料划分。作为实例，将5μl的1X加入到混合物A、B或C的每个库中，使得预期的测序覆盖导致～15％的读段为掺料。maxRA掺料类别＝所有样本和流程上每个掺料的最大相对丰度。因此，可基于不同的丰度水平，进一步细分和评估流程的性能。图8D和图8E示出了使用每个列出的流程获得的结果，还考虑了先验已知的掺料的丰度水平。结果显示缺失的掺料是超低掺料，其可能具有很少或没有序列读段。

图9绘示了基于误差率绘制流程性能的图。掺料代表性序列上的碱基响应(Base-call)误差率用于计算性能度量。基于流程，不同地分配掺料。例如，在包括DDSS、DDSSrelaxed、SSUP簇(ASV/OTU)的流程中，搜索代表性序列的掺料。在包含SSDD的流程中，SS16DD:strainselectR在个别读段中搜索掺料。如所指示，所有流程均良好地执行，其中实施DADA2的流程首先具有改进的序列保真度(相对较低的误差率)。

图10A和10B示出了在基于差异丰度分析检测状况(例如疾病状况)时具有流程性能准确度计算的实例真值表。真值表变量如下。真阳性(TP)：分析预测为“是”(受试者患有疾病)，并且他们确实患有疾病。真阴性(TN)：分析预测为“否”(受试者没有疾病)时，并且事实上他们没有疾病。假阳性(FP)：分析预测为“是”，但他们实际上没有疾病(又名“I型错误”。)。假阴性(FN)：分析预测为“否”，但它们实际上确实患有疾病(又称“II型错误”)的计数。阳性预测值(PPV)计算为真阳性结果的比例。计算为真阳性/(真阳性+假阳性)。

图11A和11B示出了包括DESeq2.poscounts的差异分析的流程的真值表变量的图。流程在假阳性16S(Total_FalsePos16S)和假阴性掺料(Total_falseneg)的数量上变化。图12A和12B是示出掺料检测中的假阳性和假阴性的示意图。图13A和13B是使用标记的工作流程的灵敏度度量的图。真阳性率用于度量灵敏度。即，当诊断实际是“是”时，分析预测“是”的频率。TP计算值/实际“是”也称为“灵敏度”或“召回(Recall)”。SSDD和SSUP流程在该性能量度中省略了DDSS流程。图14A和14B示出了测量诊断实际为“否”(无疾病状况)的情况的特异性，以及分析预测为“否”的频率的图。TN计算值/实际“否”，等于(1-假阳性率)。具有DESeq2、edgeR或t.test的DDSS流程小于100％特异性。图15A和15B是各种流程的准确度度量的图，其度量模型或分析正确的频率。这计算为(TP+TN)/总N。DESeq2和edgeR在每个序列处理方法中实现了非常相似的准确度。

图16A和16B示出了逆假阳性率(iFalsePositiveRate)和逆假阴性率的图。逆假阳性率计算为当诊断实际为“否”的情况，模型或分析预测为“是”的频率。计算为(1-(FP/实际否))。逆假阴性率计算为当诊断实际为“是”的例子，分析预测为“否”的频率。计算为(1-(FN/实际是))。如所示，当通过padj<0.05过滤DA结果时，所有假阳性率小于0.05。图17A和17B示出了掺料+16SPPV的图，其计算为当预测为是时的例子计数，为真实是的频率。使用公式TP/(TP+FP+FP_16S)来计算。掺料+16S阳性预测值在DDSSx和SSUP中最高，导致预测命中的置信度更高。

如上所述，对差异丰度分析流程的评估也可以通过考虑按掺料模板的相对丰度细分的类别中的性能来执行。图18A示出了掺料+16SPPV的量化，其计算为当预测为是时例子的计数，它是真实的是的频率，同时还考虑掺料的丰度。计算为每一类别掺料丰度水平内的TP/(TP+FP+FP_16S)。如所示，对于高和低丰度掺料，掺料+16S阳性预测值接近1(最大值)。超低掺料改进了具有‘松弛’和‘更松弛’流程的性能。图18B中的表基于相对丰度和相应的掺料16PPV值，列出了掺料类别。

图19A和19B分别是用于评估每个OTU或ASV的计算出的差异丰度的准确度的σ和θ值的图。分布示出了预期掺料计数与观察到的掺料计数的关系图。θ计算为拟合的点线与预期log2FC(斜率＝1的线)之间的角度[度]。逆归一化θ计算为(1-(θ/180°))。σ计算为来自预期log2FC(斜率＝1的线)的点的残差标准差，如图19B中的箭头所示。数值刻度为0-1。逆归一化σ计算为(1-(刻度的σ值))。图20A和20B是θ和σ值的倒数的图。通过绘制倒数，在右上角示出了较小的值(在该实例中为较好的值)。DDSS流程胜过SSDD流程。DDSS流程性能随着质量阈值的降低而改进。

图21A和21B是使用包括灵敏度、特异性、准确度、精确度、归一化θ、归一化σ、检测率、掺料16_PPV等的若干量度的流程的性能的图，每一量度由多边形图的顶点表示。该图示出了使用DESeq2.poscounts的差异分析的流程的结果，每个流程由彩色线表示。图22A和22B是示出基于与每一流程的性能相关联的分数的流程排序的表。DDSSmr:q2+DESeq2排序最高，在掺料16_PPV上增加了权重(SG偏好)。图23A至23C示出表示按掺料的相对丰度分类的流程性能的多边形图，图23A、23B和23C分别表示用于高丰度、低丰度和超低丰度的掺料的流程性能。图示出了对使用DESeq2.poscounts的差异分析流程的评估。DDSSmr:q2流程平衡对于高和低丰度掺料的所有量度。图24A和24B绘示了使用所有检验的统计分析工具来评估流程性能的图。各工作流程表现各不相同，特别是在准确度、灵敏度和掺料16_PPV方面，其中1是所有量度的完美分数。如前所述，i＝假阳性率和假阴性率的倒数。图25A和25B是色彩刻度图上的工作流程的性能的示意图。如图24所示，各工作流程表现各不相同，特别是在准确度，灵敏度和掺料16_PPV方面。

本技术的应用实例：

所描述的系统和方法可用于生成内部标准掺合混合物，并使用所述混合物来使用如本文所述的性能的若干度量或量度来评估各种各样的工作流程。通过比较预期结果(基于使用的混合物中的掺料的已知水平)和使用各种流程获得的观察结果，可以选择最适合研究方案的研究需要的工作流程。例如，对准确度和检测灵敏度敏感的研究可以使用那些量度来挑选流程，而可以容忍较低检测率但需要低假阳性率的研究可以基于假阳性率来选择。如以上实例中所述的，他们还可选择总体而言排序高的流程。

一旦选择了特定的流程，本文描述的验证系统和方法也为使用用于特定研究的该流程获得的结果的有效性提供内部控制。例如，基于稀疏数据获得的结果可以具有可变的鲁棒性(Robustness)和可再现性。作为实例，在来自单个生物体的典型RNA-Seq实验中，在任何一个生物样本中观察到生物体基因的15％到85％。作为另一个实例，在微生物组NGS实验中，数据表稀疏得多，在任何一个生物样本中只遇到1至3％的研究累积特征。使用本文所述的系统和方法，可以在混合物中使用相同的掺料(spike)，所述混合物用于在运行研究时结合检验样本选择用于分析的流程。例如，在对来自一组正常和患病掺料混合物的样本的盲测研究中，可以随机分配和记录。工作流程可以像以前一样被遵循。结果可用于检测掺料以及检测所关注的目标基因或RNA序列。可以基于与每个样本一起使用的掺料混合物中它们的已知相对丰度水平(其被记录和已知)对掺料的结果进行分类，并且可以将基于丰度水平的掺料类别的结果与基于它们的丰度水平的目标序列的结果进行比较。例如，如果使用特定度量(例如灵敏度)测量的流程的性能对于具有超低丰度的掺料显著较低，则由于缺乏流程性能的统计置信度，可以忽略目标序列的结果的这种测量。然而，在其中即使对于具有超低丰度的掺料，流程的性能也被测量为是超强的情况下，从掺合混合物中的掺料的预期和观察结果的比较，对于样本中检验的目标序列使用相同流程获得的结果可以以高置信度取得，即使对于具有超低丰度的目标序列。因此，本文所述的系统和方法提供了内部对照，其可用于衡量具有超低丰度的目标序列的结果的意义，否则其可能难以量化并用于基于结果来设计关键诊断或治疗策略。

在一些实施例中，可以将掺料混合物添加到在基线从患有不同疾病的患者或接受检查点抑制剂疗法的患者(例如，经历检查点抑制剂疗法的黑素瘤受试者)采集的粪便样本中。基于样本中掺料的相对丰度，掺料被指定为高(H)，低(L)或超低(UL)丰度掺料，如图26所示。统计测量值，例如阳性预测值(PPV)和未命中率(MR)，可以基于在分析中有多少预期的变化(在图26中绘示为黑色点)被恢复为显著的变化(在图26中被绘示为三角形点)来计算。PPV是真阳性与真阳性+假阳性的比率，并且提供检测到的显著变化的比例是高置信度变化的指示。在该实例中，对于高&低丰度变化，观察到PPV＝1，这表明这些变化具有高置信度。由于没有检测到超低丰度掺料，在本实例中不能估计PPV。未命中率可以以未检测到或识别出预期的显著变化的比率来计算。在该实例中，对于高丰度变化，未命中率为14.4％，对于低丰度变化，为46.6％，对于超低丰度掺料，为100％(即，超低丰度掺料的所有变化均未命中)。

在来自对检查点抑制剂疗法的应答者和非应答者的粪便样本的比较中，可以应用掺料混合物分析以确定与鉴定为显著的菌株相关联的置信度(在图27中绘示为黑色三角形点)。通过将鉴定为非应答者中显著富集或缺失的菌株的相对丰度与掺料的相对丰度进行比较，可以确定所有检测到的菌株变化是高置信度的(所有菌株变化是高丰度变化，对于高丰度掺料的变化的PPV是1，表明对于高丰度的菌株的PPV是1)。同样基于对掺料的分析，对超低丰度菌株中的变化具有低灵敏度，即在一些超低丰度菌株中存在缺失变化的高可能性。因此，应用于分析来自人粪便样本的微生物组的掺料混合物使我们能够确定与菌株变化相关联的准确度。

如在本说明书中使用的，单数形式“一个”、“一种”和“该”包括复数指示物，除非上下文另外清楚地指明。因此，例如，术语“成分”旨在表示单个成分或成分的组合，“材料”旨在表示一种或多种材料或其组合。

如本文所用，术语“微生物组”是指微生物(例如细菌、古细菌、真菌)的全体，它们在限定环境中的遗传成份(基因组)。微生物组可以是任何来源，例如肠道微生物组、口腔微生物组、肠道微生物组、支气管微生物组、皮肤微生物组或阴道微生物组。根据一个特定实施例，所述微生物组为肠道微生物组。为了分析微生物组，从受试者采集样本。

如本文所用，术语“差异丰度分析”是指分析和比较两个或更多个样本或组中的分类群的相对丰度。差异丰度分析允许通过统计检验了I确定哪些特定微生物在两组之间显著差异丰富。某些微生物丰度的显著变化可与炎性肠病、腹泻、肥胖、HIV、饮食、文化、年龄和抗生素使用有关。

如本文所用，术语“掺料”是指微生物细胞的数目，其中细胞的数目是已知的并且可用于进行微生物分析并基于已知“掺料”细胞的输出进行计算。在给定环境中通常不会发现掺料微生物。将这些微生物以已知量混入样本中，所述已知量可允许定量样本的总微生物负载并计算测序输出中的相对丰度。

如本文所用，术语“样本”是指含有待分析或检测或以其它方式使用的一种或多种被分析物的组合物。样本可以是异质的，含有多种组分(例如，DNA、RNA、不同的蛋白质)或同质的，含有一种组分。在一些情况下，样本可以是天然存在的，生物材料和/或人造材料(例如合成的对照多核苷酸)。此外，样本可以是天然或变性形式。在一些情况下，样本可以是单个细胞(或单个细胞的内容物)或多个细胞(或多个细胞的内容物)，血液样本、组织样本、皮肤样本、尿液样本、粪便样本、水样本和/或土壤样本。在一些情况下，样本可以来自活生物体，例如真核生物、原核生物、哺乳动物、人、酵母和/或细菌，或者样本可以来自病毒。在一些情况下，样本可以是一种或多种干细胞(例如，能够无限期分裂并产生特化细胞的任何细胞)。

这里公开的用户装置、远程装置、中央授权装置或DAA系统装置可以是任何合适的电子装置。例如，在一些实施例中，电子装置可以是个人计算机(PC)、个人数字助理(PDA)、智能电话、膝上型计算机、平板PC、服务器装置、工作站和/或等。电子装置可以至少包括存储器、处理器、网络接口和输出装置。例如，在一些实施例中，输出装置可以是能够为安装在电子装置上的软件应用(例如，移动应用、PC应用、互联网web浏览器等)提供用户界面的至少一部分的任何合适的显示器。在这样的实施例中，显示器可以是例如阴极射线管(CRT)监视器、液晶显示器(LCD)监视器、发光二极管(LED)监视器和/或等。在其它实施例中，输出装置可以是音频装置、触觉装置和/或任何其它合适的输出装置。网络接口可以是例如至少包括以太网端口和/或无线电(例如

无线电、蓝牙无线电等)的网络接口卡和/或等。存储器可以是例如随机存取存储器(RAM)、存储器缓冲器、硬盘驱动器、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)和/或等。处理器可以是被配置成运行或执行一组指令或代码的任何合适的处理装置。例如，处理器可以是通用处理器、中央处理单元(CPU)、加速处理单元(APU)和专用集成电路(ASIC)和/或等。处理器可以被配置以运行或执行存储在存储器中的与使用(例如)PC应用、移动应用、因特网web浏览器、蜂窝式和/或无线通信(经由网络)，和/或等相关联的一组指令或代码，如本文中进一步详细描述。

本文和所附权利要求中使用了各种术语来描述例如电子装置的用户与不同电子装置的用户之间的交互的各种部件、部分、层等。例如，术语“通信”和“消息”和“信息”可以互换地使用，并且是指在基本上一个方向上从电子装置的用户向另一电子装置的用户发送数据。例如，如本文所述，从第一电子装置的用户到第二电子装置的用户的通信或消息可以是电子邮件、语音消息、即时消息(IM)、SMS，和/或等。从第二电子装置的用户到第一电子装置的用户的对电子邮件的响应可以类似地被称为通信或消息或信息。

如本文所使用的，术语“模态”、“通信模式”和“信道”可以互换使用，并且一般指使用例如一个或多个电子装置的一种或多种通信模式。此类通信模式可与特定格式(例如，数据单元格式)相关联，在一些情况下，所述特定格式可对所述通信模式(例如，不同协议、不同数据单元结构或布置等)是唯一的。例如，蜂窝式电话(例如，智能电话)可使用短消息服务(SMS)模态将通信发送到另一蜂窝式电话。因此，当提及模态或信道时，应当理解，模态或信道包括、定义适于经由该通信模式传输数据的数据单元格式和/或以其它方式与其相关联。

如本文所使用的，术语“数据处理单元”或“处理器”或“输入/输出单元”或“通信器”可以指例如用于处理、发送和/或传送电和/或光信号的任何计算机、电子开关、交换结构、交换结构的一部分、路由器、主机装置、数据存储装置、线路卡、存储装置底板等。I/O单元或通信器可以包括例如包括在电子通信网络内的组件。例如，在一些实施例中，数据处理单元可以是包括在数据中心的核心交换结构内或形成其一部分的组件。在其它实施例中，处理器或I/O单元可以是位于数据中心边缘的接入交换机，或者是耦合到访问装置的主机或外围装置(例如服务器)。例如，接入交换机可以位于包含几个主机装置的机箱的顶部。

如本文所述，术语“核酸”是指包含一个或多个核酸亚基的分子。在一些实施例中，“核酸分子”是指核糖核苷(腺苷、鸟苷、尿苷或胞苷：“RNA分子”)或脱氧核苷(脱氧腺苷、脱氧鸟苷、脱氧胸苷，或脱氧胞苷：“DNA分子”)的磷酸酯聚合形式，或其任何磷酸酯类似物。例如单链形式或双链螺旋形式的硫代磷酸酯和硫酯。换句话说，核酸可以是单链和/或双链的。核酸包含“核苷酸”，如本文所用，其可包括含有嘌呤和嘧啶碱基的那些部分及其修饰形式。这种修饰可以例如包括甲基化嘌呤或嘧啶、酰化嘌呤或嘧啶、烷基化核糖或其它杂环。此外，术语“核苷酸”或“多核苷酸”包括含有半抗原或荧光标记的那些部分，并且不仅可以含有常规核糖和脱氧核糖，还可以含有其它糖。

“多核苷酸”或“核苷酸序列”是核酸如DNA和RNA中的一系列核苷酸碱基(也称为“核苷酸”)，并且意指两个或更多个核苷酸的任何链。核苷酸序列通常携带遗传信息，包括细胞机制用于制备蛋白质和酶的信息。这些术语包括双链或单链基因组和cDNA、RNA、任何合成和遗传操作的多核苷酸，以及正义和反义多核苷酸(尽管本文中仅表示正义链)。这包括单链和双链分子，即DNA-DNA、DNA-RNA和RNA-RNA杂合体，以及通过将碱基缀合至氨基酸主链而形成的“蛋白质核酸”(PNA)。这还包括含有修饰碱基的核酸，例如硫代尿嘧啶、硫代鸟嘌呤和氟尿嘧啶。

修饰的核苷、核苷酸或多核苷酸还可以包括糖部分上的修饰，例如，其中一个或多个羟基被卤素原子或脂族基团替代，或被官能化为醚、胺或等等。双链DNA-DNA、DNA-RNA和RNA-RNA螺旋是可能的。术语“核酸(NA)分子”，特别是DNA或RNA分子，仅指该分子的一级和二级结构，而不限于任何特定的三级形式。因此，该术语包括在线性(例如限制性片段)或环状DNA分子、质粒和染色体中发现的双链DNA。在讨论特定双链DNA分子的结构时，本文可根据仅给出沿DNA的非转录链(即，具有与mRNA同源的序列的链)的5'至3'方向的序列的正常惯例来描述序列。“重组DNA分子”是经过分子生物学操作的DNA分子。

术语“多核苷酸”、“核苷酸”、“核苷酸序列”、“核酸”、“NA序列”、“序列”和“寡核苷酸”可互换使用。它们是指任何长度的核苷酸(脱氧核糖核苷酸或核糖核苷酸或其类似物)的聚合形式。多核苷酸可以具有任何三维结构，并且可以执行任何已知或未知的功能。以下是多核苷酸的非限制性实例：基因或基因片段的编码或非编码区，由连锁分析定义的基因座(locus)、外显子、内含子、信使RNA(mRNA)、转移RNA、核糖体RNA、短干扰RNA(siRNA)、短发夹RNA(shRNA)、微RNA(miRNA)、核酶、cDNA、重组多核苷酸、分支多核苷酸、质粒、载体、任何序列的分离DNA、任何序列的分离RNA、核酸探针和引物。该术语还包括具有合成主链的核酸样结构。如上所述，多核苷酸可包含一个或多个修饰的核苷酸，如甲基化核苷酸和核苷酸类似物。如果存在，可以在聚合物组装之前或之后对核苷酸结构进行修饰。核苷酸序列可以间杂有非核苷酸组分。多核苷酸可以在聚合后进一步修饰，如通过与标记组分缀合。

如本说明书中使用的，“序列”是指与关于核酸分子的序列信息相关的数据的任何合适部分。例如，序列可以指DNA或RNA序列，如关于核苷酸碱基序列或碱基对序列和/或等的信息。在一些情况下，本说明书中使用的动词形式“测序”是指获得核酸分子的序列信息的行为。

网络可以是例如局域网(LAN)、广域网(WAN)、城域网(MAN)、全球微波接入互操作性网络(WiMAX)、电话网络(诸如公共交换电话网络(PSTN)和/或公共陆地移动网络(PLMN))、内联网、因特网、基于光纤的网络、虚拟网络、蜂窝网络和/或任何其它合适的网络。此外，网络可以实现为有线和/或无线网络。在一些实施例中，网络可以包括任何类型的一种或多种网络，例如LAN和因特网。

通信装置或通信器可以是能够与网络通信的任何合适的装置(例如，上述任何数据处理单元，和/或其任何组合或一部分)。此外，通信装置可以包括一种或多种有线和/或无线接口，例如以太网接口、光载波(OC)接口和/或异步传输模式(ATM)接口。在一些实施例中，通信装置可以是例如至少包括以太网端口和/或无线电(例如

无线电、

无线电等)的网络接口卡和/或等。

存储器可以是例如随机存取存储器(RAM)、存储器缓冲器、硬盘驱动器、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)和/或等。在一些实施例中，存储器可被配置成存储例如一个或多个模块，所述模块可包括可使处理器执行一个或多个过程、功能和/或等的指令。

处理器可以是被配置成运行或执行一组指令或代码的任何合适的处理装置，例如通用处理器(GPU)、中央处理单元(CPU)、加速处理单元(APU)、专用集成电路(ASIC)、网络处理器、前端处理器、现场可编程门阵列(FPGA)和/或等。因此，存储器可存储使处理器执行例如与DAA系统相关联的模块、过程和/或功能的指令。

数据库可以是例如表格、储存库、关系数据库、面向对象的数据库、对象关系数据库、结构化查询语言(SQL)数据库、可扩展标记语言(XML)数据库和/或等。在一些实施例中，数据库可被配置成存储数据，例如DAA系统内的唯一用户标识符，由用户标识符索引的用户信息，序列信息，密码函数信息，密码映射值等。

本文描述的一些实施例涉及具有非暂时性计算机可读介质(也可称为非暂时性处理器可读介质)的计算机存储产品，所述非暂时性计算机可读介质上具有用于执行各种计算机实现的操作的指令或计算机代码。计算机可读介质(或处理器可读介质)在其本身不包括暂时性传播信号(例如，在诸如空间或电缆之类的传输介质上携带信息的传播电磁波)的意义上是非暂时性的。介质和计算机代码(也可称为代码)可以是为一个或多个特定目的而设计和构建的那些。非暂时性计算机可读介质的实例包括但不限于磁存储介质，诸如硬盘、软盘和磁带；光存储介质，例如光盘/数字视频光盘(CD/DVD)，光盘只读存储器(CD-ROM)和全息装置；诸如光盘之类的磁光存储介质；载波信号处理模块；以及专门被配置成存储和执行程序代码的硬件装置，例如专用集成电路(ASIC)、可编程逻辑器件(PLD)、只读存储器(ROM)和随机存取存储器(RAM)装置。本文描述的其它实施例涉及计算机程序产品，其可以包括例如本文讨论的指令和/或计算机代码。

本文描述的一些实施例和/或方法可由软件(在硬件上执行)，硬件或其组合来执行。硬件模块可以包括例如通用处理器、现场可编程门阵列(FPGA)和/或专用集成电路(ASIC)。软件模块(在硬件上执行)可以用各种软件语言(例如，计算机代码)来表达，包括C，C++，JavaTM，RubyTM，VisualBasicTM和/或其它面向对象的，程序性的或其它编程语言和开发工具。计算机代码的实例包括但不限于微代码或微指令，诸如由编译器产生的机器指令，用于产生web服务的代码，以及包含由计算机使用解释器执行的高级指令的文件。例如，可使用命令编程语言(例如C、Fortran等)，功能编程语言(Haskell、Erlang等)，逻辑编程语言(例如Prolog)，面向对象的编程语言(例如Java、C++等)或其它合适的编程语言和/或开发工具来实现各实施例。计算机代码的其它实例包括但不限于控制信号、加密代码和压缩代码。

虽然本文中已描述和说明了各种实施例，但应了解，用于执行本文中所描述的功能和/或获得结果和/或一个或多个优点的各种其它工具、方法和/或结构以及此类变化和/或修改中的每一者均在本文中所描述的公开内容和实例实施例的范围内。更一般地，应当理解，本文描述的所有参数、尺寸、材料和配置被提供作为说明性实例，并且实际的参数、尺寸、材料和/或配置可以取决于使用/实现所公开的教导的一个或多个特定应用。本文所描述的特定实例实施例的许多等效物仅使用常规实验即可容易地识别和/或确定。因此，应当理解，前述实施例仅以实例的方式呈现，并且在本公开及其等效物的范围内，本公开范围内的其它实施例可以以不同于具体描述和/或要求保护的方式实践。本公开的实施例涉及本文所述的每个个别的特征、系统、制品、材料、试剂盒和/或方法。此外，两个或更多个此类特征、系统、制品、材料、试剂盒和/或方法的任何组合，如果此类特征、系统、制品、材料、试剂盒和/或方法不相互矛盾，则包括在本公开的范围内。

上述实施例可以以多种方式中的任何一种来实现。例如，可以使用硬件、软件和/或其组合来实现实施例或其部分。当以软件实现时，软件代码可以在任何合适的处理器或处理器集合上执行，无论是在单个计算机中提供还是分布在多个计算机/服务器/计算装置中。这种计算机可以通过任何适当形式的一种或多种网络互连，包括局域网或广域网，例如企业网，以及智能网(IN)或因特网。这种网络可以基于任何合适的技术，并且可以根据任何合适的协议操作，并且可以包括无线网络、有线网络或光纤网络。

本文概述的各种方法或过程可被编码为可在采用各种操作系统或平台中的任一种的一个或多个处理器上执行的软件。另外，这种软件可以使用多种合适的编程语言和/或编程或脚本工具中的任何一种来编写，并且还可以被编译为在框架或虚拟机上执行的可执行机器语言代码或中间代码。

在这方面，各种公开的概念可以具体化为用一个或多个程序编码的计算机可读存储介质(或多个计算机可读存储介质)(例如，计算机存储器)一个或多个软盘、光盘、磁带、闪存、现场可编程门阵列或其它半导体器件中的电路配置，或其它非暂时性介质或有形计算机存储介质)，所述程序在一个或多个计算机或其它处理器上执行时，执行实现上述本发明的各种实施例的方法。一种或多种计算机可读介质可以是可移动的，使得存储在其上的一个或多个程序可以被加载到一个或多个不同的计算机或其它处理器上以实现如上所述的本公开的各个方面。

本文使用的术语“程序”或“软件”可以指任何类型的计算机代码或计算机可执行指令集，其可以用于对计算机或其它处理器编程以实现上述实施例的各个方面。另外，应当理解，根据一个方面，在执行时执行本发明的方法的一个或多个计算机程序不需要驻留在单个计算机或处理器上，而是可以以模块化方式分布在多个不同的计算机或处理器之间以实现本发明的各个方面。

处理器可执行指令可以是由一个或多个计算装置执行的许多形式，诸如程序模块，并且可以包括执行特定任务或实现特定数据类型的例程、程序、对象、组件、数据结构等，并且功能可以被适当地组合和/或分布以用于各种实施例。

数据结构可以以多种适当的形式存储在处理器可读介质中。为了简化说明，数据结构可以被示为具有通过数据结构中的位置相关的字段。同样，通过在传递字段之间关系的处理器可读介质中为字段分配存储位置，也可以实现这种关系。然而，可以使用任何适当的机制/工具来建立数据结构的字段中的信息之间的关系，包括通过使用指针、标签和/或建立数据元素之间的关系的其它机制/工具。

各种公开的概念可以具体化为一种或多种方法，提供了其实例。作为特定方法的一部分执行的动作可以以任何适当的方式排序。因此，可构建实施例，其中以不同于所绘示/论述的次序执行动作，其中可包括同时执行某些动作，即使在说明性实施例中被示为循序动作。

如本文所定义和使用的所有定义应理解为优先于字典定义，通过引用并入的文献中的定义和/或所定义术语的普通含义。流程图和/或语言/术语“步骤”的使用并不意味着限制所执行的操作的顺序。本文描述的主题有时绘示包含在不同的其它组件内或与不同的其它组件连接的不同组件。应了解，所述架构是示范性的且非限制性的，且可实施实现相同或类似功能且在本公开的范围内的许多其它架构。在概念意义上，实现所公开的功能的组件的任何布置被有效地“关联”，从而实现期望的功能。因此，本文中被组合以实现特定功能的任何两个组件可被视为彼此“相关联”使得实现所需功能，而与架构或中间组件无关。同样，如此相关联的任何两个组件也可视为彼此“可操作地连接”或“可操作地耦合”以实现所需功能，且能够如此相关联的任何两个组件也可视为彼此“可操作地耦合”以实现所需功能。可操作地耦合的具体实例包括但不限于物理上可匹配的和/或物理上交互的组件和/或无线地可交互的和/或无线地交互的组件和/或逻辑上交互的和/或逻辑上可交互的组件。在说明书和权利要求书中使用的不定冠词“一”和“一个”，除非清楚地相反指示，应理解为意指“至少一个”。

如本文所用，短语“和/或”应理解为意指如此结合的要素中的“任一者或两者”，即在一些情况下结合地存在而在其它情况下分离地存在的要素。用“和/或”列出的多个要素应当以相同的方式解释，即如此结合的要素中的“一个或多个”。除了由“和/或”子句具体指明的要素之外，可以任选地存在其它要素，无论与具体指明的那些要素相关还是不相关。因此，作为非限制性实例，当结合开放式语言如“包含”使用时，表示“A和/或B”在一个实施例中可以仅指A(任选地包括除B之外的要素)；在另一个实施例中，仅指B(任选地包含除A之外的元素)；在又一个实施例中，指A和B两者(任选地包括其它元素)；等等。

如本文所用，“或”应理解为具有与如上定义的“和/或”相同的含义，除非上下文清楚地另有说明。例如，当将列表中的项目分开时，“或”或“和/或”应被解释为包括性的，即包括多个元素或元素列表中的至少一个，但也包括多于一个，以及任选地，附加的未列出的项目。只有清楚地相反指示的术语，例如“…中的仅一个”或“…中的恰好一个”，或当在权利要求中使用时，“由…组成”，将是指包括多个要素或要素列表中的恰好一个要素。通常，本文中使用的术语“或”应仅解释为表示排他性替代(即，“一个或另一个但不是两者”)，当在排他性术语之前时，诸如“任一者”、“…中的一个”、“…中的仅一个”、或“…中的恰好一个”。当在权利要求中使用时，“基本上由…组成”应具有在专利法领域使用的普通含义。

如本文所用，在表述一个或多个要素列表时，短语“至少一个”，应理解为意指选自要素列表中的任何一个或多个要素的至少一个要素，但不一定包括要素列表内具体列出的每个要素中的至少一个，并且不排除要素列表中要素的任何组合。该定义还允许除了在短语“至少一个”所指的要素列表内具体标识的要素之外的要素可以任选地存在，无论与具体标识的那些要素相关还是不相关。因此，作为非限制性实例，“A和B中的至少一个”(或等效地，“A或B中的至少一个”或等效地“A和/或B中的至少一个”)在一个实施例中可以是指至少一个，任选地包括多于一个A，不存在B(并且任选地包括除B以外的要素)；在另一个实施例中，是指至少一个，任选地包括多于一个B，不存在A(并且任选地包括除A以外的要素)；在又一个实施例中，是指至少一个，任选地包括多于一个A，和至少一个，任选地包括多于一个B(和任选地包括其它要素)；等等。应当理解，所有过渡性短语，例如“包含”、“包括”、“携带”、“具有”、“含有”、“涉及”，“持有”、“由…组成”等是开放式的，即意味着包括但不限于。如美国专利局专利审查规程手册第2111.03节所述，仅过渡性短语“由…组成”和“基本上由…组成”分别是封闭式或半封闭式过渡性短语。

尽管已将各种实施例和/或实例描述为具有特定特征、概念和/或组件的组合，但具有来自本文所述的任何实施例/实例的任何特征、概念和/或组件的任何组合或子组合的其它实施例和/或实例也是可能的。例如，在一些情况下，系统和方法可用于生成模板掺料和/或混合物中的掺料。在一些情况下，可生成用于掺料的模板，且可使用生成合成多核苷酸的市售来源来制造模板掺料本身。在一些情况下，所描述的系统和方法可用于评估工作流程的列表以基于一个或多个选定标准来选择一个或多个流程。在一些其它情况下，所述系统和方法可用于充当用于验证包括差异丰度分析的研究结果的内部对照。在某些情况下，可以使用相同的系统来生成掺合混合物，使用掺合混合物来选择流程并使用该流程来验证结果。在一些其它情况下，所述系统和方法可仅用于验证结果。

虽然上面已经描述了各种实施例，但是应当理解，它们仅仅是作为实例而非限制来呈现的。在上述方法和步骤指示以特定顺序发生的特定事件的情况下，可以修改特定步骤的顺序。另外，当可能时，某些步骤可以在并行过程中同时执行，以及如上所述顺序执行。尽管已将各种实施例描述为具有特定特征和/或组件的组合，但具有来自本文所描述的任何实施例的任何特征和/或组件的任何组合或子组合的其它实施例也是可能的。在上述方法和/或事件指示以特定顺序发生的特定事件和/或过程的情况下，可以修改特定事件和/或过程的顺序。另外，当可能时，某些事件和/或过程可以在并行过程中同时执行，以及如上所述顺序执行。

实例

实例1：使用人工内标来验证扩增子序列处理流程

微生物组分析技术通常产生同生群间某些生物体(或序列)的差异丰度结果，通常是给定变量或测量的参数的影响。然而，由这些努力生成的绝大多数统计上显著的结果是从低丰度群体获得的，这对这些发现的再现性和准确度提出了怀疑。设计一组明确的NIST标准核酸，大量生产，并通过湿和干实验室方案验证。然后，将该核酸标准品集合用作定量微生物组测序示踪物(QMT)以评价现有16SrRNA基因序列分析工作流程的完整性并鉴定其中的弱点。

通过用已知数量的QMT掺入样本来评估“采集至结果”工作流程。将样本处理、16SrRNA基因序列处理(即UPARSE，dada2)和生物统计分析(即DESeq2、metagenomeSeq、edgeR和t.test)作为平行、独立的工作流程来评估。评估了40个不同工作流程的准确度、灵敏度、特异性和其它相关量度，并进行了相应排序。排序最高的工作流程包括用dada2进行序列处理(用于纠错和修剪)，根据Greengenes和StrainSelect数据库，对扩增子序列变体(ASV)进行分类注释，以及通过DESeq2‘poscounts’方法进行差异丰度分析。这种技术组合被认为最适合于大多数目标问题和应用。

包含明确的内标是验证复杂微生物组分析和统计方法的关键。尽管在微阵列表达研究中是常规的，但是在下一代基于测序的测定中通常不应用复杂的内标。本文描述了三种不同QMT混合物的设计、开发和实施，每种混合物包含69个独特的16SrRNA基因序列。这些QMT混合物用于评估40种不同序列处理/差异丰度检验工作流程的局限性。仅基于这种工作，并且第一次，可以将置信度水平附加到每个微生物组测定的差异丰度分析的结果中。此外，现在可以在每次测序运行中容易地识别由样本处理、测序深度或其它处理考虑因素引起的偏差。

在人微生物组粪便DNA中PCR扩增QMT混合物。从三种QMT混合物(命名为A、B和C)中的每一种的10个复制品生成30个不同的测序库。单个MiSeq测序运行从30个库生成总共12,663,065个读段。通过七个不同流程中的每一个，处理和分析原始序列。通过包含不同组成的内部QMTS，成功评估了“从摇篮到坟墓”工作流程中几种处理和分析技术的有效性(图28)。StrainSelect-to-UPARSE流程(SSUP)产生用于差异丰度分析的最大数目的可用读段(n＝9,424,347；74％)。具有2的截断质量(truncQ)值的dada2-to-StrainSelect流程(DDSS:Q2,n＝8,960,565；70％)具有次高水平的可用读段。DDSS:Q10序列处理流程返回最少的可用读段用于差异丰度分析(n＝4,728,751；37.8％)，比DDSS:Q2保留的读段的一半稍多。不令人惊讶的是，在DADA2-first(DDSS)工作流程中，随着截短质量(truncQ)参数的严格性降低，序列保留增加。对于StrainSelect注释优先(SSDD)流程，情况并非如此。序列保真度，即由PCR和测序策略产生的误差的组合度量，也在流程之间变化。DDSS流程的碱基响应误差率相似(DDSS:Q2和DDSS:Q5＝0.00052；DDSS:Q10＝0.00057)，而SSDD流程表现出稍高的误差率(高达0.0012，SSDD:Qx)。必须注意，SSDD流程的误差率在Q值上是相同的，因为QMT和菌株级序列读分配同时发生。

将每个工作流程中每种不同QMT的差异丰度结果相对于从所检验的特定QMT预期的组成变化分类为真阳性、真阴性、假阳性或假阴性的混淆矩阵(图29和图30)。产生调整的p值<0.05和绝对效应大小(log-2倍变化)大于0的差异丰度检验被认为显示出“真阳性”变化。由于所有库均使用相同的粪便DNA提取物，所以预期观察到的ASV、OTU或非动态QMT均不会产生统计学显著的组成变化。产生调整的p值<0.05的所有QMT、ASV和OTU差异丰度结果被认为表现出“假阳性”变化。相反地，任何表现出调整的p值>0.05或效应大小为0的结果被认为表现出“真阴性”变化。如果动态QMT表现出没有统计学显著的检验结果(调整的p值>0.05)或具有零效应大小(log-2倍数变化等于0)，则认为其表现出“假阴性”变化。

对于DDSS:Q2+DESeq2.poscounts差异丰度分析工作流程，观察到总共140个真阳性变化(仅QMT)，7个假阳性变化(1个QMT和6个ASV)，1,071个真阴性变化(31个QMT和1,041个ASV)和35个假阴性变化(仅QMT)(图29)。相比之下，对于SSDD:Q2+DESeq2.poscounts分析工作流程，观察到总共154个真阳性变化(仅QMT)，41个假阳性变化(仅ASV)，1,431个真阴性变化(32个QMT和1,381个ASV)和21个假阴性变化(仅QMT)(图30)。真阳性QMT变化的数量在工作流程中变化很大(平均值＝122.8，最小值＝37，最大值＝155；175可能)。仅在DDSS工作流程中观察到少量假阳性QMT变化(最大值＝1)。来自16SrRNA序列的假阳性变化数(在ASV或OTU水平)在40个工作流程中显著变化，范围为0至171个变化(平均值＝46.3)。每个工作流程，这些假阳性变化占评估的所有16S变化的0至5.8％(平均值＝0.17％)。

在所有流程上观察到所有32个零QMT变化(真阴性)中的31到32个。在工作流程中遇到867和2582之间的真阴性16S变化。这种变异主要源于将16SrRNA序列合并到OTU或ASV中的方法，这导致了极其大量的不同的bin。在仅使用所有库共有的一种粪便DNA提取物时，预期16S的所有零变化或统计学上不显著的观察结果为阴性。因此，没有假阴性16S变化。尽管在整个工作流程中观察到的所有16S变化中，真阴性变化占92.9至100％(平均值，97.3％)，但每个工作流程的假阴性QMT变化范围为20至138(平均值＝52.2)。

在对每个QMT或16S变化进行正确分类时，在评估总体性能和比较每个工作流程的准确度时考虑了若干量度。当与DESEq2或t.test结合以提高准确度时，SSDD和SS16UP流程在灵敏度和精确度方面优于DDSS流程。将任何序列处理流程与metagenomeSeq结合以生成差异丰度统计结果，得到最低排序的准确度、精确度和灵敏度值。创建经修改的特异性量度(SPK16_Specificity)以在一个量度中同时总结QMT和16S真阴性的存在。逆假阳性率和逆假阴性率分别考虑QMT和16SrRNA序列的假阳性和假阴性的频率。SSUP和DDSS序列处理流程在特异性(SPK16_Specificity量度)和假阳性率(最低)方面排名最高。然而，这些比率在所有流程之间变化很小(<0.10)。在逆假阴性率中观察到相当大的变化，其范围从0.21(SSUP+mtgSeq)到0.885(SS16UP+DESeq2.pos，SSDD:Q5/Q10+DESeq2.pos，和SSDD:Q10+DESeq2.bp)。最终，没有单个流程在结果标准分类量度方面优于所有其它流程。

创建经修改的阳性预测量度(SPK16_PPV)以评估每个工作流程在分类QMT和16SrRNA序列中的准确度。与该经修改的PPV量度有关的性能最终导致在微生物组分析流程中背书和采用DDSS:Q2(图31)。与任何差异丰度分析技术结合的DDSS流程胜过除了一个SSDD流程之外的所有流程。虽然SSUP相对于SPK16_PPV量度而言表现印象深刻，但此流程的QMT检测率显著的低。此外，DDSS流程性能随着质量阈值(truncQ)的降低而提高。

然而，虽然在高和中等QMT丰度水平上的性能是一致的，但是在所有检验的方法中，在‘超低’丰度水平下的QMT的预测值大幅下降。

至于差异丰度分析，准确评价变化程度与确定是否发生任何变化一样重要。与通过DESeq2.poscounts观察到的被认为是真阳性的QMT结果的效应大小(>15)相比，被认为是假阴性的QMT结果通常表现出较小的效应大小(通常丰度小于三个log-2倍变化)(图32)。这样，基于每个实验的QMT变化结果的事后效应大小阈值的应用可以显著地最小化虚假命中的错误检测。假阳性在DDSS工作流程中表现出比在SSDD或SS16UP工作流程中更小范围的效应大小，突出了对效应大小阈值的需要以最小化下游应用中假阳性的影响。为此，将σ和θ评估为量化观察到的效应大小与预期效应大小匹配的程度的手段。

根据多个分类和性能检验结果的累积评分，对序列处理和分析工作流程进行排序(图33、34和35)。对于所考虑的每个量度，所检验的流程都没有产生理想的结果。然而，在经由分类参考数据库读取映射注释之前，对序列数据执行DADA2去噪技术改善了所评估的所有量度的性能。检验的最低DADA2值(q＝2)产生最好的全能性能。通过DESeq2的统计归一化证明优于检验的所有其它技术(n＝30，每组10个)。

基于上文进行的对工作流程的系统评估，利用DESeqe2.poscounts实现了流程DDSS:Q2的最佳总体性能。尽管该方法适用于16SrRNA基因的V4高变区的测序，但其可容易地调整以应用于其它扩增子目标。了解到受试和真实内标对照的必要性，合成了原位(与样本相同的管)对照混合物，用于评估样本处理和分析中的固有偏差。在基于微阵列的研究中，常规应用内部对照标准以证实成功的杂交和数据采集。除了提供对偏差的更直接的评估之外，由于在样本管内的应用，设计包含比其它可用标准大得多的序列多样性(即，能够产生对偏差、置信度等的更优的估计值)。这些进展导致了更强健的16SrRNA基因扩增子测序流程的发展，利用该流程，可以在每次和每个测序运行中评估准确度，并且进而生成该微生物组的可靠的差异丰度测量值。

微生物组对照混合物.

从NIST原料中获得基因序列模板，以各种浓度制备，系统性地混合到预定的聚生体中，并用作微阵列内标对照。由于所有这些序列都是已知的，非核糖体来源的，它们不与被主动测定的其它序列相冲突，也不通过任何方式对其产生竞争作用。每个对照模板是含有内部非核糖体DNA序列的人造质粒构建体，所述DNA序列来源于NIST标准参考掺料(NISTStandardReferenceMaterials)(SRM2374)。设计PCR引物以从每种来源质粒扩增特定长度和GC含量的目标区。然后，用相应的引物对这些质粒进行PCR扩增，所述引物本身含有侧翼区，所述侧翼区促进随后使用靶向16SrRNA基因的V4高变区的引物的扩增。对照模板跨越宽范围的GC含量(～35至60％GC)以适当地模拟已知的序列可变性。PCR扩增后，将产物凝胶纯化并定量。然后，从得到的扩增子序列，产生三种独特的微生物组对照混合物，其中每一种都包含所有69种不同的序列模板，其浓度在其终浓度中跨越6个数量级以上(0.1至120,000拷贝/PCR反应)。在所有三种混合物中以每种丰度水平包括最少三种独特的序列标准，每种序列标准通过最终池(pool)的Sanger(>4x)和深度Illumina测序来验证。

样本制备、测序和序列处理.

将掺有QMT之一的来源于粪便的DNA提取物用引物进行PCR扩增，所述引物靶向复制中16SrRNA基因的V4高变区(n＝10)。当检验三种不同的QMT时，总共30个PCR库被纯化、定量、以等摩尔方式合并，并在IlluminaMiSeq上单轮测序。然后，通过下面详述的七个序列处理工作流程之一对原始读段进行多路分解和处理。这样，为每个工作流程产生一个丰度表和一个分类表。

使用UPARSE重新进行序列聚类.使用USEARCH10.0.240(分别使用-fastq_mergepairs和-orient命令，使用默认设置)合并和定向所得序列读段。然后，使用USEARCH中的-decrep_fulllength和-sortbysize实用程序，基于最大预期误差(即，1)，在去复制和按大小排序(丢弃单个)之前，对读段进行质量过滤。然后用USEARCH中的cluster_otus工具来实现97％同一性阈值下的OTU的重新聚类。

用DADA2生成ASV.原始序列读段用DADA2处理，应用默认设置进行过滤、学习错误、去复制、ASV推断和嵌合体去除。根据特定的序列处理工作流程，截断质量(truncQ)被设置为2、5或10。然后，从每个读段的每个末端(正向和反向)修剪10个核苷酸。

菌株级注释.在采用7个序列处理工作流程中的4个(标记为SS14-xx或SS16-xx)的情况下，首先将读段映射到内部菌株数据库。在其它三个工作流程的情况下，首先使用USEARCH实用程序(分别为-fastq_mergepairs和-orient)合并和定向原始读段。在此初次普查后，使用USEARCH，将所有读段映射到StrainSelect，菌株特定序列数据库(2014年和2016年版，分别缩写为SS14和SS16)。StrainSelect是从对已知原核菌株的基因测序、基因组测序、草案基因组和宏基因组装配获得的16SrRNA基因序列的储存库。相应分配了与独特菌株匹配的读段对，在SS14-xx和SS16-xx工作流程的后续重新聚类步骤中，不予考虑。

差异丰度检验

预处理。对于所有工作流程，应用流行度过滤使得在分析中考虑存在于至少5％样本(即，2或更多)中的任何OTU、ASV、毒株或QMT序列。对于OTU、ASV、菌株或QMT序列，在每个混合物比较组中检测到少于3个阳性样本，在每个比较组的最深测序样本中加入一个读段，使得总共3个样本产生阳性值(metagenomeSeq的要求)。

统计检验.应用5个不同的统计检验来跨各同生群评估差异丰度：DESeq2(版本1.18.1)，并应用阳性计数实用程序来减少稀疏数据，DESeq2，应用betapriors，edgeR(版本3.20.5)，metagenomeSeq(版本1.20.1)，以及t-tests，使用R统计软件包(版本3.4.1)。对于DESeq2.poscounts，在用DESeq()进行差异丰度检验之前，使用type＝poscounts，应用estimateSizeFactors()。通过将lfcshrink()应用于DESeq()结果，来调节Log2倍数变化值。对于DESeq2.betapriors，DESeq()用于差异丰度检验，betapriors＝TRUE。根据McMurdie和Holmes2014所著的差异丰度检验中概述的程序，实现利用edgeR的检验(McMurdie,P.J.,&Holmes,S.(2014)。《不浪费，不匮乏：为什么微生物组数据的稀薄化是不可接受的(WasteNot,WantNot:WhyRarefyingMicrobiomeDataIsInadmissible.)》。PLoS《计算生物学(ComputationalBiology)》,10(4),e1003531.https://doi.org/10.1371/journal.pcbi.1003531)。对于metagenomeSeq，首先用cumNorm()进行css归一化，然后通过fitFeatureModel()进行差异丰度检验。进行不成对t-test，并使用gtools软件包(版本3.5.0)的foldchange()和foldchange2logratio()实用程序，来计算log2倍数变化。然后，使用R统计软件包中定义的方法＝“BH”，用p.adjust()来调整p值。

效应大小比较.使用单向ANOVA检验来评估用于每个QMT比较的每个分析工作流程内观察到的效应大小分布。首先，评估效应大小分布的差异，以评估混淆矩阵类内序列处理和差异丰度方法的相互作用(例如，对于“仅真阳性”，ANOVA公式被评估为“观察到的效应大小”～SeqProc*DA_method。随后完成ANOVA检验以检验1)差异丰度检验(DA_方法)中由于序列处理方法(SeqProc)引起的差异，以及2)序列处理方法中由于差异丰度检验方法引起的差异。对于显著p值<0.05的任何ANOVA，计算事后Tukey检验，以鉴定哪些特定组不同。

流程比较和排序

对于所有40个不同的工作流程，基于调整的p值和log2倍数变化，每个QMT比较(例如，混合物A对混合物B，混合物B对混合物C)被认为是真阳性、真阴性、假阳性或假阴性。当预期QMT差异丰富时，当QMT比较产生调整的p值<0.05和绝对log2倍数变化>0时，产生真阳性。因为所有库都来源于相同的粪便生物标本，所以预期没有16SrRNA基因扩增子在各组间的丰度上显著不同。因此，我们还确定涉及16SrRNA基因扩增子的真阴性和假阳性比较的数目。这六个值用于计算下述量度。

单个量度计算

通过将一个工作流程中检测到的QMT序列的数目除以QMT序列的总数(总共69个)来计算检测率。

通过将真阳性QMT比较的总数除以预期差异丰富的QMT比较的总数来计算灵敏度。

通过将真阴性QMT和16SrRNA比较的总和除以预期不差异丰富的QMT和16SrRNA比较的总和来计算Spk16_Specificity。

通过将假阴性QMT比较的总数除以预期差异丰富的QMT比较的总数来计算假阴性率。

通过将总真阳性和总真阴性比较的总和除以预期差异丰富和预期不差异丰富的总QMT比较的总和来计算准确度。

通过将真阳性比较的总数除以总真阳性和总假阴性的总和来计算精确度。

通过将假阳性16SrRNA基因序列比较的总数除以16SrRNA基因序列比较的总数来计算16S假阳性率。通过将1减去16S假阳性率来确定逆16S假阳性率。

Spk16_PPV(阳性预测值)计算为总真阳性/(总真阳性+总假阳性+总假阳性16S比较)。

由观察到的log2FC和预期的log2FC的线性回归来计算θ和σ。使用该回归的斜率作为绝对值(atan(((斜率-预期斜率)/(1+预期斜率*斜率))))*(180/π)来计算θ，其中预期斜率为1(观察到的log2FC＝预期的log2FC)。归一化θ计算为1-(θ/180)。σ计算为与斜率为1的线相比的每个掺料比较的残差总和的平方根(观察到的log2FC＝预期的log2FC)。相对于所有40个独特工作流程的σ值来计算归一化σ，其中归一化σ＝1-(σ-最小σ)/(最大信号-最小σ)。

总体流程分数计算为：

(归一化θ)+(归一化σ)+检测率+灵敏度+Spk16特异性+准确度+精确度+Spk16_PPV*2–(假阳性16S率*2+假阴性率)最高可能分数为8。

表1

表1(续)

表1(续)

表1(续)

表2

表2(续)

表2(续)

Claims

1.一种组合物，其包含：一组n个管，每个管含有掺料混合物，其中所述掺料混合物包括m个多核苷酸序列，其中

所有n个管含有同一组m个多核苷酸序列，

所述m个多核苷酸序列中的每一个以来自一组拷贝数的一个拷贝数存在于所述n个管中的每一个中，所述拷贝数组包括选自高、低或超低的水平，

其中所述高水平大于1000个拷贝，所述低水平为50至1000个拷贝，而超低水平小于50个拷贝。

2.一种组合物，其包含：一组3个管，每个管含有掺料混合物，其中所述掺料混合物包含69个模板多核苷酸序列，其中

所有3个管含有同一组的69个模板多核苷酸序列，

所述69个模板多核苷酸序列中的每一个以高、低或超低的拷贝数存在于所述3个掺料混合物管中的每一个中，其中高是大于1000个拷贝，低是50至1000个拷贝，而超低是小于50个拷贝，

所述69个模板多核苷酸序列中的每一个在5'至3'方向上包含在PCR扩增反应期间将退火到标记基因的第一末端的核苷酸序列，在所述PCR扩增反应期间将不退火到所述标记基因的阴性对照核苷酸序列，以及在所述PCR扩增反应期间将退火到所述标记基因的第二末端的核苷酸序列。

3.根据权利要求2所述的组合物，其中所述阴性对照核苷酸序列中的每一个与其它68个标记基因序列不同。

4.根据权利要求2或3所述的组合物，其中：(a)在所述3个管中所述69个多核苷酸序列中的每一个的所述拷贝数在所有3个管中相同，(b)所述拷贝数在所有3个管中不同，或(c)所述拷贝数在所述3个管中的2个管中相同。

5.根据权利要求2至4中任一项所述的组合物，其中，所述标记基因是在被调查的生物体中保存的任何基因使得能够设计通用引物组以退火到5'和3'末端以从样本进行PCR扩增。

6.根据权利要求2至5中任一项所述的组合物，其中，所述标记基因是原核、真核或病毒基因。

7.根据权利要求2至6中任一项所述的组合物，其中，所述标记基因选自由以下组成的组：16SrRNA、16SrRNA的V1、V2、V3、V4、V5、V6、V7、V8和/或V9区、18SrRNA。

8.一种确定样本中微生物数量的方法，所述方法包含：

从所述样本中分离基因组DNA，

进行PCR反应以扩增标记基因序列，其中，所述标记基因序列存在于所述微生物中，并且其中所述PCR反应在根据权利要求1至7中任一项所述的组合物存在的情况下进行，使得所述样本在多个反应容器中分配，并且所述多个反应容器中的每一个含有所述3个掺料混合物管中的一个。

9.一种确定和提供对微生物组的差异丰度分析的置信度估计值的处理器实现的方法，其包含：

接收序列数据，所述序列数据包括与所述微生物组相关的数据，并且所述序列数据还包括与一组具有已知模板掺料序列的多核苷酸掺料混合物相关的数据；

从所述序列数据计算序列相似性的度量；

基于序列相似性的度量，将所述序列数据组织成一个或多个单位；

进行统计分析以获得所述一个或多个单位的一组计算出的差异丰度估计值，所述计算出的差异丰度估计值包括计算出的与所述微生物组相关的估计值和计算出的与具有已知模板掺料序列的所述多核苷酸掺料混合物相关的估计值；

计算与具有已知模板掺料序列的所述多核苷酸掺料混合物相关的预期差异丰度估计值；

将与所述多核苷酸掺料混合物相关的所述预期差异丰度估计值与计算出的与所述多核苷酸掺料混合物相关的差异丰度估计值进行比较；

基于所述比较，计算与所述计算出的与具有已知模板掺料序列的所述多核苷酸掺料混合物相关的估计值相关联的置信度度量；

提供所述置信度度量作为所述微生物组的所述差异丰度分析的置信度估计值。

10.根据权利要求9所述的方法，所述方法进一步包含：

基于包括在所述多核苷酸掺料混合物中的每个模板掺料的相对丰度的度量，将所述预期的差异丰度估计值和所述计算出的与具有已知模板掺料序列的所述多核苷酸掺料混合物相关的差异丰度估计值分类；

所述比较还包括将与每个类别中的所述多核苷酸掺料混合物相关的所述预期差异丰度估计值与计算出的与相同类别中的所述多核苷酸掺料混合物相关的差异丰度估计值进行比较；

其中计算所述置信度度量包括计算与每一类别差异丰度估计值相关联的唯一置信度度量。

11.根据权利要求9所述的方法，其中，具有已知模板掺料序列的所述多核苷酸掺料混合物组被配置成使得所有多核苷酸掺料混合物包括同一组模板掺料序列，所述多核苷酸掺料混合物被进一步配置成使得

每个多核苷酸掺料混合物包括所述模板掺料序列组的第一子集，其拷贝数与剩余多核苷酸掺料混合物中模板掺料序列的第一子集的所述拷贝数相同；

每个多核苷酸掺料混合物包括所述模板掺料序列组的第二子集，其拷贝数不同于所述剩余多核苷酸掺料混合物中的至少一个中的模板掺料序列的所述第二子集的拷贝数，拷贝数的差异为约一个数量级；

每个多核苷酸掺料混合物包括所述模板掺料序列组的第三子集，其拷贝数不同于所述剩余多核苷酸掺料混合物中的至少一个中的模板掺料序列的所述第三子集的拷贝数，拷贝数的差异大于一个数量级。

12.根据权利要求9所述的方法，其中所述将所述序列数据组织成一个或多个单位包括将所述序列数据聚类成操作分类单位。

13.根据权利要求9所述的方法，其中，所述将序列数据组织成一个或多个单位包括将所述序列数据映射到序列的参考数据库。

14.根据权利要求9所述的方法，其中所述将所述序列数据组织成一个或多个单位包括实施一种或多种纠错方法使得基于一组扩增子序列变体来定义所述单位。

15.根据权利要求9所述的方法，其中，执行统计分析包括使用组织的序列数据进行假设检验。

16.一种评估工作流程的处理器实现的方法，其包含：

使用所述多核苷酸掺料混合物来生成性能度量或量度；

计算最终流程排序量度；以及

基于所述最终流程排序量度的所述计算，选择待用于研究方案的研究中的工作流程。

17.根据权利要求16所述的方法，其中，所述最终流程排序量度计算为(归一化θ/2)+(归一化σ/2)+检测率+灵敏度+特异性+准确度+精确度+Spk16_PPV*1.5–(假阳性16S率+假阴性率)((theta_normalized/2)+(sigma_normalized/2)+detect_rate+Sensitivity+Specificity+Accuracy+Precision+Spk16_PPV*1.5–(FalsePos16S_Rate+FalseNeg_rate))。

18.根据权利要求16所述的方法，其中，所述最终排序量度能够用于选择待用于对准确性和检测敏感的研究中的工作流程。

19.一种确定生物样本的分析结果的有效性的方法，所述方法包含：

将所述生物样本与掺料混合物混合；

扩增所述生物样本和所述掺料混合物中的一种或多种目标序列，从而获得扩增产物；

对所述扩增产物进行测序和处理；

确定所述掺料混合物中一个或多个目标序列的统计度量，从而推断对于所述生物样本的所述分析结果的所述有效性。

20.根据权利要求19所述的方法，其中所述生物样本是血液样本、组织样本、皮肤样本、尿液样本或粪便样本。

21.根据权利要求20所述的方法，其中所述生物样本是粪便样本。