CN114026253A

CN114026253A - 用于微卫星分析的方法和系统

Info

Publication number: CN114026253A
Application number: CN202080045548.1A
Authority: CN
Inventors: 哈罗德·加纳
Original assignee: Obit Genomics
Current assignee: Obit Genomics
Priority date: 2019-04-22
Filing date: 2020-04-21
Publication date: 2022-02-08
Also published as: IL287458A; US20220189583A1; KR20220011630A; EP3959341A4; BR112021021128A2; JP2022530088A; EP3959341A1; CA3137720A1; WO2020219463A1; AU2020260998A1; MX2021012988A

Abstract

本公开提供用于对样本中的微卫星和次要等位基因进行分类的方法和系统。此外，本公开提供用于基于微卫星位点生成针对病症的分类器和用于执行泛癌症测定的方法和系统。所述方法和系统可以涉及来自受试者的核酸样本的下一代测序和所述样本中的微卫星位点的基因分型。

Description

用于微卫星分析的方法和系统

交叉引用

本申请要求于2019年4月22日提交的美国临时专利申请第62/837,109号的权益，所述申请的全部内容通过引用并入本文。

背景技术

微卫星(microsatellite，MS)及其改变和不稳定性可以是众多复杂的多基因健康状态(包括癌症、神经系统疾病或心血管疾病)背后的遗传驱动力。目前，通过微卫星预测、检测、诊断和表征这些健康状态可以涉及将患者的微卫星概况和与这些健康状态相关联的微卫星数据库进行匹配。此类方法仅适用于健康状态进展的后期阶段，这可能导致检测、预后、诊断、治疗选择和治疗结果的不可靠性和困难。因此，仍然需要通过微卫星位点的分析，在早期和晚期预测、检测和表征这些健康状态的改善方法。

发明内容

在一方面，本公开提供了一种计算机实现的方法，用于构建针对病症的优化的分类器，所述方法包括在多个优化周期中将多个微卫星的子集排序为针对所述病症的分类器，其中多个微卫星的子集包括与所述病症相关的微卫星的初始群体中的微卫星，从而将多个微卫星的子集的优化子集识别为针对所述病症的优化的分类器。在一些方面，计算机实现的方法还包括比较来自患有所述病症的受试者的第一组样本中的微卫星和来自未患有所述病症的受试者的第二组样本中的微卫星，从而识别微卫星的初始群体。

排序可以包括比较来自患有所述病症的受试者的第一组样本中的微卫星和来自未患有所述病症的受试者的第二组样本中的微卫星，从而识别微卫星的初始群体。计算机实现的方法可以包括初始化，其中初始化包括从所述微卫星的初始群体随机选择微卫星的初始子集群体，用于在多个优化周期的优化周期中排序。可在多个优化周期中使用微卫星的初始群体的至少约100个子集的群体。微卫星子集的子集中的微卫星的最小数量可以是8个。微卫星子集的子集中的微卫星的最大数量可以是64个。在一些情况下，在微卫星子集的子集中不允许有重复的微卫星。排序可以包括使用(i)微卫星的子集、(ii)来自患有所述病症的受试者的样本中的微卫星和(iii)来自未患有所述病症的受试者的样本中的微卫星来执行接收器操作特征(ROC)分析。在多个优化周期的优化周期中排序可以包括确定作为所述病症的分类器的子集的每个子集中的微卫星的灵敏度和特异性的总和。多个优化周期的优化周期可以包括将微卫星的初始群体的10个新子集添加到来自多个优化周期的先前优化周期的子集。10个新子集中的7个可以通过随机拆分和重组从先前优化周期中随机选择的2个子集来生成，10个新子集中的3个可以通过从所述微卫星的初始群体随机选择微卫星来生成。所述方法还可以包括至少部分地基于在优化周期中具有最低排序，在优化周期中丢弃子集的10个子集。在一些情况下，所述病症可以是受试者健康状态的存在或不存在。所述病症可以是受试者发展为健康状态的可能性增加或减少。所述病症可以是受试者受益于健康状态的治疗的可能性增加或减少。在一些情况下，所述病症可以是受试者因健康状态的治疗而具有增加的不利影响风险的可能性增加或减少。所述病症可以是受试者对健康状态的治疗的响应性。在一些情况下，所述病症可以是受试者健康状态的预后。在一些情况下，健康状态可以是癌症。癌症可以是肺癌。在其他情况下，健康状态可以是神经系统疾病或心血管疾病。

在另一方面，本公开提供了一种计算机实现的方法，其包括使用多个参数确定来自受试者的样本的病症的分类器的值，其中多个参数中的每一个参数是来自患有所述病症的受试者的样本和/或来自未患有所述病症的受试者的样本的多个微卫星中的每一个的相关性的统计测量。

多个权重可以包括多个最佳权重。在一些方面，计算机实现的方法可以包括确定多个最佳权重。确定多个最佳权重可以包括对多个权重应用标准回归分析。确定多个最佳权重可以包括使用遗传算法。确定分类器可以包括使用次要等位基因频率数据。多个微卫星可以包括至少10个微卫星。在一些实例中，多个微卫星中的每一个都与病症的存在相关。分类器的值还可以包括将分类器与阈值进行比较。在一些方面，所述病症可以是受试者健康状态的存在或不存在、受试者发展为健康状态的可能性增加或减少、受试者受益于健康状态的治疗的可能性增加或减少、受试者因健康状态的治疗而具有增加的不利影响风险的可能性增加或减少、受试者对健康状态的治疗的响应性或其组合。在一些情况下，健康状态是癌症、心血管疾病或神经系统疾病。当健康状态是癌症时，癌症可以是肺癌。

在另一方面，本公开提供了一种确定受试者的基因组年龄的计算机实现的方法，所述方法包括：确定来自受试者的第一样本中的微卫星次要等位基因特征；用参考处理微卫星次要等位基因特征；以及基于所述处理确定受试者的基因组年龄。

在一些情况下，处理包括将微卫星次要等位基因特征与参考进行比较。次要等位基因特征可以是遗传座上的许多重要等位基因。次要等位基因的数量可由至少三个下一代测序序列读数来支持。次要等位基因特征可以是将次要等位基因的读数总数标准化为遗传座处主要等位基因的读数总数。所述方法还可以包括对来自受试者的第一样本执行下一代测序，以生成受试者的微卫星的序列读数。第一样本可以包括血液、唾液或肿瘤。所述方法还可以包括，在确定第一基因组年龄后，确定来自受试者的第二样本中的次要等位基因特征。所述方法可以包括评估来自所述受试者的第一样本中的次要等位基因特征和来自所述受试者的第二样本中的次要等位基因特征，并且基于所述评估确定所述受试者的基因组老化速率。

在另一方面，本公开提供了一种计算机实现的方法，其包括：使用来自受试者的样本中的微卫星来确定来自受试者的样本的多个分类器；针对多种病症用多个参考分类器处理多个分类器；以及基于所述处理，从多种病症中为受试者确定至少一种病症。

所述处理可以包括针对多种病症将多个分类器与多个参考分类器进行比较。在一些情况下，多种病症中的至少一种病症包括受试者的多种健康状态中的至少一种健康状态的存在或不存在。在一些情况下，多种病症中的至少一种病症包括从受试者的多种健康状态中发展出至少一种健康状态的可能性增加或减少。多种病症中的至少一种病症可以包括受试者受益于受试者的多种健康状态中的至少一种健康状态的治疗的可能性增加或减少。多种病症中的至少一种病症可以包括受试者的多种健康状态中的至少一种健康状态的治疗导致受试者具有增加的不利影响风险的可能性增加或减少。多种病症中的至少一种病症可以包括受试者对针对受试者的多种健康状态中的至少一种健康状态的治疗的响应性。多种健康状态可以包括多种癌症，其中多种癌症包括卵巢癌、乳腺癌、低级胶质瘤、胶质母细胞瘤、肺癌、前列腺癌或黑色素瘤。在一些情况下，多种健康状态可以包括多种神经系统疾病或多种心血管疾病。

在一方面，本公开提供了一种包括可执行指令的非暂时性计算机可读介质，当所述可执行指令被一个或多个处理器执行时，使所述一个或多个处理器执行用于构建针对病症的优化的分类器的方法，所述方法包括在多个优化周期中将所述多个微卫星的子集排序为针对所述病症的分类器，其中所述多个微卫星的子集包括与所述病症相关的微卫星的初始群体中的微卫星，从而将多个微卫星的子集的优化子集识别为针对所述病症的优化的分类器。所述计算机实现的方法还可以包括比较来自患有所述病症的受试者的第一组样本的微卫星和来自未患有所述病症的受试者的第二组样本的微卫星，从而识别微卫星的初始群体。

排序可以包括比较来自患有所述病症的受试者的第一组样本中的微卫星和来自未患有所述病症的受试者的第二组样本中的微卫星，从而识别微卫星的初始群体。计算机实现的方法可以包括初始化，其中初始化包括从所述微卫星的初始群体随机选择微卫星的初始子集群体，用于在多个优化周期的优化周期中排序。可在多个优化周期中使用微卫星的初始群体的至少约100个子集的群体。微卫星子集的子集中的微卫星的最小数量可以是8个。微卫星子集的子集中的微卫星的最大数量可以是64个。在一些实施方式中，在微卫星子集的子集中不允许有重复的微卫星。排序可以包括使用(i)微卫星的子集、(ii)来自患有所述病症的受试者的样本中的微卫星和(iii)来自未患有所述病症的受试者的样本中的微卫星来执行接收器操作特征(ROC)分析。在多个优化周期的优化周期中排序可以包括确定作为所述病症的分类器的子集的每个子集中的微卫星的灵敏度和特异性的总和。多个优化周期的优化周期可以包括将微卫星的初始群体的10个新子集添加到来自多个优化周期的先前优化周期的子集。10个新子集中的7个可以通过随机拆分和重组从先前优化周期中随机选择的2个子集来生成，10个新子集中的3个可以通过从所述微卫星的初始群体随机选择微卫星来生成。所述方法还可以包括至少部分地基于在优化周期中具有最低排序，在优化周期中丢弃子集的10个子集。所述病症可以是受试者健康状态的存在或不存在。所述病症可以是受试者发展为健康状态的可能性增加或减少。所述病症可以是受试者受益于健康状态的治疗的可能性增加或减少。所述病症可以是受试者因健康状态的治疗而具有增加的不利影响风险的可能性增加或减少。所述病症可以是受试者对健康状态的治疗的响应性。所述病症可以是受试者健康状态的预后。健康状态可以是癌症。癌症可以是肺癌。健康状态可以是神经系统疾病或心血管疾病。

在另一方面，本公开提供了一种包括可执行指令的非暂时性计算机可读介质，所述可执行指令在被一个或多个处理器执行时，使所述一个或多个处理器执行一种方法，所述方法包括使用多个参数来确定来自受试者的样本的病症的分类器的值，其中所述多个参数中的每一个参数是来自具有所述病症的受试者的样本和/或来自未患有所述病症的受试者的样本的多个微卫星中的每一个的相关性的统计测量。

多个权重可以包括多个最佳权重。计算机实现的方法可以包括确定多个最佳权重。确定多个最佳权重可以包括对多个权重应用标准回归分析。确定多个最佳权重可以包括使用遗传算法。确定分类器可以包括使用次要等位基因频率数据。多个微卫星可以包括至少10个微卫星。多个微卫星中的每一个都可以与病症的存在相关联。分类器的值还可以包括将分类器与阈值进行比较。所述病症可以是受试者健康状态的存在或不存在、受试者发展为健康状态的可能性增加或减少、受试者受益于健康状态的治疗的可能性增加或减少、受试者因健康状态的治疗而具有增加的不利影响风险的可能性增加或减少、受试者对健康状态的治疗的响应性或其组合。健康状态可以是癌症、心血管疾病或神经系统疾病。癌症可以是肺癌。

在另一方面，本公开提供了一种包括可执行指令的非暂时性计算机可读介质，当可执行指令被一个或多个处理器执行时，使一个或多个处理器执行确定受试者的基因组年龄的方法，所述方法包括：确定来自受试者的第一样本中的微卫星次要等位基因特征；用参考处理微卫星次要等位基因特征；以及基于所述处理确定受试者的基因组年龄。

所述处理可以包括将微卫星次要等位基因特征与参考进行比较。次要等位基因特征可以是遗传座上的许多重要等位基因。次要等位基因的数量可由至少三个下一代测序序列读数来支持。次要等位基因特征可以是将次要等位基因的读数总数标准化为遗传座处主要等位基因的读数总数。所述方法还可以包括对来自受试者的第一样本执行下一代测序，以生成受试者的微卫星的序列读数。第一样本可以包括血液、唾液或肿瘤。所述方法还可以包括，在确定第一基因组年龄后，确定来自受试者的第二样本中的次要等位基因特征。所述方法可以包括评估来自所述受试者的第一样本中的次要等位基因特征和来自所述受试者的第二样本中的次要等位基因特征，并且基于所述评估确定所述受试者的基因组老化速率。

在另一方面，本公开提供了一种包括可执行指令的非暂时性计算机可读介质，当可执行指令被一个或多个处理器执行时，使一个或多个处理器执行一种方法，所述方法包括：使用来自受试者的样本中的微卫星来确定来自受试者的样本的多个分类器；针对多种病症用多个参考分类器处理多个分类器；以及基于所述处理，从多种病症中为受试者确定至少一种病症。

所述处理可以包括针对多种病症将多个分类器与多个参考分类器进行比较。多种病症中的至少一种病症可以包括受试者的多种健康状态中的至少一种健康状态的存在或不存在。多种病症中的至少一种病症可以包括从受试者的多种健康状态中发展出至少一种健康状态的可能性增加或减少。多种病症中的至少一种病症可以包括受试者受益于受试者的多种健康状态中的至少一种健康状态的治疗的可能性增加或减少。多种病症中的至少一种病症可以包括受试者的多种健康状态中的至少一种健康状态的治疗导致受试者具有增加的不利影响风险的可能性增加或减少。多种病症中的至少一种病症可以包括受试者对针对受试者的多种健康状态中的至少一种健康状态的治疗的响应性。多种健康状态可以包括多种癌症，其中多种癌症可以包括卵巢癌、乳腺癌、低级胶质瘤、胶质母细胞瘤、肺癌、前列腺癌或黑色素瘤。多种健康状态可以包括多种神经系统疾病或多种心血管疾病。

本公开另一方面提供了一种包括机器可执行代码的非暂时性计算机可读介质，所述机器可执行代码在由一个或多个计算机处理器执行时，实现上述或本文其他地方的任一方法。

本公开另一方面提供了一种系统，所述系统包括一个或多个计算机处理器和与其耦合的计算机存储器。计算机存储器包括机器可执行代码，所述代码在被一个或多个计算机处理器执行时，实现以上或本文其他地方的任一方法。

根据以下详细描述，本公开的另外的方面和优点对于本领域技术人员将变得容易理解，其中仅图示和描述了本公开的说明性实施方式。如将认识到的，本公开能够具有其他和不同的实施方式，并且在全部都不脱离本公开的情况下其若干细节能够在各种明显的方面进行修改。因此，附图和描述在本质上被认为是说明性的，而不是限制性的。

援引并入

本说明书中提及的全部出版物、专利和专利申请均以引用方式并入本文，其程度就如同每个单独的出版物、专利或专利申请被具体地和单独地指示为以引用的方式并入一样。就通过引用并入的出版物和专利或专利申请与说明书中包含的公开内容相矛盾而言，说明书意图取代和/或优先于任何此类矛盾的材料。

附图说明

在所附权利要求中具体阐述了本发明的新颖特征。通过参考以下具体实施方式将获得对本发明的特征和优点的更好理解，所述具体实施方式阐述了其中利用了本发明的原理的说明性实施方式，并且在附图中：

图1图示了用于生成微卫星分类器的计算机实现的方法的工作流程的示例。

图2图示了使用计算机实现的方法来识别信息性微卫星位点并且生成病症的分类器的开发过程的示例。

图3图示了肺癌测定的验证过程的示例。

图4图示了验证泛癌症测定的示例。

图5图示了用于分析患者样本的工作流程的示例。

图6图示了用于识别和验证髓母细胞瘤(MB)相关联MS的方法的示意图。所述方法包括3个阶段：使用训练集计算识别信息性MS位点，在独立验证队列中验证微卫星标记，并且对与这些MS相关联的基因进行下游分析。第一阶段包括一个过滤器，用于消除随着年龄、种族和测序技术而变化的MS。

图7A至图7D图示了验证和训练数据的示例。图7A图示了训练队列中指标分数的分布。图7C图示了验证队列中指标分数的分布。对训练(120MB受试者和425个对照受试者)(图7B)和验证(102MB受试者和428个对照受试者)队列(图7D)执行ROC分析。

图8A图示了显示MB的139个MS信息性位点的基因组位置的饼图。图8B图示了信息性髓母细胞瘤MS位点的基因本体论分析。图8C图示了与信息性MS位点相关联的124个基因的蛋白质-蛋白质相互作用(PPI)网络。PPI包含129个节点和49个边，导致富集p-值为0.0007的网络。

图9图示了在本文所描述研究中使用的基因型分布和列联表的示例。1号染色体碱基对153645035上微卫星标记242626的基因型分布。此示例的p-值为3.5e^-4。右表是同一微卫星标记的列联表。

图10图示了用于识别对年龄灵敏的MS的工作流程概要。

图11图示了用于识别对测序技术灵敏的MS的工作流程概要。

图12图示了用于识别对种族灵敏的MS的工作流程概要。

图13图示了用于为样本分配分数的指标的示例。对于上述标记，考虑相应地具有基因型22|22、12|12和13|13的假设样本。为了对此样本应用指标，将MB组和健康组中每个基因型的频率差异相加：结果是分数为0.95。换句话说，对于每个基因型，从MB组中的频率减去其在正常组中的频率；然后总结差异。因此，健康对照个体主要具有负分值，而受影响个体具有正分值。

图14图示了尤登指数，用于确定区分MB和健康样本的标准。尤登指数用于确定训练集中ROC曲线的截止值。43个标记列表的最佳标准是0.155。相同的标准用于计算验证队列的特异性和灵敏度。

图15图示了指示MB的43个信息性位点的染色体位置circos图。

图16图示了微卫星标记166663(位于RAI基因中的外显子微卫星)和164048(位于BLC6B基因中的外显子微卫星)的基因型分布。添加一个CAG三联体可以改变蛋白质结构，削弱其功能，类似于错义突变。

图17图示了通过计算机实现的方法报告微卫星分析结果以评估受试者发展癌症风险的输出示例。

图18图示了被编程或以其他方式被配置为实现本文提供的方法的计算机系统。

图19图示了与MB相关联的139个信息性种系MS的列表。

图20图示了MB签名集中的43个微卫星位点的列表。

图21图示了信息性MBMS位点的Ingenuity Pathway分析。

图22图示了cBioportalMB队列中信息性MBMS位点相关联基因的突变。

图23图示了对cBioportalMB癌症研究的分析，所述分析揭示了135个基因对的突变倾向于在MB癌症风险分类器中显著共现。

图24图示了具有1个标准偏差置信区间的阈值。区间外的分类器指示受试者患有病症(高于0.5)或未患有病症(低于0.1)。更远离阈值的分类器的值携载更强的指示。

具体实施方式

I.概述

本公开提供使用例如微卫星为病症生成分类器的计算机实现的方法。图1图示了如何执行计算机实现的方法来生成分类器的工作流程的示例。脱氧核糖核酸(DNA)序列是从来自患有病症的受试者的样本的序列信息数据库(101)和来自无病症的参考受试者的序列信息数据库(102)获得的。对来自101和102的微卫星位点进行识别(基因分型)并且相互比较以揭示仅与所述病症相关或关联的微卫星群体(103)。然后，微卫星位点群体被进一步分析和加权，以得到一组初始微卫星位点(104)，用于分类器的优化(105)。优化迭代地排列微卫星如何与病症相关或关联。可以用另外的微卫星组重复优化以进行另外的优化周期。在一些情况下，微卫星组被随机拆分和重组，以产生用于另外的优化周期的新的初始微卫星组(106)。优化完成后，计算机实现的方法识别对生成分类器最有信息性的微卫星组(107)。可以通过分析已知存在或不存在所述病症的受试者的另外的样本(例如，来自数据库)来进行另外的验证或优化步骤(108)。在108之后，计算机实现的方法可以用于生成最终分类器(109)。

在一方面，本公开提供用于将一组微卫星识别为病症的标记(分类器)的改善的计算机实现的方法。所述方法还可以包括比较来自患有所述病症的受试者的第一组样本的微卫星位点和来自未患有所述病症的受试者的第二组样本的微卫星位点，从而识别微卫星位点的初始群体(信息性位点)。

在一些情况下，信息性位点可以直接用作分类器。在一些情况下，包括信息性位点的分类器可以指示受试者的病症的存在或不存在。在一些情况下，包括信息性位点的分类器可以指示受试者的病症发展的可能性增加或减少。在一些实例中，包括信息性位点的分类器可以指示受试者受益于治疗的可能性增加或减少，或受试者由于治疗而具有增加的不利影响风险的可能性增加或减少。在一些情况下，包括信息性位点的分类器可以指示对受试者的病症的治疗的响应性。在一些实例中，信息性位点的分类器可以指示受试者的病症的预后。

在一些方面，微卫星位点(信息性位点)的初始群体用于如由计算机实现的方法执行的遗传算法。所述方法可以包括通过比较来自患有所述病症的受试者的样本中的微卫星子集和来自未患有所述病症的受试者的样本中的微卫星，对微卫星的初始群体的子集进行迭代地排序。所述方法可以包括初始化，其中从微卫星位点的初始群体随机选择子集的初始子集。在一些实例中，在整个遗传算法(优化周期)中使用约100个微卫星位点的初始群体的子集，其中子集的最小数量的微卫星是8个，并且子集的最大数量的微卫星是64个。在一些实例中，迭代排序包括多个优化周期，其中多个优化周期包括将微卫星的初始群体的10个新子集添加到来自先前优化周期的子集。10个新子集中的7个可以通过随机拆分和重组从先前优化周期中随机选择的2个子集来生成，10个新子集中的3个是通过从所述微卫星的初始群体随机选择微卫星而生成的。在一些情况下，所述方法包括在优化周期中对子集进行排序，其中在优化周期中具有最低排序的子集中的10个被丢弃，因此在整个优化周期中维持微卫星群体的100个子集。遗传算法可以包括对全部微卫星组合执行迭代排序，以识别信息性最大的微卫星位点。遗传算法可以通过移除信息性较少的微卫星位点，以及选择或加权信息性较大的微卫星位点来提高灵敏度和特异性。在一些情况下，由微卫星位点识别的由周期优化的病症可以指示受试者健康状态的存在或不存在、受试者健康状态发展的可能性增加或减少、受试者受益于健康状态的治疗的可能性增加或减少、受试者由于健康状态的治疗而具有增加的不利影响风险的可能性增加或减少、受试者对健康状态的治疗的响应性、受试者健康状态的预后或其组合。

在另一方面，本公开提供改善的计算机实现的方法，其包括使用多个参数来确定来自受试者的样本的病症的分类器，其中多个参数中的每一个参数是来自患有病症的受试者的样本和/或来自未患有所述病症的受试者的样本的多个微卫星中的每一个的相关性的统计测量。在一些情况下，多个参数包括最佳权重，诸如通过标准回归分析和使用遗传算法确定的那些。在一些情况下，通过使用次要等位基因频率数据来确定分类器。在一些情况下，所述病症可以指示受试者健康状态的存在或不存在、受试者健康状态发展的可能性增加或减少、受试者受益于健康状态的治疗的可能性增加或减少、受试者由于健康状态的治疗而具有增加的不利影响风险的可能性增加或减少、受试者对健康状态的治疗的响应性、受试者健康状态的预后或其组合。在一些情况下，健康状态是癌症、神经系统疾病或心血管疾病。

在另一方面，本公开提供使用计算机系统来确定来自受试者的第一样本中的次要等位基因特征、将次要等位基因特征与参考进行比较、以及基于所述比较来确定受试者的基因组年龄的方法。次要等位基因特征可以是座处的多个次要等位基因，其中等位基因的数量由至少一个、至少两个、至少三个或三个以上的下一代测序序列读数支持。在一些情况下，次要等位基因特征是将次要等位基因的读数总数标准化为座处主要等位基因的读数总数。可以将来自受试者的第一样本的次要等位基因特征与来自同一受试者的第二样本的第二次要等位基因特征进行比较，以确定基因组老化速率。

本公开提供基于使用微卫星位点和可选的次要等位基因信息生成的分类器的泛病症测定。在一些情况下，泛病症测定是泛癌症测定。

术语“约”或“近似”可以表示在由本领域普通技术人员确定的特定值的可接受错误范围内，这将部分取决于如何测量或确定所述值，例如测量系统的限制。例如，根据给定值中的实践，“约”可以表示在1或1个以上的标准偏差内。约可以表示值的+/-10％、+/-5％、+/-2％或+/-1％。除非上下文另有明确规定，如在说明书和根据权利要求书中所使用的单数形式“一”、“一个”和“所述”包括复数引用。例如，术语“核酸”包括多个核酸，包括其混合物。

II.确定病症的微卫星分类器的方法

本公开提供用于识别病症的微卫星分类器的方法，例如，计算机实现的方法(例如，参见图2)和系统。所述病症可以是受试者健康状态的存在或不存在、受试者健康状态发展的可能性增加或减少、受试者受益于健康状态的治疗的可能性增加或减少、受试者因健康状态的治疗而具有增加的不利影响风险的可能性增加或减少、受试者对健康状态的治疗的响应性、受试者健康状态的预后或其组合。所述方法可以包括识别来自患有病症和未患有病症的受试者的样本中的微卫星位点(基因分型)。所述方法可以包括识别病症的统计上地信息性微卫星位点。所述方法可以包括使用统计上地信息性微卫星位点来开发针对病症的分类签名。分类签名可以被验证并且用于测试来自受试者的样本。

A.微卫星位点基因分型

识别微卫星分类器的方法可以包括对来自患有病症和未患有病症的受试者的样本中的微卫星位点进行基因分型。在一些情况下，基因分型包括分析数据库中的序列信息。在一些情况下，基因分型包括获得样本并且分析样本中的核酸分子，例如通过下一代测序。

1.序列信息数据库

在一些情况下，识别(例如，基因分型)微卫星位点的方法可以包括分析来自一个或多个数据库的序列信息。一个或多个数据库可以包括来自患有病症的受试者，例如患有癌症的受试者或来自癌细胞系的核酸样本的序列信息(例如，序列读数)。一个或多个数据库可以包括参考序列(例如，人类基因组或其一部分)。一个或多个数据库可以包括一个或多个受试者群体的变异或多态性序列。

一个或多个数据库可以包括由高通量或下一代测序生成的序列信息。一个或多个数据库可以包括通过来自受试者的样本的全外显子组测序(WES)、全基因组测序(WGS)或其组合生成的序列的数据(例如，序列读数数据)。在某些实例中，一个或多个数据库包括从靶向测序生成的序列信息(例如，序列读取信息)。靶向测序可以包括来自受试者的样本的靶向序列的富集。

所述数据库可以包括来自癌症基因组图谱(TCGA)的序列信息，例如外显子组数据，例如肺癌外显子组数据。所述数据库可以来自1000基因组计划。

2.样本

样本可以是从一个或多个受试者获得或衍生的生物样本。可以对样本进行处理或分级以产生其他样本，例如其他生物样本。在本公开中描述的样本可以包括从中可以获得核酸分子的任何材料。

样本可以从患有病症的受试者获得。样本可以从患有病症症状的受试者获得。样本可以从患有病症的受试者获得，但是所述受试者没有所述病症的症状。样本可以从未患有病症的受试者获得。样本可以从患有癌症的受试者、怀疑患有癌症的受试者、或未患有或未怀疑患有癌症的受试者获得。

样本可以从人类受试者获得或衍生。样本可在处理前存储在多种存储条件下，诸如不同的温度(例如，在室温下、冷藏或冷冻条件下、在25℃、在4℃、在18℃、在-20℃或在-80℃)或不同的缓冲装置(例如，EDTA收集管、或无细胞DNA或RNA收集管)。

样本可在治疗患有癌症的受试者之前和/或之后采集。可在治疗或治疗方案期间从受试者获得样本。可以从受试者获得多个样本以监测治疗随时间的效果。样本可以取自已知或怀疑患有癌症的受试者，所述癌症的最终阳性或阴性诊断不能经由临床试验获得。样本可以取自怀疑患有癌症的受试者。样本可以取自出现不明原因症状的受试者，诸如疲劳、恶心、体重减轻、疼痛、虚弱或出血。样本可以取自具有解释症状的受试者。样本可取自因家族史、年龄、高血压或高血压前期、糖尿病或糖尿病前期、超重或肥胖、环境暴露、生活方式风险因素(例如，吸烟、饮酒或吸毒)或其他风险因素的存在而发展癌症风险的受试者。

样本可以是来自受试者的生物样本。样本可以是全血、外周血、血浆、血清、唾液、粘液、尿液、精液、淋巴液、羊水、粪便提取物、面颊拭子、细胞或其他体液或组织，包括通过手术活检或手术切除获得的组织。在一些情况下，样本可以是主要受试者(例如，患者)衍生的细胞系或存档的受试者(例如，患者)样本，例如保存的样本，例如福尔马林固定的石蜡包埋(FFPE)样本，或新鲜的冷冻样本。样本(例如生物样本)，可以使用乙二胺四乙酸收集管、DNA或RNA收集管或无细胞DNA或无细胞RNA收集管从受试者获得或衍生。样本，例如生物样本，可以通过分级从全血样本中获得。样本，例如生物样本或其衍生物可以包括细胞。样本(例如生物样本)可以是血液样本或其衍生物(例如，从收集管收集的血液或血滴)。

样本可以包含一种或多种能够被测定的测定物。样本可以包括一种或多个核酸分子。一个或多个核酸分子(或本文公开的任何核酸分子，包括引物和探针)可以是任何长度的核苷酸(例如，脱氧核糖核苷酸(dNTP)或核糖核苷酸(rNTP)或其类似物)的聚合形式。类似物可以包括非天然存在的碱基，与天然存在的磷酸二酯键之外的其他核苷酸附接的核苷酸，或包括通过磷酸二酯键之外的键附接的碱基。核苷酸类似物包括例如硫代磷酸酯、二硫代磷酸酯、三磷酸酯、氨基磷酸酯、硼酸磷酸酯、甲基膦酸酯、手性甲基膦酸酯、2-O-甲基核糖核苷酸、肽-核酸(PNA)等。核酸分子可以是脱氧核糖核酸(DNA)。DNA可以是基因组DNA、病毒DNA、线粒体DNA、质粒DNA、扩增DNA、环状DNA、循环DNA、无细胞DNA或外泌体DNA。在一些实例中，所述DNA是单链DNA(ssDNA)、双链DNA、变性双链DNA、合成DNA及其组合。环状DNA可以被切割或片段化。所述DNA可以包括感兴趣的基因或基因片段的编码或非编码区域、由连锁分析限定的位点(座)、外显子或内含子。DNA可以是互补DNA(cDNA)。核酸分子可以是重组核酸、分支核酸、质粒、载体或分离的DNA。核酸分子可以包括一个或多个修饰的核苷酸，例如甲基化核苷酸或核苷酸类似物。可在核酸分子组装之前或之后进行对核苷酸结构的修饰。核酸分子的核苷酸序列可以被非核苷酸成分中断。核酸分子可在聚合后进一步修饰，诸如通过与报告剂缀合或结合。

核酸分子可以包括座、遗传座或基因组区域，所述座、遗传座或基因组区域可以通过其在基因组或染色体中的位置来识别。在一些示例中，座可由基因名称指代，并且包括与核酸的物理区域相关联的编码和非编码区域。基因可以包括编码区域(外显子)、非编码区域(内含子)、转录控制或其他调节区域以及启动子。在另一个示例中，基因组区域可在命名基因内并入内含子或外显子或内含子/外显子边界。

在一些实例中，核酸分子包括核糖核酸(RNA)。RNA可以是片段化的RNA。所述RNA可以是降解的RNA。所述RNA可以是微RNA或其部分。RNA可以是选自以下的RNA分子或片段化的RNA分子(RNA片段)：微RNA(miRNA)、前miRNA、pri-miRNA、信使RNA(mRNA)、前mRNA、短干扰RNA(siRNA)、短发夹RNA(shRNA)、病毒RNA、类病毒RNA、环状RNA(circRNA)、核糖体RNA(rRNA)、转移RNA(tRNA)、前tRNA、长非编码RNA(lncRNA)、小核RNA(snRNA)、循环RNA、无细胞RNA、外体RNA、载体表达RNA、RNA转录物、合成RNA、核酶、无细胞RNA及其组合。

在一些情况下，样本包括无细胞核酸分子。无细胞核酸分子可以包括，例如，源自受试者体液的全部非包囊核酸分子。无细胞核酸(cfNA)分子可以是不包含在细胞中的生物样本中的核酸(例如，无细胞RNA(cfRNA)分子或无细胞DNA(cfDNA)分子)。cfDNA分子可在体液中(诸如在血流中)自由循环。无细胞DNA分子可以是循环的肿瘤DNA，例如源自肿瘤的cfDNA。

样本可以是无细胞样本。无细胞样本可以是基本上没有完整细胞的生物样本。无细胞样本可以是其自身基本上没有细胞的生物样本，或可以源自已经移除细胞的样本。无细胞样本的示例包括源自血液的样本，诸如血清或血浆；尿；或源自其他源的样本，诸如精液、痰、粪便、导管渗出液、淋巴液或回收的灌洗液。

样本可以包括种系核酸分子(例如，来自非患病细胞或组织，例如肿瘤的核酸)。样本可以包括来自肿瘤的核酸分子。在一些情况下，样本可以包括种系核酸分子(例如，来自非患病组织)和来自患病组织(例如，肿瘤)的核酸分子。

样本可以包括靶向核酸分子。靶向核酸分子可以是具有核苷酸序列的核酸分子，所述核苷酸序列的存在、数量和/或序列，或其中一个或多个的变化需要被确定。

可以例如使用Qiagen QIAmp DNA血液迷你试剂盒、MP生物医疗公司的FastDNA试剂盒方案或Norgen Biotek的无细胞生物DNA分离试剂盒方案从样本提取核酸分子(例如，RNA或DNA)。所述提取方法可以从样本提取全部的RNA或DNA分子。提取方法可以选择性地从样本提取一部分RNA或DNA分子。从样本提取的RNA分子可以通过逆转录(RT)转化为DNA分子。逆转录可以是经由逆转录酶的作用从核糖核酸(RNA)模板生成脱氧RNA(DNA)。

例如，可以使用BIOANALYZER或NANODROP系统分析提取的核酸的质量。

主体可以是人或个体。受试者可以是患者。受试者可以是患有或疑似患有癌症的人。受试者可以显示指示健康或生理状态或病症的症状。受试者在健康或生理状态或病症方面可以是无症状的。本文所描述的受试者可以包括哺乳动物，包括哺乳动物类的任何成员：人类、非人灵长类动物(诸如，黑猩猩，以及其他猿类和猴类)；家畜，如牛、马、绵羊、山羊、猪；家养动物(诸如，兔子、狗和猫)；实验室动物包括啮齿动物(诸如，大鼠、小鼠和豚鼠)等。一个方面，哺乳动物是人。

处理从受试者获得的样本可以包括将样本置于足以分离、富集或提取多个核酸分子的病症下，并且测定多个核酸分子以生成数据集。

可以分析受试者的样本以对一个或多个微卫星进行基因分型。如本文所描述的微卫星、微卫星位点或微卫星区域可以指核苷酸序列中1至6个核苷酸的串联重复。在一些情况下，微卫星包括超过6个核苷酸的串联重复序列。一个或多个微卫星可在外显子的上游、外显子的下游、外显子中、基因间序列中、内含子中、跨越外显子和内含子的区域中、3'非翻译区域(UTR)、5'UTR或基因组中的任何其他区域中找到。在一些实例中，样本中的微卫星的模式不同于参考样本中的微卫星的模式。微卫星模式的差异可以包括单核苷酸多态性(SNP)、SNP的百分比、插入缺失(插入、缺失、插入和缺失的比率及其组合)或插入缺失与SNP的比率。在一些实例中，微卫星差异的模式包括单倍型，例如，给定位点的纯合性、杂合性或次要等位基因的百分比。在微卫星的差异模式位于外显子区域的情况下，差异可以包括非同义SNP、同义SNP、移码插入缺失、非移码插入缺失、停止增益和停止丢失。样本可以匹配，例如，年龄、性别或种族(例如，白种人、非裔美国人、西班牙裔美国人)。在一些情况下，样本不匹配。在一些情况下，样本可以伴随有另外的临床元数据，包括例如健康状况、癌症、心脏或神经系统状况、治疗状况或响应、或疾病阶段。临床元数据可以与微卫星相关联，以确定微卫星相对于临床元数据是否具有信息性。

一个或多个微卫星的身份(例如，基因型)可以通过任何可用的方法或技术获得，包括下一代测序、高通量测序、合成测序、焦磷酸测序、经典桑格测序方法、连接测序、合成测序、杂交测序、RNA-Seq(Illumina)、Illumina测序(使用可逆终止的核苷酸)、成对端测序、数字基因表达(Helicos)、单分子测序(例如合成单分子测序(SMSS)(Helicos))、离子洪流(半导体)测序(Life Technologies/Thermo-Fisher)、大规模并行测序、克隆单分子阵列(Solexa)、纳米孔测序、太平洋生物科学SMRT测序、鸟枪法测序、Maxim-Gilbert测序、引物行走以及任何其他测序方法。

下一代测序可以包括样本多路复用。样本多路复用可以是至少或最多或约12个样本、24个样本、48个样本、96个样本、192个样本、384个样本、768个样本或1536个样本。测序深度可以从约1倍到约10倍，约10倍到约100倍，约100倍到约500倍，或约500倍到约1000倍。

测序深度可以是至少、最多或约1倍、5倍、10倍、50倍、100倍、200倍、250倍、300倍、400倍或500倍。碱基调用共识准确性可以至少为95％、96％、97％、98％、99％或超过约99％。质量分数可以至少为Q10(例如，错误率小于1:10，推断基本调用准确性超过90％)，Q20以上(例如，错误率小于1:100，推断基本调用准确性超过99％)，Q30以上(例如，错误率小于1:1000，推断基本调用准确性超过99.9％)，Q40以上(例如，错误率小于1:10,000，推断基本调用准确性超过99.99％)，或Q50以上(例如，错误率小于1:100,000，推断碱基检出准确性超过99.999％)。组装方法可以生成至少95％、96％、97％、98％或99％的准确性，用于在下一代测序数据集中调用微卫星基因型。

在对核酸分子测序后，可以对序列读数执行合适的生物信息学处理。例如，序列读数可以与一个或多个参考基因组(例如，一个或多个物种的基因组，诸如人类基因组)对准。可在一个或多个位点(例如，一个或多个微卫星位点)处量化对准的序列读数。

在一些方面，识别(例如，基因分型)一个或多个微卫星包括扩增一个或多个微卫星位点的核苷酸序列，例如，通过执行聚合酶链式反应(PCR)，例如，使用引物，例如，特异性引物，在一个或多个微卫星位点的侧翼，并且例如，通过毛细管电泳或测序评估扩增的片段。PCR可以是定量PCR(qPCR)、数字PCR或逆转录酶PCR。扩增或放大可以增加核酸分子的大小或数量。被扩增的核酸分子可以是单链或双链的。扩增可以包括生成核酸分子的一个或多个拷贝或扩增产物。例如，可以通过延伸(例如引物延伸)或连接来执行扩增。扩增可以包括执行引物延伸反应以生成与单链核酸分子互补的链，并且在一些情况下生成链和/或单链核酸分子的一个或多个拷贝。

核酸分子(例如包括一个或多个微卫星位点的核酸分子)的扩增可以例如用以下任何核酸扩增方法执行：环介导等温扩增(LAMP)、基于核酸序列的扩增(NASBA)、自持序列复制(3SR)、滚环扩增(RCA)、重组酶聚合酶扩增(RPA)、多重置换扩增(MDA)、解旋酶依赖性扩增(HDA)、链置换扩增(SDA)、切刻酶扩增反应(NEAR)、指数扩增反应(EXPAR)、聚合酶螺旋反应(PSR)、等温多重置换扩增(IMDA)，分支扩增法(RAM)、单引物等温扩增(SPIA)、信号介导的RNA扩增技术(smart)、信标辅助检测扩增(BADAMP)、铰链引发的引物依赖的核酸扩增(HIP)、SMART扩增过程(SmartAmp)、杂交链式反应(HCR)、一种托底介导的链置换(TMSD)、连接酶链式反应、数字PCR(dPCR)、液滴数字PCR(ddPCR)或转录介导的扩增。扩增可以涉及多重扩增，例如，使用AMPLISEQ。在一些情况下，RNA在扩增前通过逆转录转化为cDNA。测定读数可以包括定量PCR(qPCR)值、数字PCR(dPCR)值、数字液滴PCR(ddPCR)值、荧光值等，或其归一化值。可以用于本文提供的方法中的其他测定包括免疫测定、电化学测定、表面增强拉曼光谱(SERS)、基于量子点(QD)的测定、分子反转探针、基于CRISPR/Cas的测定(例如，CRISPR-分型PCR(ctPCR)、特异性高灵敏度酶报告子解锁定(SHERLOCK)、DNA核酸内切酶靶向CRISPR反式报告子(DETECTR)、CRISPR介导的模拟多事件记录设备(CAMERA))和激光透射光谱(LTS)。

多重扩增可以包括扩增约10至约50个靶向、约50至约100个靶向、约100至约500个靶向或约500至约1000个靶向。可以将衔接子(例如，通用衔接子)添加(例如，连接)到核酸分子以便于扩增和/或测序，例如，在ILLUMINA测序平台上。通用引物可以结合通用衔接子进行扩增

可以分析多个样本，并且每个多路复用的样本都可以有条形码。从样本分离或提取的RNA或DNA分子可以被标记，例如，用可识别的标记，以允许多个样本的多路复用。任何数量的RNA或DNA样本都可以多路复用。例如，多重反应可以包含来自至少约2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、25个、30个、35个、40个、45个、50个、55个、60个、65个、70个、75个、80个、85个、90个、95个、100个或100个以上初始样本的RNA或DNA。例如，多个样本可以用样本条形码标记，使得每个DNA分子可以追溯到所述DNA分子来源的样本(和受试者)。此类标签可以通过附接或通过引物进行PCR扩增来附接到RNA或DNA分子。

在一些情况下，诱饵集(例如，杂交探针，例如SURESELECT或SEQCAP)用于获取靶向，例如靶向核酸分子。靶向可以包括RNA和/或DNA。杂交探针的长度可以是至少15个、25个、50个、75个、100个、120个或150个碱基。杂交探针的长度可以是15至50个碱基、50至100个碱基或100至150个碱基。探针可以是与一个或多个位点(例如，一个或多个微卫星)的核酸序列(例如，RNA或DNA)具有序列互补性的核酸分子(例如，RNA或DNA)。使用对一个或多个位点(例如，一个或多个微卫星)具有选择性的探针来测定样本可以包括使用阵列杂交(例如，基于微阵列的)、聚合酶链反应(PCR)或核酸测序(例如，RNA测序或DNA测序)。

在一些方面，分析核酸分子包括执行下一代测序。在一些情况下，可以直接执行微卫星的测序，例如，无需执行扩增。下一代测序方法可以包括全基因组、全外显子组和部分基因组或外显子组。下一代测序方法可以用于靶向序列、富集序列或其组合。

在一些实例中，在测序和下游分析之前，用富集试剂盒执行富集。在一些情况下，用富集试剂盒执行富集以富集经过遗传算法验证的微卫星位点。使用富集试剂盒可以增加读数中可调用化感类型或基因型的数量，并且可以增加对给定样本分析更大百分比的信息性位点的能力。富集试剂盒可以包括与微卫星的靶向序列和微卫星任一侧或两侧上的侧翼序列杂交的富集阵列或探针。在一些情况下，与不使用富集试剂盒可获得的可调用基因型的数量相比，富集的使用使可调用基因型的数量增加了至少5％、10％、20％、30％、40％、50％、60％、70％、80％、90％、100％或更多。在一些实例中，与不使用富集试剂盒的可调用基因型的数量相比，富集试剂盒的使用将可调用基因型的数量增加了至少2倍、3倍、4倍、5倍、6倍、7倍、8倍、9倍、10倍或更多倍。在一些方面，本文公开的富集试剂盒包括可以用于执行本文所描述方法的组合物。

3.基因分型算法

可以使用算法对微卫星进行基因分型。所述算法可以使用例如由经验衍生的错误模型引导的贝叶斯模型选择，或者离散化高斯混合(例如，GenoTan)。例如，所述算法可以是Repeatseq。基于动态规划的方法或启发式方法可以用于对微卫星进行基因分型。用于微卫星基因分型的其他工具包括PHOBOS、MISA、Tandem Repeats Finder、FullSSR或bMSISEA。

B.识别信息性微卫星

识别信息性微卫星可以包括从患有病症的受试者的样本中识别第一组微卫星位点，并且从未患有病症的受试者的样本中识别第二组微卫星位点。在一些情况下，第二组微卫星位点可以从参考序列的数据库获得。

1.统计数据

可以检测第一组微卫星位点和第二组微卫星位点之间的差异，并且用一种或多种统计测试(诸如t测试、Z测试、方差分析、回归分析、曼-惠特尼-威尔科克森测试、卡方测试、相关性、费希尔精确测试、邦费洛尼校正和Benjamini-Hochberg测试)进行统计上地比较。在一些情况下，使用广义费希尔精确测试来量化统计差异。在一些情况下，应用Benjamini-Hochberg多重测试校正来控制错误发现率。

2.微卫星过滤

如果例如来自患有病症的受试者的样本和来自未患有所述病症的受试者的样本与因子不匹配，则可以过滤微卫星以控制任意数量的因子，例如年龄、种族、性别、测序方案(例如，WSG、WES或靶向测序)。具有潜在偏差的微卫星可以排除在随后分析之外。用于过滤微卫星的另外的过滤器可以包括微卫星重复基序的长度、微卫星的总长度(例如，基序的拷贝数)、基序的序列(例如，仅使用具有高GC含量的那些)、以及微卫星的纯度，例如，如果它具有任何可以中断基序的完美拷贝集的碱基。在一些实例中，微卫星可以通过它们在基因组中的位置(例如，外显子组、内含子、基因间区域或非翻译区域)进行过滤。过滤可以包括通过接近微卫星的基因或功能元件进行过滤。

3.对样本进行评分

统计测试可以产生接收器操作特征(ROC)曲线，其中ROC曲线下面积被称为曲线下面积(AUC)。可以确定AUC来评估所述组微卫星位点比较的准确性。更大的AUC可以指示病症与第一组微卫星位点和第二组微卫星位点之间的差异的相关性或关联性的更高准确性。ROC曲线可以灵敏地(例如，真阳性)确定病症与第一组微卫星位点和第二组微卫星位点之间差异的关联或相关性的比率和特异性(例如，真阴性)。灵敏度，也称为真阳性率、召回率或检测概率，可以衡量被正确识别为存在或不存在某种病症的实际阳性的比例。灵敏度可以通过计算真阳性数除以真阳性数和假阴性数的总和来量化对假阴性的避免。特异性，也称为真阴性率，可以衡量被正确识别为病症的存在或不存在的实际阴性的比例。特异性可以通过计算真阴性数除以真阴性数和假阳性数的总和来量化对假阳性的避免。

在一些实例中，所述病症与不同于第二组微卫星位点的第一组微卫星位点的统计上地显著相关性或关联性具有至少70％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的统计准确性。在一些情况下，所述病症与不同于第二组微卫星位点的第一组微卫星位点的统计上地显著相关性或关联性具有至少0.70、0.80、0.85、0.90、0.91、0.92、0.93、0.94、0.95、0.96、0.97、0.98或0.99的统计特异性，以及至少0.70、0.80、0.85、0.99的统计灵敏度。

在一些实例中，识别信息性微卫星包括从数据库识别第一组微卫星位点，所述数据库包括从患有病症的受试者获得的核酸序列，诸如来自癌症基因组图谱计划(TCGA)的癌症类型序列，以及从参考数据库(例如，hg19或1000基因组计划)中识别第二组微卫星位点。癌症的类型(诸如，乳腺癌)可以是基于诸如分期、形态学、组织学、基因表达、受体谱、突变谱、侵袭性、预后、恶性特征等的亚型。癌症类型和癌症亚型可在更精细的水平上应用，例如，用于区分一种组织类型的癌症或癌症亚型，例如，根据突变谱或基因表达来限定。癌症阶段可以指基于与疾病进展相关的组织学和病理学特征对癌症类型进行分类。在一些实例中，所述组微卫星位点从包括核酸序列的数据库中获得，所述核酸序列包括核苷酸变异或多态性。在一些情况下，第一组微卫星位点是从患有所述病症的样本获得的，并且与从数据库获得的第二组微卫星位点进行比较。

4.病症

在一些情况下，与所述组微卫星位点的差异相关或关联的病症可以指示受试者健康状态的存在或不存在、受试者健康状态发展的可能性增加或减少、受试者受益于健康状态的治疗的可能性增加或减少、受试者由于健康状态的治疗而具有增加的不利影响风险的可能性增加或减少、受试者对健康状态的治疗的响应性、受试者健康状态的预后或其组合。在一些情况下，健康状态是癌症。在一些情况下，癌症是实体的或血液学恶性的。在某些情况下，癌症是转移性的、复发性的或难治性的。可以与不同所述组微卫星位点相关或关联的癌症包括急性髓系白血病(LAML或AML)、急性淋巴细胞白血病(ALL)、肾上腺皮质癌(ACC)、膀胱尿路上皮癌(BLCA)、脑干胶质瘤、脑低级胶质瘤(LGG)、脑肿瘤、乳腺癌(BRCA)、支气管肿瘤、伯基特淋巴瘤、原发部位未知的癌症、类癌、原发部位未知的癌症、中枢神经系统非典型畸胎样/横纹肌样肿瘤、中枢神经系统胚胎肿瘤、宫颈鳞状细胞癌，子宫颈内腺癌(CESC)癌、儿童期癌、胆管癌(CHOL)、脊索瘤、慢性淋巴细胞白血病、慢性髓细胞白血病、慢性骨髓增生性疾病、结肠(腺癌)癌(COAD)、结直肠癌、颅咽管瘤、皮肤T细胞淋巴瘤、内分泌胰岛细胞瘤、子宫内膜癌、室管膜瘤、室管膜瘤、食管癌(ESCA)、感觉神经母细胞瘤、尤文肉瘤、颅外生殖细胞瘤、性腺外生殖细胞瘤、肝外胆管癌、胆囊癌、胃(胃)癌、胃肠头颈癌(HNSD)、贲门癌、霍奇金淋巴瘤、下咽癌、眼内黑色素瘤、胰岛细胞瘤、卡波西肉瘤、肾癌、朗格汉斯细胞组织细胞增生症、喉癌、唇癌、肝癌、淋巴赘生物弥漫性大B细胞淋巴瘤[DLBCL]、恶性纤维组织细胞瘤骨癌、髓母细胞瘤、髓上皮瘤、黑色素瘤、默克尔细胞癌、默克尔细胞皮肤癌、间皮瘤(MESO)、转移性鳞状颈癌伴隐匿性原发性、口腔癌、多发性内分泌瘤综合征、多发性骨髓瘤、多发性骨髓瘤鼻腔癌、鼻咽癌、神经母细胞瘤、非霍奇金淋巴瘤、非黑色素瘤皮肤癌、非小细胞肺癌、口腔癌、口腔癌、口咽癌、骨肉瘤、其他脑和脊髓肿瘤、卵巢癌、卵巢上皮癌、卵巢生殖细胞瘤、卵巢低恶性潜能肿瘤、胰腺癌、乳头状瘤病、副鼻窦癌、甲状旁腺癌、骨盆癌、阴茎癌、咽癌、嗜铬细胞瘤和副神经节瘤(PCPG)、中间分化的松果体实质肿瘤、松果体母细胞瘤、垂体肿瘤、浆细胞瘤/肿瘤原发性中枢神经系统(CNS)淋巴瘤、原发性肝细胞肝癌、前列腺癌如前列腺腺癌(PRAD)、直肠癌、肾癌、肾细胞(肾)癌、肾细胞癌、呼吸道癌、视网膜母细胞瘤、横纹肌肉瘤、唾液腺癌、肉瘤(SARC)、Sezary综合征、皮肤恶性黑色素瘤(SKCM)、小细胞肺癌、小肠癌、软组织肉瘤、鳞状细胞癌、鳞状颈癌、胃(胃部)癌、幕上原始神经外显子组肿瘤、T细胞淋巴瘤、睾丸癌、睾丸生殖细胞肿瘤(TGCT)、喉癌胸腺瘤(胸腺)、甲状腺癌(THCA)、移行细胞癌、肾盂和输尿管移行细胞癌、滋养细胞肿瘤、输尿管癌、尿道癌、子宫癌、子宫癌、葡萄膜黑色素瘤(UVM)、阴道癌、外阴癌、瓦尔登斯特伦巨球蛋白血症或威尔姆瘤。在一些方面，癌症类型包括急性淋巴细胞白血病、急性髓细胞白血病、膀胱癌、乳腺癌、脑癌、宫颈腺癌、胆管癌、结肠癌、结直肠癌、子宫内膜癌、食管癌、胃肠癌、胶质瘤、胶质母细胞瘤、头颈癌、肾癌、肝癌、肺癌、淋巴样瘤形成、黑色素瘤、髓样瘤形成、卵巢癌、胰腺癌、嗜铬细胞瘤和副神经节瘤、前列腺癌、直肠癌、鳞状细胞癌、睾丸癌、胃癌或甲状腺癌。

在一些情况下，健康状态是肺癌或肺癌的亚型。可以与不同所述组微卫星位点相关或关联的肺癌包括非小细胞肺癌(NSCLC)(例如，肺腺癌(LUAD)、肺鳞癌(LUSC)和大细胞癌)、小细胞肺癌(SCLC)和肺类癌肿瘤。

在一些情况下，健康状态是神经系统疾病。可以与所述组微卫星位点的差异相关或关联的神经系统疾病的示例包括肌强直性营养不良、脆性X相关联震颤/共济失调综合征、脊髓小脑性共济失调、肯尼迪病、亨廷顿氏病、脊髓延髓性肌萎缩、进行性肌阵挛癫痫1(Unverricht–Lundborg病)、脆性X综合征、脆性XE综合征、齿状核-苍白球萎缩、弗里德里克共济失调、眼咽肌营养不良、脆性X相关联原发性卵巢功能不全、亨廷顿病样2、C9ORF72相关额颞叶痴呆和肌萎缩侧索硬化。健康状态可以是自闭症。

在一些情况下，健康状态为炎症性肠病(IBD)，其可以包括胃肠道的胃肠疾病。IBD的非限制性示例包括克罗恩病(CD)、溃疡性结肠炎(UC)、不确定性结肠炎(IC)、显微镜下结肠炎、分流性结肠炎、白塞病和其他非决定性形式的IBD。在一些实例中，IBD包括纤维化、纤维狭窄、狭窄和/或穿透性疾病、阻塞性疾病或难治性疾病(例如，mrUC、难治性CD)、肛周CD或其他复杂形式的IBD。

在一些实例中，健康状态是心血管疾病，其可以包括冠心病(CAD)、风湿性心脏病、先天性心脏病、心肌病、心脏肿瘤、血管肿瘤、心脏瓣膜疾病、心脏内层疾病、中风、主动脉瘤、外周动脉疾病、深静脉血栓形成(DVT)或肺栓塞。

在一些情况下，健康状态是代谢疾病或紊乱，可以包括酸碱失衡、代谢性脑疾病、钙代谢紊乱、DNA修复缺陷紊乱、葡萄糖代谢紊乱、高乳酸血症、铁代谢紊乱、脂质代谢紊乱、吸收不良综合征、代谢综合征X、天生代谢错误、线粒体疾病、磷代谢紊乱、卟啉病、蛋白沉积缺陷、代谢性皮肤病、消耗综合征或水电解质失衡。

在一些情况下，健康状态是自身免疫性疾病或紊乱，其可以包括贲门失弛缓症、爱迪生氏病、成人斯蒂尔病、无丙种球蛋白血症、斑秃、淀粉样变性、强直性脊柱炎、抗GBM/抗TBM肾炎、抗磷脂综合征、自身免疫性血管性水肿、自身免疫性自主神经紊乱、自身免疫性脑脊髓炎、自身免疫性肝炎、自身免疫性内耳疾病(AIED)、自身免疫性心肌炎、自身免疫性卵巢炎、自身免疫性睾丸炎、自身免疫性胰腺炎、自身免疫性视网膜病、自身免疫性荨麻疹、轴突和神经元神经病(AMAN)、Baló病、Behcet慢性炎性脱髓鞘性多发性神经病(CIDP)、慢性复发性多灶性骨髓炎(CRMO)、丘尔-斯特劳斯综合征(CSS)或嗜酸性肉芽肿病(EGPA)、瘢痕性类天疱疮、科根综合征、冷凝集素病、先天性心脏传导阻滞、柯萨奇心肌炎、CREST综合征、克罗恩病、疱疹样皮炎、皮肌炎、Devic病(视神经脊髓炎)、盘状狼疮、Dressler综合征、子宫内膜异位症、嗜酸性食管炎(EoE)、嗜酸性筋膜炎、结节性红斑过敏性紫癜(HSP)、疱疹妊娠或类天疱疮妊娠(PG)、化脓性汗腺炎(HS)(痤疮倒位症)、低球蛋白血症、IgA肾病、IgG4相关硬化性疾病、免疫性血小板减少性紫癜(ITP)、包涵体肌炎(IBM)、间质性膀胱炎(ic)、幼年关节炎、幼年糖尿病(1型糖尿病)、幼年肌炎(JM)、川崎病、朗伯-伊顿综合征、白细胞碎屑血管炎、扁平苔藓、硬化性苔藓、木质结膜炎、线形多发性硬化、重症肌无力、肌炎、发作性睡病、新生儿狼疮、视神经脊髓炎、中性粒细胞减少症、眼部瘢痕性类天疱疮、PPT性神经炎、回文性风湿病(PR)、PANDAS、副肿瘤性小脑变性(PCD)、阵发性夜间血红蛋白尿症(PNH)、parryRomberg综合征、扁平部炎(外周葡萄膜炎)、Parsonage-Turner综合征、天疱疮、外周神经病变、静脉周围脑脊髓炎、恶性贫血(PA)、POEMS综合征、结节性多动脉炎、I型、II型多腺体综合征雷诺氏现象、反应性关节炎、反射性交感神经营养不良、复发性多软骨炎、不宁腿综合征(RLS)、腹膜后纤维化、风湿热、类风湿性关节炎、结节病、施密特综合征、巩膜炎、硬皮病、舍格伦综合征、精子和睾丸自身免疫、僵人综合征(SPS)、亚急性细菌性心内膜炎(SBE)、苏萨克综合征、交感性眼炎(SO)、大动脉炎、颞动脉炎/巨细胞动脉炎、血小板减少性紫癜(TTP)、托洛萨-亨特综合征(THS)、横贯性脊髓炎、1型糖尿病、溃疡性结肠炎(UC)、未分化结缔组织病(UCTD)、葡萄膜炎、血管炎、白癜风或沃格特-小柳-原田病。

C.开发分类签名

本公开提供用于从来自受试者的样本中为病症生成分类器的计算机实现的方法(例如，参见图2和图3)。可以通过统计上地分析从患有病症的第一组受试者获得或衍生的样本和/或从未患有病症的第二组受试者获得或衍生的样本(例如，诸如肺癌的癌症)来生成信息性微卫星位点列表。可在多重平台上对来自两组样本的DNA测序。在一些情况下，靶向测序是在富集一些靶向的情况下执行的。然后可以分析测序结果的质量并且进行映射以揭示癌症样本和对照或参考之间的差异。然后可以使用计算机实现的方法来分析此差异以生成分类器。所述分类器可以用从患有所述病症的受试者获得或衍生的另外的样本和/或从未患有所述病症的受试者获得或衍生的样本进一步优化和验证。在一些方面，除微卫星之外的信息性遗传标记的列表可以通过这些方法生成，用于开发分类签名。

所述病症可以指示受试者健康状态的存在或不存在。在一些情况下，所述病症指示受试者健康状态发展的可能性增加或减少。在一些实例中，所述病症可以指示受试者受益于治疗的可能性增加或减少，或受试者由于治疗而具有增加的不利影响风险的可能性增加或减少(所述病症的分类器可以作为治疗剂的伴随诊断)。在一些情况下，所述病症可以指示受试者对健康状态的治疗的响应性。在一些实例中，所述病症指示受试者健康状态的预后。在一些情况下，分类器可以是例如数量的值。例如，所述值可以指示可能性增加或减少(例如，0和1之间的概率值)。可以将分类器的值(例如数量)与阈值(例如数量)进行比较。在一些实例中，分类器值与阈值的距离可以指示患有或不患有病症为真的增加的置信度或概率。在一些情况下，当分类器值与阈值的标准偏差约为0.5、1、1.5、2、2.5、3或3以上时，就会进行调用(图24)。

用于生成分类器的计算机实现的方法可以执行处理、组合、统计评估或结果的进一步分析，或其任意组合。计算机实现的方法可以包括有监督或无监督的学习方法，包括支持向量机(SVM)、神经网络、随机森林、聚类算法(或软件模块)、梯度提升、线性回归、逻辑回归和/或决策树。监督学习算法可以是依赖于使用一组标记的、成对的训练数据示例来推断输入数据和输出数据之间的关系的算法。无监督学习算法可以是用于从训练数据集得出推论以输出数据的算法。无监督学习算法可以包括聚类分析，所述聚类分析可以用于探索性数据分析，以发现过程数据中的隐藏模式或分组。无监督学习方法的一个示例是主成分分析。主成分分析可以包括减少一组一个或多个变量的维数。给定的一组变量的维数至少可以是1、5、10、50、100、200、300、400、500、600、700、800、900、1000、1100、1200、1300、1400、1500、1600、1700、1800或大于1800。给定的一组变量的维数最多可以是1800、1600、1500、1400、1300、1200、1100、1000、900、800、700、600、500、400、300、200、100、50、10或小于10。

计算机实现的方法可以包括执行统计技术。在一些实例中，统计技术可以包括线性回归、分类、重新采样方法、子集选择、收缩、降维、非线性模型、基于树的方法、支持向量机、无监督学习或其任意组合。

线性回归可以是通过拟合因变量和自变量之间的最佳线性关系来预测靶向变量的方法。最佳拟合可以对应于最小二乘，使得每个点处的形状和实际观测值之间的全部距离的总和最小化。线性回归可以包括简单线性回归和多元线性回归。简单的线性回归可以使用单个自变量来预测因变量。多元线性回归可以使用一个以上的自变量，通过拟合最佳线性关系来预测因变量。

分类可以是数据挖掘技术，其将类别分配给数据收集，以便实现准确的预测和分析。分类技术可以包括逻辑回归和判别分析。当因变量是二分的(二进制)时，可以使用逻辑回归。逻辑回归可以用于发现和描述一个因二进制变量与一个或多个名义、有序、区间或比率级别的自变量之间的关系。重新采样可以是包括从原始数据样本中抽取重复样本的方法。在一些情况下，重新采样可能不涉及使用通用分布表来计算近似概率值。重新采样可以根据实际数据生成唯一的采样分布。在一些情况下，重新采样可以使用实验方法，而不是分析方法来生成唯一的样本分布。重新采样技术可以包括引导和交叉验证。引导可以通过从原始数据中替换样本来执行，并且将“未选择”的数据点作为测试用例。交叉验证可以通过将训练数据分成多个部分来执行。

子集选择可以识别与响应相关的预测变量的子集。子集选择可以包括最佳子集选择、前向逐步选择、后向逐步选择、混合方法或其任意组合。在一些实例中，收缩拟合包含全部预测变量的模型，但相对于最小二乘估计，估计系数向零收缩。此收缩可以减少差异。收缩可以包括脊线回归和套索。降维可以将估计n+1个系数的问题简化为更简单的m+1个系数的问题，其中m<n。它可以通过计算变量的n个不同的线性组合或投影来获得。然后，这n个投影可以用作预测变量来拟合线性回归模型，例如，通过最小二乘。降维可以包括主成分回归和偏最小二乘。主成分回归可以用于从一大组变量中衍生一组低维特征。主成分回归中使用的主成分可以使用随后正交方向上的数据的线性组合来捕获数据中的最大差异。偏最小二乘可以用作主成分回归的监督替代，因为偏最小二乘可以利用响应变量来识别新的特征。

非线性回归可以是回归分析的一种形式，其中观测数据由一个函数建模，所述函数是模型参数的非线性组合并且取决于一个或多个自变量。非线性回归可以包括阶跃函数、分段函数、样条、广义可加模型或其任意组合。

基于树的方法可以用于回归和分类问题。回归和分类问题可以涉及将预测变量空间分层或分割成许多简单的区域。基于树的方法可以包括装袋、提升、随机森林或其任意组合。打包可以通过使用重复组合从原始数据集生成另外的训练数据来生成与原始数据相同肉欲/大小的多步，从而降低预测的差异。Boosting可以使用几种不同的模型计算输出，然后使用加权平均方法对结果进行平均。随机森林算法可以抽取训练集的随机引导样本。支持向量机可以用于分类技术。支持向量机可以包括找到以最大余量最好地分开两类点的超平面。支持向量机可以约束优化问题，使得余量最大化受到它完美分类数据的约束。

无监督方法可以是从包括没有标记响应的输入数据的数据集中得出推论的方法。无监督方法可以包括聚类、主成分分析、k-均值聚类、层次聚类或其任意组合。

1.遗传算法

在一些方面，用于生成分类器的计算机实现的方法包括使用遗传算法。所述方法可以包括通过从患有病症的样本识别与未患有病症的样本中的微卫星位点不同的微卫星位点，生成与病症相关或关联的微卫星位点子集的初始群体(信息性位点)。遗传算法可以用于基于信息性位点确定分类签名。遗传算法可以选择信息性最大的微卫星位点子集以包括在最终分类器中。遗传算法可以为每个子集分配权重。加权可以与其他加权方案相结合，例如与每个微卫星位点的相对风险成比例。可以基于子集与病症的相关性或关联性对微卫星的每个子集进行迭代排序。然后可以通过将初始群体与从患有所述病症的受试者和/或未患有所述病症的受试者获得或衍生的另外的样本进行比较来优化微卫星位点的初始群体的子集。在一些情况下，优化中使用约100个子集的初始群体。在一些情况下，在优化中使用至少100、200、300、400或500个子集的初始群体。在一些实例中，优化包括将约100个子集与另外的样本进行比较的至少一个周期。在一些实例中，优化包括将约100个子集与另外的样本进行比较的多个周期。每个子集可以包括至少1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、15个、20个、25个、30个、35个、40个、45个、50个、60个、70个、80个、90个或100个微卫星。

可在每个周期完成时执行迭代排序。在一些情况下，迭代排序包括对子集执行统计分析，以执行接收器操作特征(ROC)分析，从而在确定另外的样本中病症的存在或不存在时获得准确性、灵敏度和特异性。可以识别和丢弃在指示病症的存在或不存在方面表现最差或排序最低的子集的预定数量(例如，10)。为了在每个优化周期开始之前维持恒定数量的子集，可以将新子集添加到子集群体中。在一些情况下，1个、2个、3个、4个、5个、6个、7个、8个、9个、10个或10个以上的新子集是通过随机拆分和重组来自先前优化周期的2个随机选择的子集而生成的。在一些实例中，从先前的优化周期中随机选择1个、2个、3个、4个、5个、6个、7个、8个、9个、10个或10个以上的新子集。在添加10个新子集的一些实例中，3个是通过随机拆分和重组来自先前优化周期的2个随机选择的子集而生成的，7个是从先前优化周期的子集随机选择的。在添加10个新子集的一些实例中，4个是通过随机拆分和重组来自先前优化周期的2个随机选择的子集而生成的，6个是从先前优化周期的子集随机选择的。在添加10个新子集的一些实例中，5个是通过随机拆分和重组来自先前优化周期的2个随机选择的子集而生成的，5个是从先前优化周期的子集随机选择的。在添加10个新子集的一些实例中，6个是通过随机拆分和重组来自先前优化周期的2个随机选择的子集而生成的，4个是从先前优化周期的子集随机选择的。在添加10个新子集的一些实例中，6个是通过随机拆分和重组来自先前优化周期的2个随机选择的子集而生成的，4个是从先前优化周期的子集随机选择的。在添加10个新子集的一些实例中，7个是通过随机拆分和重组来自先前优化周期的2个随机选择的子集而生成的，3个是从先前优化周期的子集随机选择的。在优化周期中可以包括新子集的副本。在一些情况下，在优化周期中不包括新子集的副本。

在一些情况下，在每个优化周期结束时被丢弃的子集的数量与在每个优化周期之前被添加到子集中的子集的数量相同。在一些情况下，在每个优化周期结束时，丢弃5个排序最低的子集，而在每个优化周期之前添加5个新子集。在一些情况下，在每个优化周期结束时，丢弃10个排序最低的子集，而在每个优化周期之前添加10个新子集。在一些情况下，在每个优化周期结束时，丢弃20个排序最低的子集，而在每个优化周期之前添加20个新子集。在一些情况下，在每个优化周期结束时，丢弃50个排序最低的子集，而在每个优化周期之前添加50个新子集。

在一些方面，用于生成分类器的计算机实现的方法包括确定统计上地未加权的微卫星子集。在一些方面，用于生成分类器的计算机实现的方法包括确定微卫星的统计上地加权子集。在一些情况下，权重子集由相对风险、风险比或优势比加权。分类器可以是未加权的或加权的。在一些情况下，由上述计算机实现的方法生成的分类器可以基于除微卫星之外的遗传标记。在一些情况下，分类器可以基于其他基因组信息，例如单核苷酸多态性(SNP)或遗传畸变，例如拷贝数畸变、插入缺失等。在一些情况下，分类器可以基于微卫星所在基因的身份。

在优化周期完成后，计算机实现的方法可以包括以优化的准确性、灵敏度和特异性确定与病症相关或关联的微卫星。在一些方面，计算机实现的方法可以用包括患有病症的样本、不患有病症的样本或其组合的所述组另外的样本来验证(例如，参见图3)。验证可以包括使用来自患有病症(例如，癌症)的受试者的至少10个、20个、30个、50个、100个或1000个样本(样本可以是非肿瘤(种系)样本或肿瘤样本)和来自未患有所述病症(例如，癌症，例如肺癌)的受试者的至少10个、20个、30个、50个、100个或1000个样本。

当分析来自受试者的样本时，优化和验证的计算机实现的方法可以为病症生成分类器。所述病症可以指示受试者健康状态的存在或不存在。在一些情况下，所述病症指示受试者健康状态发展的可能性增加或减少。在一些实例中，所述病症可以指示受试者受益于治疗的可能性增加或减少，或受试者由于治疗而具有增加的不利影响风险的可能性增加或减少。在一些情况下，所述病症可以指示受试者对健康状态的治疗的响应性。在一些实例中，所述病症指示受试者健康状态的预后。

所述病症可以指示癌症的存在或不存在。在一些情况下，所述病症指示癌症发展的可能性增加或减少。在一些实例中，所述病症指示受试者受益于治疗的可能性增加或减少，或受试者由于治疗而具有增加的不利影响风险的可能性增加或减少(所述分类器可以是癌症治疗的伴随诊断)。在一些情况下，所述病症可以指示对癌症治疗的响应性。治疗可以是手术、化疗、放疗、药物靶向治疗(例如，阿法替尼、吉非尼、贝伐单抗、克唑替尼或塞替尼)或免疫疗法(例如，用单克隆抗体、检查点抑制剂、治疗性疫苗或过继性T细胞转移治疗)。在一些实例中，所述病症指示癌症的预后。在一些情况下，癌症是肺癌，包括非小细胞肺癌(例如，肺腺癌(LUAD)、肺鳞癌(LUSC)和大细胞癌)、小细胞肺癌(SCLC)或肺类癌。

分类器可以包括来自任何染色体的微卫星位点，例如，染色体1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、X或Y。在一些情况下，分类器不包括来自X染色体和/或Y染色体的微卫星位点。

III.为病症生成加权分类器

本公开提供对已被识别为与病症相关或关联的微卫星位点进行加权的方法。此外，本公开提供对除被识别为与病症相关或关联的微卫星位点之外的遗传标记进行加权的方法。权重或权重可以指每个体微卫星座的相对重要性或普遍性，其统计上地有助于与病症的相关性或关联性。例如，可以将高权重分配给仅在从患有所述病症的受试者获得的样本中出现并且又以更高频率出现的微卫星位点。在一些情况下，权重是基于风险比、优势比或相对风险来分配的。作为权重确定的一部分的数字成分的示例包括灵敏度、特异性、阴性预测值、阳性预测值、优势比、风险比或其任意组合。在一些情况下，会在用于计算权重的数字成分上施加一个截止值(例如阈值)。数字分类器低于截止值的样本可以从权重计算中排除。可以基于线性、非线性、代数、三角、统计学习、贝叶斯、回归或相关计算手段的组合来计算权重。可以使用与一个或一组微卫星相关联的值(例如相对风险)加权方案或回归方法来生成分类器。可以评估加权分类器，以确定加权是否提高了分类器的灵敏度或特异性。回归分析(例如，标准回归分析)可以用于计算每个座的最佳权重，以便最大化灵敏度和特异性(例如，灵敏度和特异性的总和)。

在一些情况下，分配给每个微卫星的权重是预定值，其中所述预定值决定了样本量或病症和微卫星位点之间的相关性或关联性强度。在某些实例中，分配给每个微卫星的权重包括相对风险、风险比或优势比。在一些实例中，权重的预定值决定了灵敏度、特异性或其组合的数字范围(例如，总和)。在一些实例中，权重的计算和分配包括由计算机经由模型实现的决策模型，诸如支持向量机、决策树、随机森林、神经网络或深度学习神经网络(例如，人工神经网络、递归神经网络、卷积神经网络、感知、前馈、径向基网络、深度前馈、递归神经网络、长/短期记忆、门控递归单元、自动编码器(AE)、变异AE、去噪AE、稀疏AE、马尔可夫链、霍普菲尔德网络、玻尔兹曼机、受限BM，深度信念网络、深度卷积网络、去卷积网络、深度卷积逆图形网络、生成对抗网络、液体状态机、极限学习机、每个状态网络、深度残差网络、Kohonen网络、支持向量机和神经图灵机)。

在一些实例中，分配给微卫星位点的权重被用作如本文所描述分类器的计算的一部分。在此类实例中，具有较大权重的微卫星位点比具有较小权重的微卫星位点对分类器的价值贡献更大。在一些情况下，分类器的计算包括仅使用最佳权重。最佳权重可以包括至少或大于预定阈值的权重。

由加权分类器确定的病症可以指示受试者健康状态的存在或不存在。在一些情况下，由加权分类器确定的病症指示受试者健康状态发展的可能性增加或减少。在一些实例中，由加权分类器确定的病症指示受试者受益于治疗的可能性增加或减少，或受试者由于治疗而具有增加的不利影响风险的可能性增加或减少。在一些实例中，由加权分类器确定的病症指示受试者对健康状态的治疗的响应性。在其他实例中，由加权分类器确定的病症可以指示受试者健康状态的预后。在一些情况下，健康状态是癌症。在一些情况下，癌症是肺癌，例如，非小细胞肺癌(例如，肺腺癌(LUAD)、肺鳞癌(LUSC)和大细胞癌)、小细胞肺癌(NSLC)或肺类癌肿瘤。

分类器也可以基于例如微卫星的次要等位基因分布来确定。在一些情况下，可以通过计算信息性微卫星位点和次要等位基因分布的加权组合来确定分类器。次要等位基因频率可以是分类器的另外的加权参数。次要等位基因频率可以作为总体基因组稳定性的指标。可以对基于次要等位基因频率的分类器进行统计上地评估(例如，通过回归分析)，以确定向分类器添加次要等位基因频率是否改善了分类器。IV.泛病症(例如，癌症)风险测定

本公开提供用于生成泛病症(例如，癌症)分类器的计算机实现的方法(例如，参见图2和图4)。可以通过对各种病症(例如，癌症)类型和健康参考序列的样本进行统计上地分析来生成信息性微卫星位点列表。可在多重平台上对来自两组样本的DNA测序。在一些情况下，测序的靶向是另外的富集，例如使用诱饵集。然后对测序结果进行质量分析，并且进行映射，以揭示病症(例如，癌症)样本和参考样本之间的差异。此差异可以通过计算机实现的方法进行分析，以生成泛病症(例如，癌症)分类器。泛病症(例如，癌症)分类器可以用各种类型的病症(例如，癌症)的另外的样本进一步优化和验证。

针对一种病症或多种病症的泛病症(例如，泛癌症)分类器可以指示受试者的存在或不存在多种健康状态中的至少一种健康状态、受试者的多种健康状态中的至少一种健康状态发展的可能性增加或减少、受试者受益于多种健康状态中的至少一种健康状态的治疗的可能性增加或减少，受试者因针对多种健康状态中的至少一种健康状态的治疗而具有增加的不利影响风险的可能性增加或减少，受试者对针对多种健康状态中的至少一种健康状态的治疗的响应性或其组合。多种健康状态可以是本文公开的健康状态的任意组合。

在一些情况下，泛癌症病症可以指示受试者的存在或不存在多种类型的癌症。在一些实例中，泛癌症病症可以指示受试者的多种类型的癌症发展的可能性增加或减少。在一些实例中，多种类型的癌症是经常在同一受试者的一起发展为的癌症。在其他情况下，多种类型的癌症是独立出现的癌症。在一些实例中，泛癌症病症可以指示受试者可能或不可能受益于治疗，或受试者可能或不可能由于治疗而处于不利影响增加的风险中(泛癌症分类器可以是治疗产品的伴随诊断)。在一些实例中，泛癌症病症可以指示受试者对癌症治疗的响应性。在其他实例中，泛癌症病症可以指示受试者癌症的预后。本文所描述的受试者可以有癌症症状或无癌症症状。在一些情况下，基于受试者的泛癌症分类器，可以使用另外的检查(例如，身体检查、循环或无细胞癌症生物标志物的分析、成像(例如，计算机断层扫描(CT)、骨扫描、磁共振成像(MRI)、正电子发射断层扫描(PET)、超声和X射线)、活检、基因筛选、基因或蛋白质表达水平等)。

用于生成泛病症(例如，泛癌症)分类器的计算机实现的方法可以包括执行处理、组合、统计评估或结果的进一步分析，或其任意组合。在一些方面，用于生成泛病症(例如，癌症)分类器的计算机实现的方法包括首先通过从患有多种类型的病症(例如，癌症)的受试者获得或衍生的样本识别微卫星位点(不同于从不患有多种类型的病症(例如，癌症)的受试者获得或衍生的样本中的微卫星位点)来生成与多种类型的病症(例如，癌症)相关或关联的微卫星位点子集的群体。微卫星的序列可以首先通过任何测序方法获得。

可以用一种或多种统计测试(诸如t测试、Z测试、方差分析、回归分析、曼-惠特尼-威尔科克森测试、卡方测试、相关联性、费希尔精确测试、邦费洛尼校正、以及Benjamini-Hochberg测试)来识别与多种类型的病症(例如，癌症)相关或关联的微卫星位点。

统计测试可以产生接收器操作特征(ROC)曲线，其中ROC曲线下面积被称为曲线下面积(AUC)。AUC可以确定识别与多种类型的病症(例如，癌症)相关或关联的微卫星位点的准确性。更大的AUC可以指示相关性或关联性的更高准确性。ROC曲线可以确定微卫星位点与多种类型的病症(例如，癌症)的相关性或关联性的灵敏度(例如，真阳性)和特异性(例如，真阴性)的比率。微卫星位点与多种类型的病症(例如，癌症)的统计上地显著相关性或关联性可以具有至少约70％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％的统计准确性。在一些情况下，微卫星位点与多种类型的病症(例如，癌症)的统计上地显著相关性或关联性具有至少0.70、0.80、0.85、0.90、0.91、0.92、0.93、0.94、0.95、0.96、0.97、0.98或0.99的统计特异性，以及至少0.70、0.80、0.85、0.90、0.91、0.92、0.93、0.94、0.95、0.96、0.96、0.99或0.99的统计灵敏度。

在一些实例中，识别与多种类型的病症(例如，癌症)相关或关联的微卫星位点包括从包括多种类型的病症(例如，癌症)的核酸序列的数据库识别第一组微卫星位点和从参考数据库(例如，hg19)识别第二组微卫星位点。在一些情况下，一些微卫星被识别为与多种类型的病症(例如，癌症)相关或关联。在一些情况下，一些微卫星被识别为与一种类型的病症(例如，癌症)相关或关联。

多种类型的癌症可以包括实体或血液学恶性类型的癌症。在一些情况下，多种类型的癌症可以是转移性的、复发性的或难治性的。与所识别的微卫星位点相关或关联的多种类型的癌症可以包括本文公开的任何数量(例如，约4至约10、约10至约15、约15至约20或约4、约10、约15、约20、约25、约30或约50)的癌症。

泛癌症测定法可以测定或可以测试以下癌症中的至少1种、2种、3种、4种、5种、6种、7种、8种、9种、10种、11种、12种、13种、14种、15种或16种：乳腺癌、卵巢癌、前列腺癌、肺癌、多形性胶质母细胞瘤、子宫体子宫内膜癌、结肠腺癌、膀胱癌、尿路上皮癌、头颈鳞状细胞癌、宫颈鳞状细胞癌和宫颈腺癌、胃腺癌、甲状腺癌、脑低级胶质瘤、肾肾乳头状细胞癌和肝细胞癌。

在一些情况下，与所述组微卫星位点的差异相关或关联的多种类型的癌症包括肺癌。可以与不同所述组微卫星位点相关或关联的肺癌包括非小细胞肺癌(例如，肺腺癌(LUAD)、肺鳞癌(LUSC)和大细胞癌)、小细胞肺癌(SCLC)和肺类癌。

包括与多种类型的病症(例如，癌症)相关或关联的微卫星位点子集群体可以包括每个子集的至少1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、15个、20个、25个、30个、35个、40个、45个、50个、60个、70个、80个、90个或100个微卫星位点。在一些方面，基于子集与多种类型的病症(例如，癌症)的相关性或关联性来对子集群体进行迭代地排序。

然后可以通过将子集群体与从患有多种类型的病症(例如，癌症)的受试者和/或不患有多种类型的病症(例如，癌症)的受试者获得或衍生的另外的样本进行比较来优化微卫星位点群体的子集。在一些情况下，优化中使用约100个子集的群体。在一些情况下，在优化中使用至少100、200、300、400、500、1000、2000、3000或5000个子集的群体。在一些实例中，优化包括将约100个识别的子集与另外的样本进行比较的至少一个周期。在一些实例中，优化包括将约100个识别的子集与另外的样本进行比较的多个周期。

可在每个周期完成时执行迭代排序。在一些情况下，迭代排序包括对子集执行统计分析，以执行接收器操作特征(ROC)分析，从而在确定另外的样本中多种类型的病症(例如，癌症)的存在或不存在时执行准确性、灵敏度和特异性。可以识别并且丢弃在指示多种类型的病症(例如，癌症)的存在或不存在方面表现最差或排序最低的子集中的一个或多个。为了在每个优化周期开始之前维持恒定数量的子集，可以将新子集添加到子集群体中。在一些情况下，新子集是通过随机拆分和重组先前轮优化周期中随机选择的2个子集而生成的。在一些实例中，新子集是从先前的优化周期中随机选择的。在一些情况下，在每个优化周期结束时被丢弃的子集的数量与在每个优化周期之前被添加到子集中的子集的数量相同。

用于生成泛病症(例如，泛癌症)分类器的计算机实现的方法可以包括确定统计上地未加权的微卫星位点子集。在一些方面，用于生成泛病症(例如，泛癌症)分类器的计算机实现的方法包括确定统计上地加权的微卫星位点子集。泛病症(例如，泛癌症)分类器可以是未加权的或加权的。

在优化周期完成后，生成泛病症(例如，泛癌症)分类器的计算机实现的方法包括以优化的准确性、灵敏度和特异性与病症相关或关联的微卫星位点。在一些方面，可以用所述组另外的样本来验证计算机实现的方法，所述组另外的样本包括从患有多种类型病症(例如，癌症)的受试者获得或衍生的样本、从没未患有多种类型的病症(例如，癌症)的受试者获得或衍生的样本、或其组合。当分析来自受试者的样本时，优化和验证的计算机实现的方法可以生成泛病症(例如，泛癌症分类器)。泛病症(例如，泛癌症)可以指示受试者的一种健康状态(例如，癌症)的存在或不存在。在某些情况下，泛病症(例如，泛癌症)指示受试者的一种健康状态(例如，癌症)发展的可能性增加或减少。在一些情况下，泛病症(例如，泛癌症)可以指示受试者受益于治疗的可能性增加或减少，或受试者由于治疗而具有增加的不利影响风险的可能性增加或减少(泛病症，例如，泛癌症，分类器可以是治疗产品的伴随诊断)。在一些实例中，泛病症(例如，泛癌症)指示对受试者的一种健康状态(例如，癌症)的治疗的响应性。在其他实例中，泛病症(例如，泛癌症)指示受试者的一种健康状态(例如，癌症)的预后。

可以为泛病症(例如，泛癌症)测定中的每一种病症(例如，癌症)开发分类器(例如，一组微卫星)。在一些情况下，单个微卫星位点可以是泛病症(例如，泛癌症)微卫星位点。

V.评估受试者的样本

如本文所描述生成的分类器可以用于分析受试者(例如，患者)样本。例如，可在临床实验室改善修正案(CLIA)认证的实验室中分析来自受试者的样本。在一些情况下，准备试剂盒并且在CLIA实验室外测定受试者的样本。图5图示了例如CLIA认证实验室中的受试者(例如患者)样本分析管道的工作流程(500)的示例；所述工作流程可以用于处理用于多重泛癌症测定的样本。从多个受试者(501)获得样本，例如，来自血液、尿液、脑脊液、精液、唾液、痰、粪便、淋巴液、组织(例如，甲状腺、皮肤、心脏、肺、肾、乳腺、胰腺、肝脏、肌肉、平滑肌、膀胱、胆囊、结肠、肠、脑、食管或前列腺)或其任意组合的样本。从样本提取核酸分子，例如基因组DNA。通过多路复用(例如，使用诱饵，例如杂交探针)富集靶向，例如微卫星靶向；富集的靶向可以被条形码化并且扩增(503)。对靶向富集样本执行下一代测序测定，例如，分批执行约4次、8次、12次、24次、96次、128次、384次或1536次(505)。测序数据可以解多路复用(例如，使用添加到每个单独样本的独特序列标签(例如，条形码))，质量控制过滤器可以应用于原始序列读数(例如，大于Q30的Phred质量)，并且确定基因型(例如，使用侧翼序列将每个座的读数与参考序列对准，然后计算2个主要等位基因(基因型))和次要等位基因分布(例如，对于每个样本(507)的每个微卫星座，确定次要等位基因的数量或次要等位基因相对于主要基因型的分数(次要等位基因可由至少1个、至少2个、至少3个或3个以上的序列读数支持)。计算(509)每种癌症的每个样本的风险分类器(例如，基于至少5个、10个、25个、50个或100个微卫星位点)(例如，基因型可以相对于健康群体中最突出的基因型(例如，GRCh38)基因型被确定为模态或非模态的，并且在全部位点上被求和，并且样本可以被分类为处于某种病症的风险中或不处于风险中，这取决于它们相对于具有癌症或正常基因型的位点分数的截止点的位置)。风险可以是定量的，或可以通过分类评估来指示。生成(511)包括风险分类器的临床实验室报告并且将其提供给保健提供者、受试者或保险提供者。

图17图示了临床实验室报告的示例。临床实验室报告可以包括患者信息、样本信息、测试概要、测试结果、注释和结果细节。结果详细信息可以包括基因分型的微卫星位点的数量、一个或多个病症风险分类器、一个或多个阈值以及患有或获取病症(例如肺癌)的相对风险(例如，低风险、高风险、“有风险”、“无风险”)。

所述报告可以包括具有非模态(主要是癌症)基因型的受试者的样本中的位点数量。检测被确定为高风险的健康状态存在的灵敏度和特异性可以大于90％，并且在那些被确定为肺癌“低风险”的对照样本种系中不存在。通过参考对照中高度保守的位点测量，所述测定的精确度可以大于99％。

在一些实例中，可以通过另外的检查来验证或进一步检查所述病症，例如，身体检查、循环或无细胞癌症生物标志物的分析、成像(例如，计算机断层扫描、骨扫描、磁共振成像、正电子发射断层扫描、超声波和X射线)、活检、基因筛选、基因表达或蛋白质表达等。VI.微卫星中的次要等位基因

本公开提供确定受试者的基因组年龄和基因组老化速率的计算机实现的方法。基因组年龄可以用校准到年的数量给出。例如，如果基因组年龄近似等于受试者的数字年龄，则对于基因组年龄，总体基因组稳定性可以是正常的。在一些实例中，基因组年龄可能比受试者的实际年龄更小、相同或更大。比受试者实际年龄更老的基因组年龄，或高的基因组老化速率，可能暗示基因组不稳定和易发展与老化相关联的健康状态(例如，疾病)，例如，癌症、心血管疾病、神经系统疾病等。从同一受试者的不同组织(例如，皮肤或血液)获得的样本中，基因组年龄和基因组老化速率可能不同。在一些情况下，基因组年龄和基因组老化速率可以指示一个人的生活方式(例如，营养、身体或精神压力)或医疗病症。可以基于受试者的基因组年龄向受试者推荐改变生活方式(例如，戒烟、改变饮食和锻炼)。

确定基因组年龄和基因组老化速率的计算机实现的方法可以包括确定来自受试者的第一样本中的次要等位基因特征，并且将第一样本的次要等位基因特征与参考的次要等位基因特征进行比较，以产生次要等位基因特征的第一差异。所述参考可以包括次要等位基因含量跨大群体的分布，以确定作为数字年龄、种族、性别等的函数的平均基因组年龄。通过计算机实现的方法，可以确定第一样本和参考之间的次要等位基因特征的第一个差异是受试者的基因组年龄。在一些方面，在第一样本与参考比较之后的时间点将来自受试者的第二样本与参考进行比较以产生次要等位基因特征的第二差异。第一差异和第二差异之间的变化可以通过计算机实现的方法确定为受试者的基因组老化速率。在一些情况下，另外的基因组老化速率可以通过获得并且比较较晚的次要等位基因特征和较早的次要等位基因特征来确定。

如本文所描述的次要等位基因特征可以是至少一个座的次要等位基因的数量。在一些方面，次要等位基因特征包括SNP百分比、扩增百分比、收缩百分比、扩增和收缩与SNP的比率、杂合位点百分比、纯合位点百分比和具有次要等位基因的位点百分比。在一些情况下，次要等位基因特征包括SNP和插入缺失变异、微卫星变异、同义SNP、非同义SNP、停止增益SNP、停止丢失SNP、剪接变异(例如，剪接接头内的2-bp)、移码插入缺失和至少一个座处的非移码插入缺失的组合。在一些情况下，次要等位基因特征是跨同一受试者的多个时间点确定的。

从受试者的样本确定的次要等位基因特征可能需要从任何测序方法读取至少1个序列。在一些情况下，次要等位基因特征可在来自任何下一代测序方法的至少1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、20个、30个、50个或100个序列读数识别。从受试者的样本确定的次要等位基因特征可能需要从任何测序方法读取至少1个、至少2个、至少3个或3个以上的序列。

在一些实例中，将从受试者的样本的序列确定的次要等位基因特征与参考序列进行比较。所述比较可以从参考序列产生次要等位基因特征的差异，所述参考序列包括不同数量的SNP和插入缺失变异、微卫星变异、同义SNP、非同义SNP、停止增益SNP、停止丢失SNP、剪接变异(例如，剪接接头内的2-bp)、移码插入缺失和至少一个座的非移码插入缺失的组合。可以通过计算机实现的方法来确定样本和参考之间的次要等位基因特征的差异，以产生基因组年龄。

在一些情况下，将来自受试者的第一样本的第一序列与参考序列进行比较以产生第一次要等位基因特征和第一基因组年龄。在一些实例中，将来自同一受试者的第二样本的第二序列与同一参考序列进行比较，以产生第二次要等位基因特征和第二基因组年龄。第一次要等位基因特征和第二次要等位基因特征之间的比较可以确定基因组老化速率。在某些实例中，可在以后的时间点从同一受试者的样本获得多个次要等位基因特征，用于比较以产生受试者不同年龄的多个基因组老化速率。

本公开提供通过确定来自受试者的第一样本中的微卫星次要等位基因特征来确定受试者的基因组年龄的计算机实现的方法。微卫星次要等位基因特征可以是次要等位基因，其包括与参考序列相比具有不同SNP百分比、扩增百分比、收缩百分比、扩增和收缩与SNP的比率、杂合位点百分比或纯合位点百分比的微卫星。在一些情况下，微卫星次要等位基因特征包括次要等位基因，所述次要等位基因包括具有SNP和插入缺失变异、微卫星变异、同义SNP、非同义SNP、停止增益SNP、停止丢失SNP、剪接变异(例如，剪接接头内2-bp)、移码插入缺失或非移码插入缺失的不同组合的微卫星，当与参考序列比较时，至少一个座。在一些情况下，微卫星次要等位基因特征是跨同一受试者的多个时间点确定的。

VI.计算机系统、处理器和存储器

本公开提供一种被配置为实现本公开中描述的方法的计算机系统。在一些实例中，本文公开了一种系统，其包括：计算机处理装置，其可选地连接到计算机网络；以及软件模块，其由计算机处理装置执行。在一些实例中，所述系统包括中央处理单元(CPU)、存储器(例如，随机存取存储器、快闪存储器)、电子存储单元、计算机程序、与一个或多个其他系统通信的通信接口以及其任意组合。在一些实例中，系统耦合到计算机网络，例如因特网、内联网和/或与因特网、电信或数据网络通信的外联网。在一些方面，此系统包括存储单元，用于存储关于本公开中描述的方法的任何方面的数据和信息。系统的各个方面是产品或物品或制造品。

计算机程序的一个特征包括可在数字处理装置的CPU中执行的被编写来执行特定的任务的指令序列。在一些方面，计算机可读指令被实现为执行特定任务或实现特定抽象数据类型的程序模块，诸如功能、特征、应用程序编程接口(API)、数据结构等。在各种实施方式中，可以用各种语言的各种版本来编写计算机程序。

计算机可读指令的功能根据需要在各种环境中组合或分布。在一些实例中，计算机程序包括一个指令序列或多个指令序列。可以从一个位置提供计算机程序。可以从多个位置提供计算机程序。在一些方面，计算机程序包括一个或多个软件模块。在一些方面，计算机程序部分或全部包括一个或多个web应用程序、一个或多个移动应用程序、一个或多个独立应用程序、一个或多个web浏览器插件、扩展、加载项或附加件或其组合。

计算机系统

本公开提供被编程为实现本公开的方法的计算机系统。图18示出了计算机系统(1801)，其可以被编程或以其他方式被配置为执行本文所描述的方法。计算机系统(1801)可以调节本公开的各个方面，包括输入核酸位置信息、将推算信息转移到数据集、以及用数据集生成训练算法。计算机系统(1801)可以是用户电子装置或远程计算机系统。电子装置可以是移动电子装置。

计算机系统(1801)包括中央处理单元(CPU，本文也称为“处理器”和“计算机处理器”)(1805)，所述中央处理单元可以是通过顺序处理或并行处理的单核或多核处理器。计算机系统(1801)还包括存储单元或装置(1810)(例如，随机存取存储器、只读存储器、快闪存储器)、存储单元(1815)(例如，硬盘)、用于与一个或多个其他系统通信的通信接口(1820)(例如，网络适配器)以及外围装置(1825)，外部或内部或两者兼有，诸如打印机、监测器、USB驱动器和/或CD-ROM驱动器。存储器(1810)、存储单元(1815)、接口(1820)和外围装置(1825)通过诸如主板的通信总线(实线)与CPU(1805)通信。存储单元(1815)可以是用于存储数据的数据存储单元(或数据存储库)。计算机系统(1801)可以借助于通信接口(1820)可操作地耦合到计算机网络(“网络”)(1830)。网络(1830)可以是因特网、互联网和/或外联网、或与互联网通信的内联网和/或外联网。网络(1830)在一些情况下是电信网络和/或数据网络。网络(1830)可以包括一个或多个计算机服务器，所述一个或多个计算机服务器可以启用支持分布式计算的对等网络。在一些情况下，借助于计算机系统(1801)，网络(1830)可以实现客户端-服务器结构，这可以使耦合到计算机系统(1801)的装置表现为客户端或服务器。

CPU(1805)可以执行一系列机器可读指令，所述一系列机器可读指令可以并入在程序或软件中。指令可以存储在存储器中(1810)。指令可以指向CPU(1805)，所述CPU(1805)可以随后编程或以其他方式配置CPU(1805)以实现本公开的方法。由CPU(1805)执行的操作的示例可以包括获取、解码、执行和写回。

CPU(1805)可以是电路(诸如集成电路)的一部分。系统(1801)的一个或多个其他部件可以包括在电路中。在一些实施方式中，电路是专用集成电路(ASIC)。

存储单元(1815)可以存储文件，诸如驱动程序、库和保存的程序。存储单元(1815)可以存储用户数据，例如用户偏好和用户程序。在一些情况下，计算机系统(1801)可以包括计算机系统(1801)外部(诸如位于通过内联网或因特网与计算机系统(1801)通信的远程服务器上)的一个或多个另外的数据存储单元。

计算机系统(1801)可以通过网络(1830)与一个或多个远程计算机系统通信。例如，计算机系统(1801)可以与远程计算机系统或用户通信。远程计算机系统的示例包括个人计算机(例如，便携式PC)、平板或平板PC(例如，

iPad、

GalaxyTab)、电话、智能电话(例如，

iPhone、支持Android的装置、

)或个人数字助理。用户可以经由网络(1830)访问计算机系统(1801)。

本文所描述的方法可以通过存储在计算机系统(1801)的电子存储位置上(例如，存储在存储器(1810)或数据存储单元(1815)中)的机器(例如，计算机处理器)可执行代码来实现。机器可执行或机器可读代码可以以软件的形式提供。在使用期间，代码可由处理器执行(1805)。在一些情况下，代码可以从存储单元(1815)检索并且存储在存储器(1810)中，以供处理器(1805)随时访问。在一些情况下，可以排除存储单元(1815)，并且机器可执行指令存储在存储器(1810)中。

所述代码可以被预编译并且被配置为与具有适于执行所述代码的处理器的机器一起使用，或它可在运行时被编译。可以用编程语言供应代码，可以选择所述编程语言以使代码能够以预编译或编译的方式执行。

本文提供的系统和方法的方面，诸如计算机系统(1801)，可以并入到编程中。所述技术的各个方面可以被认为是“产品”或“制造品”，通常是被承载或包含在一种类型的机器可读介质中的机器(或处理器)可执行代码和/或相关联数据的形式。机器可执行代码可以存储在存储单元(诸如硬盘)或存储器(例如，只读存储器、随机存取存储器、快闪存储器)中。存储类型媒体可以包括可在任何时候为软件编程提供非暂时性存储的计算机、处理器等的任何或全部有形存储器，或其相关联模块，包括各种半导体存储器、磁带驱动器、磁盘驱动器等。软件的全部或部分有时可以通过因特网或各种其他电信网络通信。例如，此类通信可以使软件能够从一个计算机或处理器加载到另一个计算机或处理器中，例如从管理服务器或主机计算机加载到应用程序服务器的计算机平台中。因此，可以承载软件元素的另一种类型的介质包括光波、电波和电磁波，诸如通过有线和光学陆线网络以及各种空中链路在本地装置之间跨物理接口使用。承载此类波的物理元件，诸如有线或无线链路、光链路等或可以被认为是承载软件的介质。如本文所用，除非限于非暂时性的、有形的“存储”介质，否则诸如计算机或机器“可读介质”的术语是指参与向处理器提供指令以供执行的任何介质。

A.电子装置

在一些方面，本文所描述的平台、媒体、方法和应用程序包括电子装置、处理器或其使用(也称为数字处理装置)。在另一些方面，所述电子装置包括执行装置功能的一个或多个硬件中央处理单元(CPU)。在又一些方面，电子装置还包括被配置为执行可执行指令的操作系统。在一些方面，电子装置可选地连接到计算机网络。在另一些方面，电子装置可选地连接到因特网，使得它访问万维网。在又一些方面，电子装置可选地连接到云计算基础设施。在一些方面，电子装置可选地连接到内联网。在一些方面，电子装置可选地连接到数据存储装置。根据本文的描述，作为非限制性示例，合适的电子装置包括服务器计算机、台式计算机、膝上型计算机、笔记本计算机、小笔记本计算机、上网本计算机、网络平板计算机、机顶盒计算机、手持计算机、因特网装置、移动智能电话、平板计算机、个人数字助理、视频游戏控制台和车辆。在各种实施方式中，许多智能电话适用于本文所描述的系统。在各种实施方式中，具有可选的计算机网络连接的选定电视、视频播放器和数字音乐播放器适用于本文所描述的系统中。合适的平板计算机包括具有小册子、平板和可转换配置的那些。

在一些方面，电子装置包括被配置为执行可执行指令的操作系统。例如，操作系统是软件，包括程序和数据，它管理装置的硬件并且为应用程序的执行提供服务。在各种实施方式中，作为非限制性示例，合适的服务器操作系统包括FreeBSD、OpenBSD、

Linux、Ubuntu Linux、

Mac OS X

Windows

以及

在各种实施方式中，作为非限制性示例，合适的个人计算机操作系统包括

和类UNIX操作系统，诸如

在一些方面，操作系统由云计算提供。在各种实施方式中，作为非限制性示例，合适的移动智能电话操作系统包括，

OS、

OS、

操作系统、

以及

在一些方面，所述装置包括存储和/或存储器装置。存储装置和/或存储器装置是用于临时或永久存储数据或程序的一个或多个物理设备。在一些方面，所述装置是易失性存储器并且需要功效来维护存储的信息。在一些方面，所述装置是非易失性存储器并且在电子装置未通电时保留存储的信息。在另一些方面，非易失性存储器包括快闪存储器。在一些方面，非易失性存储器包括动态随机存取存储器(DRAM)。在一些方面，非易失性存储器包括铁电随机存取存储器(FRAM)。在一些方面，非易失性存储器包括相变随机存取存储器(PRAM)。在一些方面，非易失性存储器包括磁阻随机存取存储器(MRAM)。在一些方面，所述装置是存储器装置，作为非限制性示例，其包括CD-ROM、DVD、快闪存储器装置、磁盘驱动器、磁带驱动器、光盘驱动器和基于云计算的存储装置。在另一些方面，存储和/或存储器装置是诸如本文公开的装置的组合。

在一些方面，电子装置包括向受试者发送视觉信息的显示器。在一些方面，显示器是阴极射线管(CRT)。在一些方面，显示器是液晶显示器(LCD)。在另一些方面，显示器是薄膜晶体管液晶显示器(TFT-LCD)。在一些方面，显示器是有机发光二极管(OLED)显示器。在各个再一些方面，在OLED显示器上是无源矩阵OLED(PMOLED)或有源矩阵OLED(AMOLED)显示器。在一些方面，显示器是等离子显示器。在一些方面，显示器是电子纸或电子墨水。在一些方面，显示器是视频投影仪。在又一些方面，显示器是诸如本文公开的那些装置的组合。

在一些方面，电子装置包括用于从受试者接收信息的输入装置。在一些方面，输入装置是键盘。在一些方面，输入装置是定点装置，作为非限制性示例，包括鼠标、轨迹球、轨迹板、操纵杆、游戏控制器或指示笔。在一些方面，输入装置是触摸屏或多点触摸屏。在一些方面，输入装置是传声器以捕获语音或其他声音输入。在一些方面，输入装置是相机或其他传感器以捕获运动或视觉输入。在另一些方面，输入装置是Kinect、Leap Motion等。在又一些方面，输入装置是诸如本文公开的那些装置的组合。

B.非暂时性计算机可读存储介质

在一些方面，本文所描述的平台、媒体、方法和应用程序包括用程序编码的一个或多个非暂时性计算机可读存储介质，所述程序包括可由可选联网的数字处理装置的操作系统执行的指令。在另一些方面，计算机可读存储介质是电子装置的有形部件。在又一些方面，计算机可读存储介质可选地可从电子装置移除。在一些方面，作为非限制性示例，计算机可读存储介质包括CD-ROM、DVD、快闪存储器装置、固态存储器、磁盘驱动器、磁带驱动器、光盘驱动器、云计算系统和服务等。在一些情况下，程序和指令被永久地、基本上永久地、半永久地或非暂时地编码在介质上。

C.计算机程序

在一些方面，本文所描述的平台、媒体、方法和应用程序包括至少一个计算机程序或其使用。计算机程序包括可在电子装置的CPU中执行的被编写来执行特定的任务的一系列指令。计算机可读指令可以被实现为执行特定任务或实现特定抽象数据类型的程序模块，诸如函数、对象、应用程序编程接口(API)、数据结构等。在各种实施方式中，可以用各种语言的各种版本来编写计算机程序。

计算机可读指令的功能可以根据需要在各种环境中组合或分布。在一些方面，计算机程序包括一个指令序列。在一些方面，计算机程序包括多个指令序列。在一些方面，从一个位置提供计算机程序。在一些方面，从多个位置提供计算机程序。在各个方面，计算机程序包括一个或多个软件模块。在各个方面，计算机程序部分或全部包括一个或多个web应用程序、一个或多个移动应用程序、一个或多个独立应用程序、一个或多个web浏览器插件、扩展、加载项或附加件或其组合。

D.web应用程序

在一些方面，计算机程序包括web应用程序。在各种实施方式中，在各种方面，web应用程序利用一个或多个软件框架和一个或多个数据库系统。在一些方面，web应用程序是在诸如

.NET或Ruby on Rails(RoR)的软件框架上创建的。在一些方面，web应用程序利用一个或多个数据库系统，作为非限制性示例，包括关系、非关系、面向对象、关联和XML数据库系统。在另一些方面，作为非限制性示例，合适的关系数据库系统包括

SQL Server、mySQL^TM、和

在各种实施方式中，在各种方面，web应用程序是用一种或多种语言的一个或多个版本编写的。web应用程序可以用一种或多种标记语言、表示限定语言、客户端脚本语言、服务器端编码语言、数据库查询语言或其组合来编写。在一些方面，web应用程序在某种程度上用诸如超文本标记语言(HTML)、可扩展超文本标记语言(XHTML)或可扩展标记语言(XML)的标记语言编写。在一些方面，web应用程序在某种程度上是用诸如级联样式表(CSS)的表示限定语言编写的。在一些方面，Web应用程序在某种程度上是用客户端脚本语言编写的，诸如异步Javascript和XML(AJAX)、

Actionscript、Javascript或

在一些方面，Web应用程序在某种程度上是用服务器端编码语言编写的，诸如活动服务器网页(ASP)、

Perl、Java^TM、JavaServer Pages(JSP)、超文本预处理器(PHP)、Python^TM、Ruby、Tcl、Smalltalk、

或Groovy。在一些方面，web应用程序在某种程度上是用数据库查询语言(如结构化查询语言)编写的。在一些方面，Web应用程序集成了企业服务器产品，诸如

在一些方面，web应用程序包括媒体播放器元素。在各种其他方面，媒体播放器元件利用许多合适的多媒体技术中的一种或多种，作为非限制性示例，包括

HTML 5、

Java^TM和

E.移动应用程序

在一些方面，计算机程序包括提供给移动电子装置的移动应用程序。在一些方面，移动应用程序在制造时被提供给移动电子装置。在一些方面，移动应用程序经由本文所描述的计算机网络被提供给移动电子装置。

在各种实施方式中，通过使用硬件、语言和开发环境的各种技术来创建移动应用程序。在各种实施方式中，移动应用程序是用几种语言编写的。作为非限制性示例，合适的编程语言包括C、C++、C#、Objective-C、Java^TM、Javascript、Pascal、ObjectPascal、Python^TM、Ruby、VB.NET、WML和具有或没有CSS的XHTML/HTML或其组合。

可以从若干源获得合适的移动应用程序开发环境。作为非限制性示例，商业上可用的开发环境包括AirplaySDK、alcheMo、

Celsius、Bedrock、FlashLite、.NETCompactFramework、Rhomobile和WorkLight Mobile Platform。可以免费获得其他开发环境，作为非限制性的示例，其包括Lazarus、MobiFlex、MoSync和Phonegap。此外，移动装置制造商分发软件开发工具包，作为非限制性示例，包括iPhone和iPad(iOS)SDK、

SDK、BREW SDK、

OS SDK、SymbianSDK、webOS SDK、以及

Mobile SDK。

在各种实施方式中，若干商业论坛可用于分发移动应用程序，作为非限制性示例，包括

的应用程序商店、

AppWorld、用于掌上装置的应用程序商店、用于webOS的App Catalog、

移动市场、

装置的Ovi商店、

应用程序、以及

DSi商店。

F.独立应用程序

在一些方面，计算机程序包括独立应用程序，所述独立应用程序是作为独立的计算机进程运行的程序，而不是现有进程的附加件，例如，不是插件。在各种实施方式中，独立应用程序经常被编译。编译器是计算机程序，其将用编程语言编写的源代码转换成二进制目标代码(诸如汇编语言或机器代码)。作为非限制性示例，合适的编译编程语言包括C、C++、Objective-C、COBOL、Delphi、Eiffel、Java^TM、Lisp、Python^TM、Visual Basic、以及VB.NET或其组合。通常至少部分地执行编译以创建可执行程序。在一些方面，计算机程序包括一个或多个可执行的编译应用程序。

G.软件模块

在一些方面，本文所描述的平台、媒体、方法和应用程序包括软件、服务器和/或数据库模块，或其使用。在各种实施方式中，通过使用机器、软件和语言的各种技术来创建软件模块。本文公开的软件模块可以以多种方式实现。在各个方面，软件模块包括文件、代码段、编程对象、编程结构或其组合。在其他的各个方面，软件模块包括多个文件、多个代码段、多个编程对象、多个编程结构或其组合。在各个方面，作为非限制性示例，一个或多个软件模块包括web应用程序、移动应用程序和独立应用程序。在一些方面，软件模块在一个计算机程序或应用程序中。在一些方面，软件模块在一个以上的计算机程序或应用程序中。在一些方面，软件模块托管在一个机器上。在一些方面，软件模块托管在一个以上机器上。在另一些方面，软件模块托管在云计算平台上。在一些方面，软件模块托管在一个位置的一个或多个机器上。在一些方面，软件模块托管在一个以上位置的一个或多个机器上。

H.数据库

在一些方面，本文公开的平台、系统、媒体和方法包括一个或多个数据库或其使用。在各种实施方式中，许多数据库适用于条形码、路线、包裹、受试者或网络信息的存储和检索。在各个方面，作为非限制性示例，合适的数据库包括关系数据库、非关系数据库、面向对象数据库、对象数据库、实体关系模型数据库、关联数据库和XML数据库。在一些方面，数据库是基于互联网的。在另一些方面，数据库是基于网络的。在又一些方面，数据库是基于云计算的。在一些方面，数据库基于一个或多个本地计算机存储装置。

I.数据传输

本文所描述的主题，包括本文提供的方法和系统，可以被配置为在一个或多个位置的一个或多个设施中执行。设施位置不受国家限制，并且包括任何国家或地区。在一些实例中，一个或多个步骤在不同于所述方法的另一个步骤的国家执行。在一些实例中，用于获得样本的一个或多个步骤在与用于检测来自样本的病症的存在或不存在的一个或多个步骤不同的国家中执行。在一些方面，涉及计算机系统的一个或多个方法步骤在与本文提供的方法的另一个步骤不同的国家中执行。在一些方面，数据处理和分析在不同于本文所描述方法的一个或多个步骤的国家或地点执行。在一些方面，一个或多个物品、产品或数据从一个或多个设施转移到一个或多个不同的设施用于分析或进一步分析。制品包括但不限于从受试者获得的一种或多种成分，例如处理的细胞材料。处理的细胞材料包括但不限于从RNA逆转录的cDNA、扩增的RNA、扩增的cDNA、测序的DNA、分离和/或纯化的RNA、分离和/或纯化的DNA以及分离和/或纯化的多肽。数据包括但不限于关于受试者分层的信息，以及由本文公开的方法产生的任何数据。在本文所描述的方法和系统的一些方面，执行分析并且随后的数据传输步骤将传送或传输分析的结果。

J.Web浏览器插件

在一些方面，计算机程序包括web浏览器插件。在计算中，插件是向更大的软件应用程序添加特定功能的一个或多个软件部件。软件应用程序的制造商支持插件，使第三方开发人员能够创建扩展应用程序的能力，支持轻松添加新特征，并且缩小应用程序的大小。当得到支持时，插件使能够定制软件应用程序的功能。例如，插件通常在web浏览器中用于播放视频、生成交互性、扫描病毒和显示特定的文件类型。在各种实施方式中，可以使用若干web浏览器插件，包括

Player、

以及

在一些方面，工具栏包括一个或多个web浏览器扩展、加载项或附加件。在一些方面，工具栏包括一个或多个浏览器栏、工具栏或桌面栏。

在各种实施方式中，几种插件框架是可用的，其使能够以各种编程语言(包括但不限于C++、Delphi、Java^TM、PHP、Python^TM和VB.NET或其组合)开发插件。

web浏览器(也称为因特网浏览器)是软件应用程序，设计用于网络连接的电子装置，用于检索、呈现和遍历万维网上的信息资源。作为非限制性示例，合适的web浏览器包括

Internet

Chrome、

Opera

以及KDE Konqueror。在一些方面，web浏览器是移动web浏览器。移动web浏览器(也称为微浏览器、迷你浏览器和无线浏览器)设计用于移动电子装置，作为非限制性示例，包括手持计算机、平板计算机、上网本计算机、笔记本计算机、智能电话、音乐播放器、个人数字助理(PDA)和手持视频游戏系统。作为非限制性示例，合适的移动web浏览器包括

浏览器、

浏览器、

Blazer、

浏览器、

formobile、

Internet

Mobile、

BasicWeb、

浏览器、

Mobile、以及

PSP^TM浏览器。

K.利用计算机的商业方法

本文所描述的方法可以利用一个或多个计算机。计算机可以用于管理客户和样本信息，诸如样本或客户跟踪、数据库管理、分析分子谱数据、分析细胞学数据、存储数据、计费、营销、报告结果、存储结果或其组合。计算机可以包括监测器或其他图形接口，用于显示数据、结果、计费信息、营销信息(例如，人口统计数据)、客户信息或样本信息。计算机还可以包括用于数据或信息输入的装置。计算机可以包括处理单元和固定或可移动介质或其组合。计算机可由物理地接近计算机(例如经由键盘和/或鼠标)的用户访问，或由不必通过通信介质(诸如调制解调器、互联网连接、电话连接或有线或无线通信信号载波)访问物理计算机的用户访问。在一些情况下，计算机可以连接到服务器或其他通信装置，用于将信息从用户中继到计算机或从计算机中继到用户。在一些情况下，用户可以将通过通信介质从计算机获得的数据或信息存储在介质(诸如可移动介质)上。可以预见，与这些方法相关的数据可以通过此类网络或连接来传输，以供一方接收和/或查看。接收方可以是但不限于个人、医疗保健提供者或医疗保健管理者。在一个示例中，计算机可读介质包括适合于传输生物样本分析结果的介质。所述介质可以包括受试者的结果，其中此类结果是使用本文所描述的方法衍生的。

获得样本信息的实体可以将其输入数据库，用于以下一项或多项目的：库存跟踪、测定结果跟踪、订单跟踪、客户管理、客户服务、计费和销售。样本信息可以包括但不限于：客户姓名、唯一客户身份、、客户相关联的医疗专业人员、指示的测定、测定结果、充分性状况、指示的充分性测试、个人病史、初步诊断、疑似诊断、样本历史、保险提供商、医疗提供商、第三方测试中心或任何适合存储在数据库中的信息。样本历史可以包括但不限于：样本的年龄、样本的类型、获取方法、存储方法或运输方法。

客户、医疗专业人员、保险提供商或其他第三方可以访问所述数据库。数据库访问可以采取电子通信的形式，诸如计算机或电话。数据库可以通过中介(诸如客户服务表示、业务表示、顾问、独立测试中心或医疗专业人员)访问。数据库访问或样本信息(诸如测定结果)的可用性或程度可在支付已提供或将提供的产品和服务的费用时改变。可以限制数据库访问或样本信息的程度，以符合对患者或客户保密的普遍接受或法律要求。

示例

以下提供的示例仅用于图示目的，并不意图限制本文提供的根据权利要求的范围。

示例1：种系微卫星基因型区分儿童髓母细胞瘤(MB)

介绍

髓母细胞瘤(MB)是常见的儿童恶性脑肿瘤。MB可能主要由遗传性或自发性突变导致，因为患有MB的儿童尚未经历一生的环境暴露和压力。广泛的基因组特征已将MB肿瘤分为至少4个共有的分子亚组：WNT、SHH、第3组和第4组，每者都有不同的转录谱、拷贝数改变、体细胞突变和临床结果。通常小儿脑癌，并且特别是MB，其突变比成人实体瘤中通常观察到的少5-10倍。特别不常见的是最重要的肿瘤起始基因突变，诸如p53、PTEN、RB和EGFR。此外，已知的遗传性肿瘤易感突变的发生率可能相对较低。少数已知的遗传变异，诸如PTCH、SMO和CTNNB1的突变，以及MYC和MYCN的扩增，可能不足以在动物模型中高效地导致MB，并且可能需要增强的背景，通常是p53失活，这可在不到5％的人类肿瘤中发现。MB中的许多全基因组关联研究(GWAS)可能专注于单核苷酸变异，而忽略了非编码区域和重复DNA。然而，种系微卫星(MS)插入和缺失(插入缺失)与许多神经系统疾病如亨廷顿氏病和弗里德里克共济紊乱之间可以显示出联系；前者由编码序列中的微卫星变异导致，并且后者由非编码内含子序列导致。此外，微卫星变异可能导致几种癌症的遗传背景。此外，许多癌症相关联基因包含MS位点(例如，PTEN和NF1)，在一些情况下，体细胞MS插入缺失与癌症有因果关系。基于这些发现，可以通过影响个体转录和翻译景观的DNA微卫星重复元素的合作，创造宽松的结构性遗传环境，通过调节碱基细胞过程使它们容易形成肿瘤。

MS可以包括串联重复的1-6个碱基对单元以形成阵列。人类基因组中存在超过600,000个独特的MS，它们可以嵌入基因内含子、外显子和调控区域。由于链滑复制和杂合子不稳定，微卫星位点的长度经常会发生改变，在等位基因之间和个体之间会发生变化。这些变化可以通过诱导Z-DNA和H-DNA折叠来影响基因表达；改变核小体定位；以及改变DNA结合位点的间距。非编码变异可以改变接近其位置的基因的DNA二级结构和蛋白质/RNA结合，导致转录和翻译活性以及选择性剪接的变化。由于这些原因，MS被称为基因表达的“调节旋钮”。在外显子内，包含3个或6个碱基对重复元素的微卫星位点可以通过与密码子三联体保持在框架内而导致氨基酸增加或丢失；其他非模3长度会导致移码突变。携带MS的基因可能不成比例地导致神经系统疾病。此对串联重复序列(尤其是CAG基序)扩增的特别脆弱性，指示了在神经发育中的重要性。事实上，重复性元素可在神经系统疾病中发挥作用；尤其是多谷氨酸重复序列可在亨廷顿氏病、脊髓小脑性共济失调和脊髓背角肌萎缩中发挥作用。同样，生物信息学研究指示，许多含有串联重复序列的基因可以具有神经功能。

微卫星基因分型算法的发展和基因组测序的进步已经允许识别种系微卫星基因型，其可以将健康个体与患有不同类型的癌症(乳腺癌、结肠癌、胶质瘤等)的受影响个体区分开来。在本示例中描述的是能够基于种系DNA将患有MB的儿童与健康个体区分开的一组微卫星基因型。

方法

专利样本

从以下数据集下载髓母细胞瘤(MB)患者的种系DNA WES和WGS：phs000504、phs000409、EGAD00001000122、EGAD00001000275、EGAD00001000816、以及Waszak,S.M,et.Al(髓母细胞瘤遗传易感性的谱和患病率：临床试验队列中的回顾性遗传研究和前瞻性验证。柳叶刀肿瘤学，第19卷，第6期，785–798页，其全部内容通过引用并入本文)。此外，来自6MB患者血液DNA的WES是使用TruSeq exome靶向富集试剂盒和Illumina SequencerHiSeq 2500新生成的。从1000基因组下载来自健康对照的种系DNA WES和WGS。来自100个健康儿童的种系DNA WES由位于德国海德堡NCT海德堡的Hopp儿童癌症中心提供。

序列映射和覆盖

使用Bowtie2将WES和WGS的读数映射到人类GRCh38/hg38参考基因组。总体而言，120MB种系样本的覆盖率为31倍(31.0±18.2)。对照组的样本覆盖率为13倍(13.4±7.8)。

微卫星列表生成

人类参考基因组版本GRCh38/hg38中的微卫星列表是使用默认参数用自限定Perl脚本“searchTandemRepeats.pl”生成的。此脚本可以用于微卫星研究，并且可在线免费获得。简而言之，“searchTandemRepeats.pl”脚本首先搜索纯重复拉伸：不允许有杂质。然后使用默认值为10个碱基对的“mergeGap”参数处理不完美重复和复合重复。实质上，可以容忍中断纯重复序列片段的杂质，除非它们超过10个碱基对。同样，接近10个碱基对的重复被认为是复合的。结果是CAGm数据库中的重复序列是高纯度的，复合重复序列的成分也是高纯度的。使用此脚本生成的初始列表包括1,671,121个微卫星。为了减轻微卫星之间不正确读取映射的可能性，移除了在五个碱基对长的3'和5'侧翼区域之间具有相同重复基序的全部微卫星子集。例如，微卫星的“GCTGC(A)₃₄CTTAG”和“GCTGC(A)15CTTAG”被先发制人地从初始的微卫星列表移除。微卫星可以嵌入更大的重复基序中。过滤后的列表包括人类基因组中的625,195个独特的微卫星。

微卫星基因分型

程序Repeatseq用于确定下一代测序读数中微卫星的基因型。Repeatseq使用由经验衍生的错误模型指导的贝叶斯模型选择。错误模型并入了序列和读取属性：单位、长度和基本质量。Repeatseq对三个输入文件进行操作：参考基因组、包含与人类参考基因组对准的读数的文件(.bam文件)和已知微卫星列表(根据本文公开的方法和系统)。输出是变异调用格式(.vcf)文件，其中列出了每个微卫星座的基因型，所述座由两个具有最多支持读取的等位基因组成。Repeatseq优于其他微卫星基因分型程序的优点是，它在阵列长度检测之前将每个读数与参考基因组重新对准。Repeatseq可以用于微卫星的研究，并且是可免费获得的。

Repeatseq的能力扩展到检测体细胞微卫星变异：例如，次要等位基因。次要等位基因可以不同于基因型的主要等位基因；随着年龄的增长，它们可在正常组织中通过体细胞获取。次要等位基因被用作微卫星突变的指示。简而言之，次要等位基因的检测是通过建立在Repeatseq输出上的两个步骤来启用的。首先，在对Repeatseq的调用中启用了重新对准的读取输出。其次，重新排列的读数清除了基因型的全部主要等位基因。在其余的读数中，那些由至少三个读取支持的阵列长度被算作次要等位基因。然而，当比较不同样本中的次要等位基因时，使用了另一个方法。具体而言，由总读取深度的至少20％支持的阵列长度被算作次要等位基因。

统计数据

基于先前对其他癌症和对照的微卫星基因型分布的观察进行了功效计算，以选择训练集的大小，同时确保测试集中有足够的样本用于验证。与0.01的零假设测试相关联的保守I型错误概率被选为验证的一部分。每个受试者组内的响应可以示出为标准偏差为1的正态分布。对于实验和控制均值为2的真实差异，拒绝了实验组和控制组的群体均值等于概率(幂)大于0.99的无效假设，所述研究有120个实验受试者和426个控制受试者。因此，训练集被预测为具有足够的可用样本数量。

对于每个微卫星，基因型在训练数据集中两组样本的种系DNA中的分布是不同的：120MB和425个健康对照。在每种情况下，使用广义费希尔精确测试量化统计差异。简而言之，对于每个微卫星，列联表都填充了两组的基因型计数：MB和正常(图9)。然后，使用R中的费希尔测试函数计算每个列联表的p-值。应用Benjamini-Hochberg多重测试校正(n＝43,457个被测微卫星)来控制错误发现率。

微卫星过滤控制年龄、种族和测序方案

本研究设计为识别特定于MB的种系微卫星变异；具体而言，在120MB样本和425个健康对照中识别出具有统计上地意义的微卫星。然而，这些样本在年龄或测序方案上不匹配；此外，他们只是在种族上部分匹配。因此，此方法可能存在识别具有年龄、测序和种族偏见的微卫星的风险，而不仅是疾病状况。为了减轻此风险，微卫星被识别为具有潜在的偏见-年龄、测序、或种族-并且将其排除在随后分析之外。

控制年龄：为了识别基因型随年龄非随机变化的微卫星，对1,000基因组计划中的100个健康欧洲儿童和501个欧洲成年人进行了比较。费希尔的精确测试识别出738个(总共29,061个)统计上地显著微卫星：Benjamini-Hochberg校正(p-值<0.05)(图10)。

控制测序方案：为了识别基于DNA测序方案而变化的微卫星(WGS对WES)，对1000基因组计划中16个个体的配对WGS和WES实验的基因型进行了比较。对37,511个微卫星的基因型分布进行了统计学差异测试(费希尔精确测试)；使用Benjamini-Hochberg错误发现校正发现157个不同(p-值<0.05)(图11)。这可以是由于微卫星容易出现读取映射错误，特别是当它们携带大量插入或缺失时。因此，所识别的157个微卫星可能特别容易出现映射错误或位于基因组的高度可变区域；他们被排除在随后分析之外。此外，在134个WGS样本中，有37,775个已识别的微卫星调用不存在。因此，这37,775个不能用于基于微卫星的风险、诊断或预后测定；他们被排除在随后分析之外(图11)。

控制种族：为了识别因种族而异的DNA微卫星，对来自1000基因组计划的352个美国样本和502个欧洲样本的基因型分布进行了比较和分析。总共执行了184,981次统计测试，其中使用Benjamini-Hochberg错误发现校正(p-值<0.05)揭示1,037个微卫星存在显著差异。此外，在一组59个主要是欧洲MB样本和55个主要是美国MB样本中检查了微卫星基因型的分布。在这里，对478个微卫星进行了13,899次测试，发现它们在Benjamini-Hochberg错误发现校正后有所不同(p-值<0.05)。识别出两个清单中都存在的71个微卫星，所述71个微卫星被排除在进一步分析之外(图12)。

上述3个步骤的独特微卫星数量为38,653个；全部这些都被移除在进一步分析之外。

样本评分的指标和ROC分析

对样本进行评分的指标：基于样本微卫星基因型的独特分布设计了对样本进行评分的指标。本质上，所述指标是属于每个样本的基因型的加权总和：权重源于MB和健康组中每个基因型的频率差异。图13提供所述指标的视觉概要。

ROC分析：接受者操作特征(ROC)分析用于设计分类方案，能够将MB样本与健康对照区分开来。简而言之，ROC曲线下面积(AUC)被用作评分两组分数区分两组的量度。然后，为全部未来的分类选择截止值。在这里，截止值是最小化灵敏度并且同时最大化特异性的单一的分数；它是用尤登指数识别的。使用可免费获得的R包执行ROC分析、AUC计算和优登指数优化：ROCR。

微卫星子集(遗传算法)

遗传算法可以是一类受生物学启发的算法。简而言之，遗传算法被用于使用2步迭代过程从139个标记集中识别信息性最丰富的标记子集。首先，用139个微卫星标记的随机子集初始化算法；接下来，对排序靠前的预成型子集进行持续重组、重新评估和重新排序。使用三个超参数(例如，迭代算法开始前设置的参数)来控制最大群体大小、每个子集的大小、每个子集的性能以及群体中子集的多样性。下面提供每个步骤和超参数的详细信息。

初始化：初始群体中的每一个子集都由从139个完全互补中随机选择的标记组成。超参数控制初始群体大小和每个子集的大小。一旦填充，则初始子集将基于下面描述的性能指标执行排序。

优化：每个优化周期从在群体中放置10个新子集开始；其中7个是通过重组现有群体的2个成员(随机选择)生成的，并且3个是随机生成的。重组2个子集，每个子集被拆分；然后，两个片段(每个子集一个)重新接合。拆分点和片段是随机选择的。所述3个随机子集是在初始化时生成的，有助于维持群体的多样性。一旦生成了新子集，就基于性能指标对群体执行重新排序。最后，10个表现最差的子集被丢弃，以维持群体大小。

超参数：100个子集的群体大小被初始化并且在整个算法中使用。子集的最小大小和最大大小相应地设置为8个和64个标记。子集中不允许重复标记。每个子集的性能通过使用120MB样本和425个健康对照的ROC分析来确定，例如，在整个研究中使用相同的训练样本。灵敏度和特异性的总和决定了每个子集的性能，并且用于对每一代遗传算法中的群体执行排序。

稳健性：选择遗传算法的参数是为了计算的可行性。然而，遗传算法的结果对超参数的选择不灵敏。此外，优化周期的细节(诸如每个周期中新子集的数量)不影响遗传算法的结果。

验证

使用的样本：为了确保研究有足够的功效，在验证研究中选择了102个实验受试者和428个对照受试者。使用分析训练集时发现的受试者(MB)和控制分布(图7A)，每个受试者组内的响应呈正态分布，其中标准偏差为1.1。对于实验和控制均值为4.4的真实差异，基于零假设进行拒绝，即对于此大小的样本和控制验证集，对于0.01的I型错误概率，实验组和控制组的群体均值等于概率(幂)大于0.99。训练和验证中使用的全部对照样本都进行了全外显子组测序。对于MB，所述收集包括全外显子组和全基因组样本。全基因组测序样本专门用于验证。

程序：每个验证样本都使用与训练样本相同的指标进行评分。截止值(在训练中识别)用于预测530个验证样本中哪些样本具有MB，并且哪些是健康对照。MB被预测为超过截止值的验证样本。将预测结果与102MB样本和428个健康对照的已知身份进行比较。这些预测的灵敏度和特异性与训练相当。

微卫星突变

为了测试患有MB的个体是否更容易发生微卫星变异，每个微卫星的基因分型的等位基因总数(等位基因负荷)被用作其突变的量度，并且此量度在疾病和对照队列之间进行比较。等位基因的限定使得计数对两个错误源是稳健的：(a)通过要求每个等位基因至少有2个读数支持，减轻了PCR产物的潜在影响；以及(b)为了标准化样本间读取覆盖率的差异，每个等位基因需要得到映射到微卫星的读取总数的至少20％的支持。等位基因只针对至少20％的样本中存在映射读数的微卫星进行计数。然后，执行费希尔精确测试以建立MB患者和健康个体之间的统计学显著性。此过程重复50次，平均p-值为0.077。

还使用另外两条证据线评估髓母细胞瘤种系错配修复机制的完整性：(a)在MB和对照样本中全部(总共71,192个)微卫星上记录纯合子和杂合子基因型；以及(b)MB和对照样本中全部微卫星(总共71,192个)上的中位微卫星阵列长度的比较。对于前一种分析，异常错配修复有望增加杂合子基因型的数量；然而，病例和对照样本的差异没有统计上地意义。髓母细胞瘤样本共有299,802个杂合基因型和2,596,324个纯合基因型；对照样本有283,037个杂合基因型和2,449,046个纯合基因型。对于后一种分析，与对照相比，异常错配修复预计会导致髓母细胞瘤样本中更长或更短的中位微卫星阵列长度的积累；同样，结果没有统计上地意义。髓母细胞瘤样本中，1,031个微卫星的中位阵列长度较短，907个微卫星的中位阵列长度较长；其余69,254个微卫星的阵列长度中位数没有差异。

下游分析

使用与139个微卫星位点相关联的基因进行功能分析，所述139个微卫星位点的基因型在MB受试者和对照之间存在显著差异。总共有124个基因被纳入分析，不包括位于基因间区域的微卫星。使用Ingenuity Pathway Analysis(QIAGENInc.)执行路径分析。使用PedcBioPortal分析突变和共现。蛋白质-蛋白质相互作用(PPI)网络构建是用STRING进行的，最低相互作用分数为0.7(高可信度)，并且第一个壳中不超过五个分子。此设置生成了一个具有129个节点和49个边的集线器，从而形成一个PPI富集p-值为0.0007的网络。

结果

髓母细胞瘤微卫星信息性位点的识别

单核苷酸突变可以用MB全基因组分析来表征。在这里，研究了微卫星变异对髓母细胞瘤易感性的影响。为此，开发了一个计算工作流程来识别髓母细胞瘤儿童和对照受试者之间基因型不同的种系微卫星，同时校正随年龄、种族和DNA测序方案而变化的那些(图6)。还开发了一种指标，基于每个样本独特的微卫星基因型收集对其进行评分。此方法应用于来自222个髓母细胞瘤儿童和853个健康对照受试者的种系DNA测序数据。数据分为2组，所述两组均包含受影响的受试者和健康的受试者，第一组用于训练，包含120个髓母细胞瘤患者和425个对照个体，并且第二组用于验证，包含102个髓母细胞瘤患者和428个对照个体。在分析的第一阶段，使用训练集，对120个髓母细胞瘤样本和425个健康对照中存在的43,457个不同的微卫星进行了基因分型。对于这些微卫星中的每一个，使用广义费希尔精确测试来评估每个微卫星在两组之间基因型分布的统计差异。识别出2,094个微卫星，p-值<0.05。经过Benjamini-Hochberg多重测试校正(α＝.05)，422个通过了错误发现。执行三个另外的步骤来移除随年龄、种族和DNA测序方案而变化的微卫星(图6、图10、图11和图12)。总共有283个微卫星从422个卫星的列表移除，从而使列表减少到139个(图19)。总之，此方法从种系DNA中识别出139个微卫星，其基因型在髓母细胞瘤受试者和健康对照之间存在显著差异。

髓母细胞瘤微卫星分类器集

为了识别在区分髓母细胞瘤样本和健康对照方面具有最佳性能的微卫星子集，使用139个微卫星集来训练髓母细胞瘤分类器。首先，基于139个微卫星的基因型，设计了一个指标来对每个髓母细胞瘤和对照样本进行评分(详见方法和图13)。接下来，生成接收器操作特征(ROC)并且用于确定样本分数作为髓母细胞瘤二进制分类器的能力。基于遗传算法方法的子集优化策略被用于使用2步迭代过程来识别区分标记的最佳子集。首先，从完整的列表随机生成子集，并且按其F-度量进行排序。其次，表现最好的子集被不断混合、重新评估和重新排序。所述算法在87个周期内收敛以揭示43个微卫星的子集，其F测量值为0.90，并且曲线下面积(AUC)为0.962(图7、图20)。确定了尤登指数，指示区分髓母细胞瘤样本和健康对照的最佳截止分数为0.155(图14)。当应用于训练集时，灵敏度为0.88，特异性为0.92(图7B)。在图15示出了这43个标记在人类基因组中的染色体位置。因此，识别出一组43个微卫星，并且所述一组43个微卫星基因型分布能够以88％的灵敏度和92％的特异性区分髓母细胞瘤患者和健康对照。

来自髓母细胞瘤患者和健康对照的独立的种系DNA队列用于验证先前的结果。对于验证研究，其包括102个实验受试者和428个对照受试者，并且使用在分析训练集时发现的受试者(髓母细胞瘤)和对照分布(图7)，以确保研究有足够的功效。在训练集中，每个受试者组内的响应呈正态分布，标准偏差为1.1。对于4.4的实验和控制均值的真实差异，发现对于零假设可以进行拒绝，所述零假设是实验组和控制组的群体均值相等，概率(幂)大于0.99，对于此大小的样本和控制组的I型错误概率为0.01。将最佳截止值(0.155)应用于独立验证样本集，发现分类器能够以0.95的灵敏度和0.90的特异性区分病例和对照(图7C和图7D)。总之，一组43个MS的基因型分布得到了识别和验证，能够使用具有高灵敏度和特异性的种系DNA区分MB患者和健康对照。

髓母细胞瘤信息性微卫星位点的突变

在种系中，MS中的插入缺失的比率明显高于基因组中其他地方的单核苷酸替换率，相应地为10^-4至10^-3，而相比之下每一代每个座的比率为10^-8。然而，基于重复长度、它们的重复基序以及对DNA折叠的影响，不同的MS的突变率也不同。假设在基因型与MB非随机相关联的139个MS(图20)中发现的差异可以是MB个体固有的微卫星基因型变异增加的结果。为了测试患有MB的个体是否更容易发生微卫星变异，每个微卫星的基因分型的等位基因总数(等位基因负荷)被用作其突变的量度，并且此量度在疾病和对照队列之间进行比较。健康个体和MB个体之间的基因分型等位基因数量没有显著差异，这支持了MB患者不存在普遍微卫星不稳定性的结论。通过按等位基因负荷对全部MS进行排序，以确定139个标记是否位于所分析的最易突变位点中，研究了与信息性微卫星自身特征相关的预测能力。人们发现，尽管它们属于更易变的MS，但它们并不包括最易变的位点。此外，将纯合子和杂合子基因型的数量以及微卫星阵列长度作为MB变异的潜在源进行了比较。在这两种情况下，MB和对照种系DNA之间没有统计上地的显著差异。这些结果和数据指示，那些139个微卫星与MB的关联是这些单个微卫星基因型的结果，而不仅是结构性超变异的结果。

信息性MST相关联基因的作用

在MB和对照样本之间基因型不同的139个MS位点中，114个位于内含子区域，15个位于基因间区域，6个位于3'UTR，3个位于外显子区域，并且1个位于5'UTR(图8A)。为了了解这些基因的潜在机制作用，进行了Ingenuity

以分析与信息性MS位点相关联的124个基因(不包括位于基因间区域的MS)。所述分析揭示了与癌症和分子细胞功能(诸如细胞周期、DNA复制、重组和修复以及细胞生长和增殖)的统计上地显著关联，指示了与癌症生物学的关系(图8B和图21)。在cBioportal中可用的4MB队列中检查了与信息性MS相关联的这124个基因中突变的发生。尽管已知MB肿瘤的突变率较低，但平均17％的MB癌症样本在这124个基因中的至少一个基因中包含突变(图22)，而神经母细胞瘤肿瘤的突变率为4.5％。使用cBioportal内的患病儿童2016数据集进行的突变共现分析指示，全部可能的微卫星对中有135对(9，591＝139*(139-1)/2)被发现显著共现(p-值<0.05)。发现两名患者相应地在20MB和10MB信息性MS位点中同时出现突变(图23)。

发现由与信息性MS位点相关联的124个基因组成的蛋白质-蛋白质相互作用(PPI)网络(图8C)包括129个节点和49个边，从而产生了其中PPI富集p-值为0.0007的网络。尽管用作输入的蛋白质数量很少，但它是一个与巨噬细胞肿瘤中一个重要的通路(PI3K/AKT/mTOR)mTOR相关的重要枢纽。

三个信息性微卫星位点位于蛋白质编码序列中(图8A)；它们都是三核苷酸重复序列(RAI1、BCL6B、TNS1)。三核苷酸重复序列的变异被认为是神经系统和神经系统肌肉疾病的原因，诸如亨廷顿氏病、脊髓小脑性共济失调和脆性X综合征。其中两个基因(RAI1，BCL6B)是位于17号染色体短臂的转录因子，其缺失是MB肿瘤最常见亚组中的复发性改变。BCL6B基因与结肠癌、胃癌和肝癌相关，MB肿瘤的主要基因型为33/33，而对照为30/33(图16)；在此读取框架中，密码子CAG翻译成丝氨酸。RAI1(维甲酸诱导蛋白)编码功能未知的核蛋白，其单倍剂量不足导致史密斯-马吉斯综合征。MB肿瘤中RAI1的两种主要基因型是38/41和41/41，而在对照中它们是38/38和38/41(图16)。除了诱导RAI1蛋白质结构的变化，短聚谷氨酰胺扩增也被认为调节转录因子活性。RAI1蛋白在小脑中高度表达，小脑是MB肿瘤发生的区域。

在此研究中，一组139个MS被识别为具有MB患者和健康对照之间不同的基因型。43个MS的子集能够基于其种系DNA将MB个体与对照区分开来，灵敏度和特异性相应地为0.95和0.90。

此研究识别出3组微卫星：(a)43个微卫星，其共同区分髓母细胞瘤样本和健康对照；(b)139个微卫星，其基因型在髓母细胞瘤样本和健康对照之间存在统计差异；以及(c)422个微卫星，其在初始筛选中识别。全部三组中的微卫星都通过了错误发现。在初始筛选(c)中识别的一组微卫星包含283个对年龄、种族和/或DNA测序灵敏的；因此，没有在随后分析中使用。具有种族偏见的微卫星中的一些也可在髓母细胞瘤中发挥作用。包括髓母细胞瘤在内的许多疾病的患病率可以显示出种族差异。因此，一旦对导致髓母细胞瘤的遗传机制有了更多的了解，则对283个微卫星的重新检查可以是可行的。

此外，研究了139个微卫星组(b)与其43个微卫星子集(a)之间的关系：后者将髓母细胞瘤样本与健康对照区分开来，而前者则没有。43个微卫星集中的突变可以对基因表达产生更大影响；或携带这些微卫星的基因对疾病的发作有更大的影响。这可以通过在43个编码微卫星组中存在两个编码微卫星来支持；在这两种情况下，突变会直接影响蛋白质的一级结构，并且对二级结构和功能具有潜在影响。此外，所述组43个微卫星中有更大比例嵌入了5'和3'UTR区域；可能这些区域的MS对基因表达/翻译的影响更强。这些适应症可以通过对肿瘤组织中含有信息性微卫星的这些基因的表达研究来确定。

这些结果指示嵌入BCL6B和RAI1基因的聚谷氨酰胺微卫星可在髓母细胞瘤中发挥作用。在筛选的微卫星的完整列表中，仅181个聚谷氨酰胺微卫星(在627,174个中)。因此，仅偶然并不能解释在最终的43个信息性微卫星列表中存在2个；使用计算机模拟，估计此情况随机发生的概率近似为1,000,000分之1。其次，聚谷氨酰胺微卫星可在脊髓和延髓肌萎缩症、亨廷顿氏病和各种脊髓小脑性共济失调等疾病中发挥作用。此外，BCL6B和RAI1基因都可能与疾病相关；前者患有淋巴瘤，后者患有史密斯-马吉斯综合征。聚谷氨酰胺疾病的特征在于不溶性蛋白质聚集：这在一些癌症中是看不到的。另一方面，聚谷氨酰胺扩增可以根据受影响的蛋白质赋予功能的获得和损失。

此研究显示出两个总体结论。首先，识别的微卫星——特别是139个的集和43个的子集——可在髓母细胞瘤病因中发挥作用。微卫星阵列长度变化的影响包括对DNA二级结构、核小体定位和DNA结合位点的影响。识别的三个微卫星影响了蛋白质一级序列。微卫星可以辅助区分髓母细胞瘤患者和健康对照；分类方案显示出相应地为0.95和0.90的高灵敏度和特异性。

髓母细胞瘤的治疗可能会给幸存者留下终身负担，包括听力损失、认知缺陷、内分泌疾病以及中风和继发性恶性肿瘤的高风险。识别髓母细胞瘤发展的风险群体可以使早期检测策略成为可能，从而实现侵入性更低、更局限的肿瘤控制手段。然而，改善这些儿童生活的有效方法是防止他们的肿瘤形成。包括癌症疫苗在内的免疫疗法的最新进展创造了针对肿瘤特异性抗原免疫个体的潜力。此类战略可能需要选择适合此类干预的个人。

示例2：信息性微卫星标记识别

从公共领域数据库中获得患有病症的受试者(第一组)和健康对照者(第二组)的核酸序列样本。在两组中都识别出微卫星位点。比较微卫星以揭示仅在第一组中发现的微卫星位点的差异，并且与所述病症具体相关或关联。统计分析和建模被应用于这些不同的微卫星，用于它们与病症的相关性或关联性。在一些实例中，对微卫星进行统计上地加权。在一组微卫星已经被识别为与病症强关联之后，这些微卫星被组装到训练算法中，以进一步优化这些微卫星与病症关联的准确性、灵敏度和特异性。训练期间的微卫星可以随机重组以生成另外的微卫星组合。训练完成后，可以用另外的独立样本集来验证算法。

例如，癌症患者和对应健康对照的核酸序列相应地从癌症基因组图谱(TCGA)和千基因组计划下载。在两组中都识别出微卫星位点。两组之间的微卫星的比较揭示了仅在癌症患者组中发现并且与一种癌症类型特异性相关或关联的微卫星位点群体。然后对这些与癌症类型相关的微卫星进行训练算法，以提高这些微卫星与癌症相关的准确性、灵敏度和特异性。训练完成后，所述算法将通过所述组另外的样本进行验证，所述另外的样本集要么含有癌症，要么来自健康对照。验证后，所述算法可以应用于患者样本。

示例3：患者的风险评估

在常规健康检查期间从受试者分离血清样本。从血清样本提取DNA并且测序。对测序数据进行处理和分析，以产生受试者独有的一组微卫星。然后使用计算机实现的方法对此组微卫星进行分析，所述计算机实现的方法被设计成基于受试者的微卫星和来自泛癌症数据库的微卫星之间的比较来确定发展成癌症的风险。识别的信息性微卫星中的每一个都被分配了范围在0到1之间的权重。权重是基于所识别的微卫星的准确性、灵敏度和特异性而生成的。然后确定权重的总和，并且将其用于创建分类器，以确定发展成一种癌症的可能性。然后，泛癌症分类器针对发展多种癌症的多种可能性编译和报告多个分类器，用于受试者的风险评估。泛癌症分类器提供受试者发生癌症(例如乳腺癌、肺癌、前列腺癌、宫颈腺癌、多形性胶质母细胞瘤、子宫内膜癌、结肠腺癌、膀胱、尿路上皮癌、头颈鳞状细胞癌、宫颈鳞状细胞癌和宫颈腺癌、胃腺癌、甲状腺癌、脑低级胶质瘤、肾肾乳头状细胞癌和肝细胞癌)的可能性的风险评估。

通过实验室报告通知受试者风险评估(图5和图17)。患者、医疗保健专业人员和血清样本的信息与测试概要一起列出。概要揭示，尽管受试者目前没有癌症，但受试者的基因组中有若干已识别的微卫星增加了受试者发展肺癌的可能性。发展为肺癌的可能性的分类器包括数字输出并且与发展为肺癌的可能性的阈值进行比较。发生肺癌的可能性的阈值为0.3，1个标准偏差范围为0.1和0.5(图24)。受试者发展肺癌的可能性的分类器是2.3，这指示受试者将来发展癌症的可能性很高。因此，对受试者的肺和呼吸系统给予了另外的临床关注。建议定期进行更常规的肺部成像。还建议受试者不要开始吸烟，并且避免长时间暴露在某些含有已知雾化致癌物的环境中。此外，概要提供风险评估参数的概述，例如，所使用的统计方法和阈值的类型以及所分析的微卫星位点的数量。

示例4：使用次要等位基因测量基因组年龄

来自原代皮肤成纤维细胞的DNA样本是从17岁并且还有30岁的受试者获得的。构建DNA-seq文库，随后使用下一代测序平台测序，并且映射到hg19。可以进行富集以富集群体中倾向于出现次要等位基因的热点。具有最少5个读数的次要等位基因通过桑格测序独立确认。对真阳性次要等位基因进行分析和加权。次要等位基因出现的位置的示例包括基因的上游或下游、外显子区域、基因间区域、跨越内含子和外显子的区域、3'UTR和5'UTR。次要等位基因可以是非同义变异、同义变异、移码插入缺失、非移码插入缺失、停止增益、停止丢失或其组合。

通过计算机实现的方法分析从17岁获得的样本和hg19参考序列之间的比较获得的次要等位基因，以揭示基因组年龄。次要等位基因或次要等位基因的位点的数量的增加会导致基因组年龄比受试者的真实年龄和身体健康状况更老化。可以将在17岁和30岁从同一受试者获得的样本相互比较，以揭示同一受试者内次要等位基因模式的另外的积累或转移。比较17岁和30岁之间的次要等位基因揭示，受试者的次要等位基因总数略有增加。此增加通过计算机实现的方法进行分析，以揭示受试者的基因组老化的加速率。因此，建议受试者采用强调营养平衡和减少精神压力的某种生活方式。

尽管本文已经示出和描述了本示例的优选方面，但是对于本领域技术人员来说，显然此类方面仅作为示例提供。在不脱离本公开的情况下，本领域技术人员现在将想到许多变化、改变和替换。应理解，在实践本公开时，可以采用本文所描述的本公开各方面的各种替代方案。以下根据权利要求意图限定本公开的范围，并且由此涵盖在这些根据权利要求及其等效物的范围内的方法和结构。

Claims

1.一种用于构建病症的优化的分类器的计算机实现的方法，所述方法包括在多个优化周期中将多个微卫星的子集排序为针对所述病症的分类器，其中所述多个微卫星的所述子集包括与所述病症相关的微卫星的初始群体中的微卫星，从而将所述微卫星的子集的优化子集识别为所述病症的所述优化的分类器。

2.根据权利要求1所述的方法，还包括比较来自患有所述病症的受试者的第一组样本中的微卫星和来自未患有所述病症的受试者的第二组样本中的微卫星，从而识别微卫星的所述初始群体。

3.根据权利要求1所述的方法，其中所述排序包括将所述微卫星的子集与来自具有所述病症的受试者的样本中的微卫星和来自未患有所述病症的受试者的样本中的微卫星进行比较。

4.根据权利要求1所述的方法，还包括初始化，其中所述初始化包括从所述微卫星的初始群体中随机选择微卫星的初始子集的群体，用于在所述多个优化周期的优化周期中排序。

5.根据权利要求1所述的方法，其中在所述多个优化周期中使用所述微卫星的初始群体的至少100个子集的群体。

6.根据权利要求1所述的方法，其中在微卫星的所述子集的子集中，微卫星的最小的数量是8。

7.根据权利要求1所述的方法，其中在微卫星的所述子集的子集中，微卫星的最大数量是64。

8.根据权利要求1所述的方法，其中在微卫星的所述子集的子集中不允许有重复的微卫星。

9.根据权利要求1所述的方法，其中所述排序包括使用(i)微卫星的所述子集、(ii)来自患有所述病症的受试者的样本中的微卫星、以及(iii)来自未患有所述病症的受试者的样本中的微卫星来执行接收器操作特征(ROC)分析。

10.根据权利要求9所述的方法，其中在所述多个优化循环的优化循环中的排序包括：确定作为所述病症的分类器的所述子集的每个子集中的微卫星的灵敏度和特异性的总和。

11.根据权利要求10所述的方法，其中所述多个优化周期的优化周期包括：将微卫星的所述初始群体的10个新子集添加到来自所述多个优化周期的先前优化周期的子集。

12.根据权利要求11所述的方法，其中所述10个新子集中的7个是通过随机拆分和重组来自所述先前优化周期的2个随机选择的子集而生成的，并且所述10个新子集中的3个是通过从所述微卫星的所述初始群体随机选择微卫星而生成的。

13.根据权利要求12所述的方法，还包括至少部分地基于在所述优化周期中具有最低排序，在所述优化周期中丢弃子集的10个子集。

14.根据权利要求1所述的方法，其中所述病症包括受试者健康状态的存在或不存在。

15.根据权利要求1所述的方法，其中所述病症包括受试者发展为健康状态的可能性增加或减少。

16.根据权利要求1所述的方法，其中所述病症包括受试者受益于健康状态的治疗的可能性增加或减少。

17.根据权利要求1所述的方法，其中所述病症包括受试者因健康状态的治疗而具有增加的不利影响风险的可能性增加或减少。

18.根据权利要求1所述的方法，其中所述病症包括受试者对健康状态的治疗的响应性。

19.根据权利要求1所述的方法，其中所述病症包括受试者健康状态的预后。

20.根据权利要求14至19中任一项所述的方法，其中所述健康状态是癌症。

21.根据权利要求20所述的方法，其中所述癌症是肺癌。

22.根据权利要求14至19中任一项所述的方法，其中所述健康状态是神经系统疾病。

23.根据权利要求14至19中任一项所述的方法，其中所述健康状态是心血管疾病。

24.一种计算机实现的方法，包括使用多个参数来确定来自受试者的样本的病症的分类器的值，其中所述多个参数中的每一个参数是来自患有所述病症的受试者的样本或来自未患有所述病症的受试者的样本的多个微卫星中的每一个的相关性的统计测量。

25.根据权利要求24所述的方法，其中所述多个参数包括多个权重。

26.根据权利要求25所述的方法，其中所述多个权重包括多个最佳权重。

27.根据权利要求26所述的方法，其还包括确定所述多个最佳权重。

28.根据权利要求27所述的方法，其中所述确定所述多个最佳权重包括对所述多个权重应用标准回归分析。

29.根据权利要求24所述的方法，其中所述确定所述多个最佳权重包括使用遗传算法。

30.根据权利要求24所述的方法，其中确定所述分类器的所述值包括使用次要等位基因频率数据。

31.根据权利要求24所述的方法，其中所述多个微卫星包括至少10个微卫星。

32.根据权利要求24所述的方法，其中所述多个微卫星中的每一个都与所述病症相关。

33.根据权利要求24所述的方法，其还包括将所述分类器的所述值与阈值进行比较。

34.根据权利要求24所述的方法，其中所述病症包括受试者健康状态的存在或不存在。

35.根据权利要求24所述的方法，其中所述病症包括受试者发展为健康状态的可能性增加或减少。

36.根据权利要求24所述的方法，其中所述病症包括受试者受益于健康状态的治疗的可能性增加或减少。

37.根据权利要求24所述的方法，其中所述病症包括受试者因健康状态的治疗而具有增加的不利影响风险的可能性增加或减少。

38.根据权利要求24所述的方法，其中所述病症包括受试者对健康状态的治疗的响应性。

39.根据权利要求34至38中任一项所述的方法，其中所述病症是癌症、心血管病症或神经系统病症。

40.根据权利要求39所述的方法，其中所述癌症是肺癌。

41.一种确定受试者的基因组年龄的计算机实现的方法，所述方法包括：

a)确定来自受试者的第一样本中的微卫星次要等位基因特征；

b)利用一参考来处理所述微卫星次要等位基因特征；以及

c)基于所述处理确定所述受试者的所述基因组年龄。

42.根据权利要求41所述的方法，其中所述处理包括将所述微卫星次要等位基因特征与所述参考进行比较。

43.根据权利要求41所述的方法，其中所述次要等位基因特征是遗传座处的多个次要等位基因。

44.根据权利要求43所述的方法，其中次要等位基因的所述数量由至少三个下一代测序序列读数支持。

45.根据权利要求41所述的方法，其中所述次要等位基因特征是次要等位基因的读数总数，其被标准化为遗传座处主要等位基因的读数总数。

46.根据权利要求41所述的方法，还包括对来自所述受试者的所述第一样本执行下一代测序，以生成所述受试者的微卫星的序列读数。

47.根据权利要求46所述的方法，其中所述第一样本包括血液、唾液或肿瘤。

48.根据权利要求45所述的方法，还包括：在操作c)之后，确定来自所述受试者的第二样本中的次要等位基因特征。

49.根据权利要求47所述的方法，还包括：评估来自所述受试者的所述第一样本中的所述次要等位基因特征和来自所述受试者的所述第二样本中的所述次要等位基因特征，并且基于所述评估确定所述受试者的基因组老化速率。

50.一种计算机实现的方法，包括：

a)使用来自所述受试者的所述样本中的微卫星来确定来自受试者的样本的多个分类器；

b)针对多种病症用多个参考分类器处理所述多个分类器；以及

c)基于所述处理，从所述多种病症中为所述受试者确定至少一种病症。

51.根据权利要求50所述的方法，其中所述处理包括针对所述多种病症将所述多个分类器与所述多个参考分类器进行比较。

52.根据权利要求50所述的方法，其中所述多种病症中的所述至少一种病症包括所述受试者的多种健康状态中的至少一种健康状态的存在或不存在。

53.根据权利要求50所述的方法，其中所述多种病症中的所述至少一种病症包括从所述受试者的多种健康状态中发展出至少一种健康状态的可能性增加或减少。

54.根据权利要求50所述的方法，其中所述多种病症中的所述至少一种病症包括所述受试者受益于所述受试者的多种健康状态中的至少一种健康状态的治疗的可能性增加或减少。

55.根据权利要求50所述的方法，其中所述多种病症中的所述至少一种病症包括所述受试者的多种健康状态中的至少一种健康状态的治疗导致所述受试者具有不利影响风险的可能性增加或减少。

56.根据权利要求50所述的方法，其中所述多种病症中的所述至少一种病症包括所述受试者对针对所述受试者的多种健康状态中的至少一种健康状态的治疗的响应性。

57.根据权利要求51至56中任一项所述的方法，其中所述多种健康状态包括多种癌症。

58.根据权利要求57所述的方法，其中所述多种癌症包括卵巢癌、乳腺癌、低级胶质瘤、胶质母细胞瘤、肺癌、前列腺癌或黑色素瘤。

59.根据权利要求50所述的方法，其中所述多种健康状态包括多种神经系统疾病或多种心血管疾病。

60.一种包括可执行指令的非暂时性计算机可读介质，当所述可执行指令由一个或多个处理器执行时，使得所述一个或多个处理器执行根据权利要求1至59中任一项所述的方法。

61.一种包括硬件处理器的计算机系统，所述硬件处理器被配置为执行根据权利要求60的所述非暂时性计算机可读介质上的所述指令。