CN107922973B

CN107922973B - 用于基于测序的变型检测的方法和系统

Info

Publication number: CN107922973B
Application number: CN201680051340.4A
Authority: CN
Inventors: 格兰达·G·安德森; 查理·C·金
Original assignee: Visionary Genome Systems Corp
Current assignee: Visionary Genome Systems Corp
Priority date: 2015-07-07
Filing date: 2016-07-07
Publication date: 2019-06-14
Anticipated expiration: 2036-07-07
Also published as: GB2555551A; WO2017007903A1; US20180218789A1; HK1252804A1; HK1252804B; GB201800793D0; GB201819855D0; CN107922973A; US20200203014A1

Abstract

本文提供了用于从测序数据检测遗传性变型的方法和系统。本文提供的方法和系统可用于从测序数据集鉴别临床可行变型的存在或不存在，并向该方法和系统的用户报告该临床可行变型。

Description

用于基于测序的变型检测的方法和系统

交叉引用

本申请要求于2015年7月7日提交的美国临时申请号62/189,555的权益，该申请通过引用以其全文并入本文。

发明背景

测序正在迅速成为实体瘤的诊断检查中的重要工具。在临床开发流程中的超过700种肿瘤药物中，预计73％需要生物标志物。区分临床可行变型的真实存在和真实不存在的能力可能在个性化医疗领域中是有用的。然而，当前的变型判定算法和方法不能准确地鉴别变型的不存在。这种局限对实验室验证方法具有不利后果，该实验室验证方法需要真正的肯定和真正的否定判定来量化测试的灵敏度和特异性。这种局限对临床决策制定产生不利影响，最显著的是其不存在将指导治疗的选择的变型。需要改进的软件系统来管理多标志物测试的复杂性。

发明内容

在一个方面，提供了用于检测遗传性变型(genetic variant)的存在或不存在的方法，该方法包括：a)接收包含由来自受试者的核酸样品生成的测序数据的数据输入；b)从测序数据确定遗传性变型的存在或不存在，其中所述确定包括为包含遗传性变型的基因组区域分配质量评分，其中所述分配由计算机处理器执行；c)根据质量评分将遗传性变型分类以生成分类的遗传性变型；以及d)输出基于所述分类的结果，从而鉴别分类的遗传性变型。在一些情况下，所述分类进一步包括如果确定遗传性变型存在并且包含遗传性变型的基因组区域的质量评分大于预先确定的阈值，则将所述遗传性变型分类为存在。在一些情况下，所述分类进一步包括如果确定遗传性变型不存在并且包含遗传性变型的基因组区域的质量评分大于预先确定的阈值，则将所述遗传性变型分类为不存在。在一些情况下，所述分类进一步包括如果包含遗传性变型的基因组区域的质量评分小于预先确定的阈值，则将所述遗传性变型分类为不确定。在一些情况下，所述输出结果包括生成报告，其中所述报告鉴别所述分类的遗传性变型。在一些情况下，所述方法进一步包括将测序数据映射(mapping)到参考序列。在一些情况下，所述参考序列为共有参考序列(consensusreference sequence)。在一些情况下，根据经验从肿瘤测序数据得到参考序列。在一些情况下，预先确定的阈值包括包含所述遗传性变型的基因组区域的覆盖深度。在一些情况下，所述覆盖深度为至少10X。在一些情况下，所述覆盖深度为至少20X。在一些情况下，所述覆盖深度为至少30X。在一些情况下，所述覆盖深度为至少50X。在一些情况下，所述覆盖深度为至少100X。在一些情况下，预先确定的阈值包括置信度评分。在一些情况下，所述置信度评分为至少95％。在一些情况下，所述置信度评分为至少99％。在一些情况下，遗传性变型包括临床可行变型。在一些情况下，所述鉴别所述分类的遗传性变型进一步指示根据分类的遗传性变型针对受试者的治疗。在一些情况下，所述受试者患有疾病。在一些情况下，所述疾病为癌症。在一些情况下，根据所述结果向所述受试者施用治疗。在一些情况下，临床可行变型在改变受试者对疗法的反应的基因中。在一些情况下，所述基因为癌基因。在一些情况下，临床可行变型的存在指示所述受试者是特定疗法的候选者。在一些情况下，临床可行变型的不存在指示所述受试者不是特定疗法的候选者。在一些情况下，所述核酸样品来源于血液或唾液。在一些情况下，所述核酸样品来源于实体瘤。在一些情况下，所述核酸样品为基因组DNA。在一些情况下，所述基因组DNA为肿瘤DNA。在一些情况下，所述核酸样品为RNA。在一些情况下，所述RNA为肿瘤RNA。在一些情况下，所述核酸样品来源于循环肿瘤细胞。在一些情况下，所述核酸样品包含无细胞核酸。在一些情况下，所述遗传性变型为基因扩增、插入、缺失、易位或单核苷酸多态性。在一些情况下，所述测序数据包含靶标富集的测序数据。在一些情况下，所述靶标富集的测序数据包含全外显子组测序数据。在一些情况下，所述测序数据包含全基因组测序数据。在一些情况下，所述分类具有至少99％的灵敏度。在一些情况下，所述分类具有至少99％的特异性。在一些情况下，当被分类为存在时，所述遗传性变型具有至少5％的突变等位基因分数。在一些情况下，当被分类为存在时，所述遗传性变型具有至少10％的突变等位基因分数。在一些情况下，所述分类具有至少99％的阳性预测值。在一些情况下，所述质量评分基于覆盖深度、映射质量或碱基判定质量中的至少一个。在一些情况下，根据经验确定所述质量评分。在一些情况下，所述方法进一步包括经网络传送所述结果。在一些情况下，所述网络为因特网。在一些情况下，所述方法进一步包括在步骤a)之前对来自所述受试者的核酸样品进行测序，以生成所述测序数据。在一些情况下，所述方法进一步包括重新查询所述测序数据以确定一个或多个另外的遗传性变型的存在或不存在，包括为包含所述一个或多个另外的遗传性变型的一个或多个基因组区域中的每一个分配质量评分，其中如果所述质量评分大于预先确定的阈值，则所述质量评分被分类为充足，并且其中如果所述质量评分低于预先确定的阈值，则所述质量评分被分类为不充足。在一些情况下，通过所述遗传性变型的特定位置处的总读取深度，含有所述遗传性变型的读取的比例，所述遗传性变型的位置处的非变异碱基判定的平均质量以及变异碱基判定的平均质量的差异来确定所述质量评分。在一些情况下，通过机器学习算法确定所述质量评分。在一些情况下，所述方法用作临床诊断。

在另一个方面，提供了修改测序方案的方法，该方法包括：a)接收包含由所述测序方案生成的测序数据的数据输入；b)从所述测序数据确定遗传性变型的存在或不存在，其中所述确定包括为包含所述遗传性变型的基因组区域分配质量评分，其中所述分配由计算机处理器执行；c)根据质量评分将所述遗传性变型分类以生成分类的遗传性变型；d)输出基于所述分类的结果，从而鉴别所述分类的遗传性变型。在一些情况下，如果确定遗传性变型存在并且所述质量评分大于预先确定的阈值，则将所述遗传性变型分类为存在。在一些情况下，如果确定所述遗传性变型不存在并且质量评分大于预先确定的阈值，则将所述遗传性变型分类为不存在。在一些情况下，如果所述质量评分低于预先确定的阈值，则进行对所述测序方案的修改。在一些情况下，所述输出结果包括生成报告，其中所述报告鉴别所述分类的遗传性变型。在一些情况下，所述方法进一步包括将所述测序数据映射到参考序列。在一些情况下，所述参考序列为共有参考序列。在一些情况下，根据经验从肿瘤测序数据得到参考序列。在一些情况下，所述遗传性变型为临床可行变型。在一些情况下，所述临床可行变型在改变所述受试者对疗法的反应的基因中。在一些情况下，对所述测序方案的修改包括对探针、引物或反应条件中的至少一个的修改。在一些情况下，实时生成所述报告。在一些情况下，所述预先确定的阈值包括包含所述遗传性变型的基因组区域的覆盖深度。在一些情况下，所述覆盖深度为至少10X。在一些情况下，所述覆盖深度为至少20X。在一些情况下，所述覆盖深度为至少30X。在一些情况下，所述覆盖深度为至少50X。在一些情况下，所述覆盖深度为至少100X。在一些情况下，所述预先确定的阈值包括置信度评分。在一些情况下，所述置信度评分为至少95％。在一些情况下，所述置信度评分为至少99％。在一些情况下，所述质量评分基于覆盖深度、映射质量或碱基判定质量中的至少一个。在一些情况下，根据经验确定质量评分。在一些情况下，从核酸生成所述测序数据。在一些情况下，所述核酸为基因组DNA。在一些情况下，所述测序方案包括靶标富集方案。在一些情况下，所述靶标富集方案包括靶标特异性引物和靶标特异性探针中的至少一个。在一些情况下，所述修改包括对所述靶标特异性引物和所述靶标特异性探针中的至少一个的修改。在一些情况下，所述方法进一步包括接收包含由所述修改的测序方案生成的第二测序数据的第二数据输入。在一些情况下，通过所述结果确定对所述测序方案的修改。在一些情况下，所述方法进一步包括在步骤a)之前对来自所述受试者的核酸样品进行测序，以生成测序数据。在一些情况下，对包含所述遗传性变型的核酸样品进行测序反应。在一些情况下，所述核酸样品是从受试者中分离的。在一些情况下，所述受试者患有疾病。在一些情况下，所述疾病为癌症。在一些情况下，所述方法进一步包括在测序反应之前富集包含所述遗传性变型的核酸序列。在一些情况下，所述富集包括使至少一个靶标特异性探针与包含所述遗传性变型的核酸序列杂交。在一些情况下，所述富集包括扩增包含所述遗传性变型的核酸序列。在一些情况下，所述扩增包括使靶标特异性引物与包含所述遗传性变型的核酸样品杂交。在一些情况下，所述遗传性变型在外显子中。在一些情况下，所述方法进一步包括经网络传送所述结果。在一些情况下，所述网络为因特网。

在另一个方面，提供了用于报告遗传性变型的存在或不存在的系统，该系统包括：a)被配置为接收包含由来自受试者的核酸样品生成的测序数据的数据输入的至少一个存储器单元；b)与所述至少一个存储器单元可操作地耦合的计算机处理器，其中所述计算机处理器被编程为(i)从测序数据确定所述遗传性变型的存在或不存在，其中所述确定包括为包含所述遗传性变型的基因组区域分配质量评分，以根据所述质量评分生成分类的遗传性变型；以及(ii)生成输出，其中所述输出鉴别所述分类的遗传性变型。在一些情况下，如果确定所述遗传性变型存在并且所述质量评分大于预先确定的阈值，则将所述遗传性变型分类为存在。在一些情况下，如果确定所述遗传性变型不存在并且所述质量评分大于预先确定的阈值，则将所述遗传性变型分类为不存在。在一些情况下，如果所述质量评分小于预先确定的阈值，则将所述遗传性变型分类为不确定。在一些情况下，所述输出包含鉴别所述分类的遗传性变型的报告。在一些情况下，将所述报告递送至用户界面进行显示。在一些情况下，所述计算机处理器被编程为将测序数据映射到参考序列。在一些情况下，所述参考序列为共有参考序列。在一些情况下，根据经验从肿瘤测序数据得到参考序列。在一些情况下，所述遗传性变型为临床可行变型。在一些情况下，所述临床可行变型在改变受试者对疗法的反应的基因中。在一些情况下，所述报告根据所述分类的遗传性变型推荐治疗。在一些情况下，通过覆盖深度、映射质量和碱基读取质量中的至少一个来确定质量评分。在一些情况下，根据经验确定所述质量评分。在一些情况下，所述受试者患有疾病。在一些情况下，所述疾病为癌症。在一些情况下，所述受试者易患癌症。在一些情况下，所述测序数据包含靶标富集的测序数据。在一些情况下，所述靶标富集的测序数据包含全外显子组测序数据。在一些情况下，从靶标富集测序方案生成靶标富集的测序数据。在一些情况下，如果所述遗传性变型被分类为不确定，则进行对所述靶标富集测序方案的修改。在一些情况下，所述至少一个存储器单元被配置为接收包含由对所述靶标富集测序方案的修改生成的第二测序数据的第二数据输入。在一些情况下，对所述靶标富集方案的修改包括对靶标特异性引物和靶标特异性探针的至少一个修改。在一些情况下，所述用户界面被配置为使用户能够选择变型测试小组(panel)。在一些情况下，所述计算机处理器被编程为确定选自所述变型测试小组的遗传性变型的存在或不存在。在一些情况下，所述用户界面被配置为使用户能够修改变型测试小组。在一些情况下，所述用户界面被配置为使用户能够在变型测试小组中添加或去除至少一个遗传性变型。在一些情况下，所述用户界面与至少一个数据库可操作地耦合。在一些情况下，所述用户界面接收来自所述至少一个数据库的数据输入。在一些情况下，所述变型测试小组根据来自至少一个数据库的数据输入实时更新。在一些情况下，所述变型测试小组包含至少一个临床可行变型。

在又一个方面，提供了一种系统，其包括：a)客户端组件，其中所述客户端组件包含用户界面；b)服务器组件，其中所述服务器组件包含被配置为接收包含从核酸样品生成的测序数据的数据输入的至少一个存储器单元；c)与服务器组件可操作地耦合的用户界面；以及d)与所述至少一个存储器单元可操作地耦合的计算机处理器，其中所述计算机处理器被编程为将测序数据映射到参考序列，并为映射的测序数据的多个感兴趣基因组区域中的每一个分配质量评分。在一些情况下，(i)用户界面被编程为使用户能够选择至少一个遗传性变型并将所述选择传送到服务器组件，其中所述遗传性变型位于多个感兴趣基因组区域中的至少一个内；(ii)所述计算机处理器被编程为返回包含所述至少一个遗传性变型的所述多个感兴趣基因组区域中的至少一个的质量评分；并且(iii)所述计算机处理器被编程为将所述多个感兴趣基因组区域中的至少一个的质量评分与预先确定的阈值进行比较，其中如果所述质量评分大于所述预先确定的阈值，则所述质量评分被报告为充足，并且其中如果所述质量评分低于所述预先确定的阈值，则所述质量评分被报告为不充足，并且如果所述质量评分被报告为充足，则计算机处理器被编程为确定所述至少一个遗传性变型中每一个的存在或不存在。在一些情况下，如果确定所述遗传性变型存在并且质量评分大于所述预先确定的阈值，则将所述遗传性变型分类为存在。在一些情况下，如果确定遗传性变型不存在并且所述质量评分大于所述预先确定的阈值，则将所述遗传性变型分类为不存在。在一些情况下，如果所述质量评分被报告为不充足，则所述计算机处理器被编程为将所述至少一个遗传性变型翻译成至少一个染色体位置。在一些情况下，所述服务器组件将所述至少一个染色体位置传送到第三方服务器组件。在一些情况下，通过覆盖深度、映射质量和碱基质量中的至少一个来确定所述质量评分。

在另一个方面，提供了一种方法，其包括：(a)接收包含由来自受试者的核酸样品生成的测序数据的数据输入，其中在所述接收之前，已分析了测序数据并已鉴别了一个或多个遗传性变型的存在或不存在，从而生成测序数据的原始分析；(b)为所述测序数据的一个或多个基因组区域中的每一个分配质量评分，所述一个或多个基因组区域包含一个或多个遗传性变型中的至少一个，其中所述分配由计算机处理器执行；(c)根据所述质量评分评估一个或多个遗传性变型的原始分析；以及(d)输出基于所述评估的结果，其中所述评估进一步包括如果包含所述遗传性变型的基因组区域的质量评分大于预先确定的阈值，则将所述一个或多个遗传性变型中的遗传性变型的原始分析鉴别为准确，并且其中所述评估进一步包括如果包含所述遗传性变型的基因组区域的质量评分小于预先确定的阈值，则将所述一个或多个遗传性变型中的遗传性变型的原始分析鉴别为不准确。在一些情况下，如果遗传性变型的原始分析被鉴别为不准确，则所述方法进一步包括推荐对测序方案的修改。在一些情况下，所述预先确定的阈值包括包含所述遗传性变型的基因组区域的覆盖深度。在一些情况下，所述覆盖深度为至少10X。在一些情况下，所述覆盖深度为至少20X。在一些情况下，所述覆盖深度为至少30X。在一些情况下，所述覆盖深度为至少50X。在一些情况下，所述覆盖深度为至少100X。在一些情况下，所述预先确定的阈值包括置信度评分。在一些情况下，所述置信度评分为至少95％。在一些情况下，所述置信度评分为至少99％。

援引并入

本说明书中所提到的所有出版物、专利和专利申请均通过引用并入本文，其程度如同特别地且单独地指出每个单独的出版物、专利或专利申请通过引用而并入。

附图说明

本发明的新颖特征在所附权利要求中特别地描述。通过参考以下对利用了本发明的原理的说明性实施方案进行阐述的详细描述以及附图，将获得对本发明的特征和优点的更好的理解，在附图中：

图1描绘了用于执行本文公开的方法的计算机系统。

图2描绘了可通过本文公开的方法和系统生成的报告的非限制性实例。

图3描绘了可通过本文公开的方法和系统生成的报告的非限制性实例。

图4描绘了可通过本文公开的方法和系统生成的报告的非限制性实例。

图5描绘了可通过本文公开的方法和系统生成的报告的非限制性实例。

图6描绘了本文所述的示例性研究设计的非限制性实例。

图7描绘了采用本文公开的方法和系统对临床可行变型的鉴别。

图8描绘了说明本文公开的方法和系统的执行的混淆矩阵。

图9描绘了代表12个群组的EGFR覆盖分析的盒须图(box and whisker plot)。

具体实施方式

本公开内容的方法

本文的公开内容提供了用于从测序数据确定遗传性变型的存在或不存在的方法。所述方法可包括接收包含由来自受试者的核酸样品生成的测序数据的数据输入。所述方法可进一步包括从测序数据确定遗传性变型的存在或不存在。所述确定步骤可包括评估包含遗传性变型的基因组区域的数据质量评分。所述确定步骤可进一步包括根据基因组区域的数据质量评分将遗传性变型分类，以生成分类的遗传性变型。所述方法可进一步包括生成报告。所述报告可鉴别分类的遗传性变型。在一些情况下，如果确定遗传性变型存在并且包含遗传性变型的基因组区域的数据质量评分大于预先确定的阈值，则将所述遗传性变型分类为存在。在其他情况下，如果确定遗传性变型不存在并且包含遗传性变型的基因组区域的数据质量评分大于预先确定的阈值，则将所述遗传性变型分类为不存在。在其他情况下，如果包含遗传性变型的基因组区域的数据质量评分小于预先确定的阈值，则将所述遗传性变型分类为不确定。

本文提供的方法可用于诊断受试者的疾病。该方法可进一步根据诊断提供治疗计划或建议。在一些情况下，该方法可用来预测疾病对特定疗法的反应性。本文公开的方法利用从核酸样品生成的测序数据并鉴别遗传性变型的存在或不存在。变型的不存在或存在可指示疾病对特定疗法的反应性或缺乏反应性。可生成鉴别变型的存在或不存在的报告以及基于变型的存在或不存在的治疗建议。

在一些方面，本文提供了用于确定受试者中遗传性变型的存在或不存在的方法。受试者可提交包含核酸的生物样品。受试者可以是健康的或者可以患有疾病。在一些情况下，受试者可能易于发展疾病。在特定情况下，受试者患有癌症或易于发展癌症。在一些情况下，受试者被诊断为患有癌症。受试者可具有实体瘤，并且可采集样品(即，作为活检物)。在一些情况下，本文公开的方法可被医师或医疗保健提供者预订(order)(例如，作为基因检测)。在一些情况下，本文公开的方法可被临床实验室(例如，根据临床实验室改进修正案(Clinical Laboratory Improvement Amendments，CLIA)认证的实验室)预订。生物样品可以是取自受试者的组织或细胞(即，血液、面颊细胞)或由受试者产生的物质(即，唾液、尿液)。在一些情况下，生物样品为肿瘤的活检物。在一些情况下，样品为福尔马林固定的、石蜡包埋(FFPE)的组织样品。生物样品通常将包含核酸分子。核酸分子可以是DNA或RNA或其任何组合。RNA可包括mRNA、miRNA、piRNA、siRNA、tRNA、rRNA、sncRNA、snoRNA等。DNA可包括cDNA、基因组DNA、线粒体DNA、核外体DNA、病毒DNA等。在特定情况下，DNA为基因组DNA。核酸可从生物细胞中分离或者可以是无细胞核酸(即，循环DNA)。在特定的实例中，DNA为肿瘤DNA。在其他特定的实例中，RNA为肿瘤RNA。在一些情况下，DNA为胎儿DNA。

生物样品可通过任何数目的步骤进行处理和分析以确定疾病的存在或不存在。该方法可包括分析生物样品中生物标志物的存在或不存在。生物标志物的存在或不存在可指示疾病或发展疾病的倾向。生物标志物的存在或不存在可指示疾病对特定疗法可能有反应。在其他情况下，生物标志物的存在或不存在可指示疾病对特定疗法可能是难治性的。生物标志物可以是任何基因或基因的变型，其存在、突变、缺失、置换、拷贝数或翻译(即，翻译为蛋白质)是疾病状态的指示。在特定的实例中，生物标志物为遗传性变型。如本文所用的术语“变型”、“遗传性变型”或“核苷酸变型”通常是指核酸分子内的多态性。多态性可包括一个或多个插入、缺失、结构变型(例如，易位、拷贝数变异)、可变长度串联重复、单核苷酸突变或其组合。在一些情况下，遗传性变型为临床可行变型。“临床可行变型”可以是已被鉴别为与临床环境有关的任何遗传性变型。临床可行变型可以在基因的编码区中或者可以在基因组的非编码区中。基因组的非编码区可以是基因的调节区。临床可行变型可以在基因的外显子中或者可以在基因的内含子中。临床可行变型可改变基因的表达或者可改变基因产物的功能(即，蛋白质的功能)。临床可行变型可调节与疾病有关的基因。在特定的实例中，临床可行变型改变已知癌基因的表达或功能。在一些情况下，临床可行变型改变蛋白质对疗法的反应。例如，临床可行变型可指示蛋白质对特定疗法是难治性的(例如，抗原中的变型，使得抗体疗法不再识别该抗原)。临床可行变型可以在靶基因中或调节靶基因，或者可以在除靶基因之外的基因中或调节除靶基因之外的基因。除靶基因之外的基因可以是参与药物代谢的基因、参与药物输送的基因、与对特定药物的良好反应有关的基因、DNA修复基因、增加不良事件的严重程度的基因以及改变药物的有效性的基因。

可以通过本领域技术人员已知的任何方法来处理和/或分析核酸分子。在特定情况下，对核酸分子进行测序以生成测序数据。可通过任何已知的测序方法(例如，Illumina)生成测序数据。可由靶向测序方法或未靶向测序方法生成测序数据。术语“靶标特异性”、“靶向”和“特异性”可互换使用并且通常是指作为感兴趣区域的基因组子集或包含特异性基因或基因组区域的基因组子集。靶向测序方法可允许在测序之前选择性地捕获来自核酸样品的感兴趣的基因组区域。靶向测序涉及样品制备的替代方法，该方法产生代表所需的基因组子集或富集(“靶标富集”)所需的基因组子集的文库。靶向测序可以是例如全外显子组测序。术语“未靶向测序”或“非靶向测序”可互换使用并且通常是指不靶向或富集核酸样品中感兴趣的区域的测序方法。术语“未靶向序列”、“非靶向序列”或“非特异性序列”通常是指不在感兴趣的区域中的核酸序列，或者是指通过不靶向或富集核酸样品中感兴趣的区域的测序方法生成的序列数据。未靶向测序可以是例如全基因组测序。术语“未靶向序列”、“非靶向序列”或“非特异性序列”还可以指在感兴趣的区域以外的序列。在一些情况下，通过靶向测序方法生成的测序数据不仅可以包含靶向序列，而且还可以包含未靶向序列。

所述方法包括接收包含由来自受试者的核酸样品生成的测序数据的数据输入。在一些情况下，所述方法提供了接收包含靶向测序数据、未靶向测序数据或两者的组合的数据输入。在一些情况下，所述方法提供了接收包含外显子测序数据、非外显子测序数据或两者的组合的数据输入。可以以本公开内容的测序方法生成的任何文件格式接收(即，通过计算机)测序数据。测序数据可包含附加信息。例如，测序数据可包含核苷酸序列及其相应的质量评分(即，FASTQ文件格式)。

所述方法提供了分析测序数据。可通过一种或多种分析方法来分析测序数据。在一些情况下，可将测序数据映射到参考序列。参考序列可以是规范参考序列。规范参考序列可以在例如数据库(例如，GENCODE、UCSC或EMBL)中找到。在其他情况下，可根据经验从测序数据(例如，从肿瘤测序数据)得到参考序列。在该实例中，可使用来自已在一致的实验室条件下测序的大量相似癌症样品(例如，来自癌症基因组图谱(TCGA)研究的全部肺样品)的读取数据来产生参考序列。在一些情况下，可在应用序列比对算法(例如，Feng-Doolittle、Barton-Strenberg、Gotoh、CLUSTALW等)之前将每个样品与规范参考序列进行比对。所得树的根节点可代表根据经验得到的肿瘤参考序列。在一些情况下，利用Baum-Welch、Viterbi或使用模拟退火或共有基序查找的相关方法的组合，通过剖面(profile)隐马尔可夫模型(HMM)训练根据未比对的读取进行多序列比对。在一些情况下，可通过利用简单的“最佳匹配”比对算法将读取子集化成基因或基序组，来显著降低计算复杂性。然后可以在每个子集内进行多序列比对以产生基因特异性或基序特异性的根据经验得到的肿瘤参考序列。

所述方法进一步提供了从测序数据确定遗传性变型的存在或不存在。在一些情况下，遗传性变型可以是临床可行变型。确定遗传性变型的存在或不存在可包括为包含遗传性变型的基因组区域分配质量评分，以及根据所述质量评分将遗传性变型分类以生成分类的遗传性变型。可通过读取深度(或覆盖深度)、碱基质量、映射质量或其任何组合来确定质量评分。在特定的实例中，通过感兴趣的基因组区域的读取深度来确定质量评分。可以为测序数据的区域分配质量评分(“区域性”质量评分)或可以为作为整体的测序数据分配质量评分。在一些情况下，区域性质量评分可包括特定变型的质量评分。在特定情况下，为感兴趣的基因组区域分配区域性质量评分。“感兴趣的基因组区域”可以是在感兴趣的变型附近的基因组区域。在感兴趣的变型附近的感兴趣的基因组区域可以在至多10bp、20bp、30bp、40bp、50bp、60bp、70bp、80bp、90bp、100bp、200bp、300bp、400bp、500bp、600bp、700bp、800bp、900bp、1kb、2kb、3kb、4kb、5kb、6kb、7kb、8kb、9kb、10kb、20kb、30kb、40kb、500kb、600kb、700kb、800kb、900kb、1000kb或更多的感兴趣的变型内。感兴趣的基因组区域通常将包含感兴趣的核苷酸(即，可跨越包含感兴趣的变型的基因组区域)。在一些情况下，感兴趣的基因组区域可包含一个或多个临床可行变型。感兴趣的基因组区域可以在基因的编码序列(例如，外显子)内，可以在非编码区(例如，内含子)内，或两者。感兴趣的基因组区域可包含一个或多个结构变型(例如，易位、拷贝数变异)和/或核苷酸变型。在一些情况下，研究感兴趣的基因组区域以确定遗传性变型的存在或不存在。在一些情况下，所述方法的用户选择待查询的感兴趣的基因组区域。在一些情况下，所述方法的用户选择待查询的遗传性变型并通过所述选择确定感兴趣的基因组区域。换言之，遗传性变型的选择可限定感兴趣的基因组区域。

所述方法可包括将质量评分与阈值进行比较。阈值可用作截止值，通过该截止值评估质量评分。可以预先确定或预设阈值。在一些情况下，根据经验确定阈值。在一些情况下，由所述方法的用户确定阈值。阈值可以是可调节的，使得所述方法的用户可更改或改变阈值。在一些情况下，根据用户的需要，阈值可以是更严格或不太严格的。阈值可以是一个值，质量评分可与该值进行比较以确定数据的准确度。阈值可以是一个值，高于该值的质量评分指示变型判定的准确度的某一置信度水平。例如，高于阈值的质量评分可指示变型判定的准确度的50％、55％、60％、65％、70％、75％、80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99,9％、99.99％、99.999％或100％置信度。阈值可以是一个值，低于该值的质量评分指示变型判定的不准确度的某一置信度水平。例如，低于阈值的质量评分可指示变型判定的不准确度的50％、55％、60％、65％、70％、75％、80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99,9％、99.99％、99.999％或100％置信度。

在一些情况下，阈值可对应于读取深度。在该实例中，可将每个感兴趣的基因组区域的读取深度与该阈值进行比较。可将读取深度超过阈值的感兴趣的基因组区域鉴别为具有“充足的”覆盖，而可将读取深度低于该阈值的感兴趣的基因组区域鉴别为具有“不充足的”覆盖。被鉴别为具有“不充足的”覆盖的感兴趣的基因组区域可以例如进行重新测序。基于读取深度的阈值可包括1X、2X、3X、4X、5X、6X、7X、8X、9X、10X、11X、12X、13X、14X、15X、16X、17X、18X、19X、20X、21X、22X、23X、24X、25X、26X、27X、28X、29X、30X、31X、32X、33X、34X、35X、36X、37X、38X、39X、40X、41X、42X、43X、44X、45X、46X、47X、48X、49X、50X、60X、70X、80X、90X、100X、200X、300X、400X、500X、600X、700X、800X、900X、1000X或更大。在一种情况下，阈值为10X。在另一种情况下，阈值为20X。在另一种情况下，阈值为30X。在另一种情况下，阈值为40X。在又一种情况下，阈值为50X。在又一种情况下，阈值为100X。

可利用质量评分将一个或多个遗传性变型分类。将一个或多个遗传性变型分类可包括将所述一个或多个遗传性变型中的每一个的质量评分与阈值进行比较。应当理解，可利用任何值、数字、字母、词或分数将遗传性变型分类，只要该分类代表遗传性变型已被分配的类别。例如，任意数字(例如，10)和词(“存在”)可代表相同的概念(即，变型“存在”)。在一个实例中，本文所述的分类系统可确定给定的遗传性变型(或基因组区域)的质量评分对于进行数据分析是“充足的”还是“不充足的”。在一些情况下，可将遗传性变型分类为“存在”、“不存在”或“不确定”。例如，如果遗传性变型存在(即，变型被“判定”)并且该判定的碱基(或包含该判定的碱基的基因组区域)的质量评分大于阈值，则可将该遗传性变型分类为存在。分类为“存在”可指示遗传性变型被肯定地鉴别为存在，且准确度为至少50％、55％、60％、65％、70％、75％、80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99,9％、99.99％、99.999％或100％。在其他情况下，例如，如果遗传性变型不存在(即，除了遗传性变型以外的一个或多个核苷酸被“判定”)并且该判定的碱基(或包含该判定的碱基的基因组区域)的质量评分大于阈值，则可将该遗传性变型分类为不存在。分类为“不存在”可指示遗传性变型被肯定地鉴别为不存在，且准确度为至少50％、55％、60％、65％、70％、75％、80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99,9％、99.99％、99.999％或100％。在一些情况下，质量评分可包括置信度评分。置信度评分可以为0％、1％、2％、3％、4％、5％、6％、7％、8％、9％、10％、11％、12％、13％、14％、15％、16％、17％、18％、19％、20％、21％、22％、23％、24％、25％、26％、27％、28％、29％、30％、31％、32％、33％、34％、35％、36％、37％、38％、39％、40％、41％、42％、43％、44％、45％、46％、47％、48％、49％、50％、51％、52％、53％、54％、55％、56％、57％、58％、59％、60％、61％、62％、63％、64％、65％、66％、67％、68％、69％、70％、71％、72％、73％、74％、75％、76％、77％、78％、79％、80％、81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％。

在一些情况下，如果判定的碱基(或包含该判定的碱基的基因组区域)的质量评分低于阈值，则可将遗传性变型分类为“不确定”。“不确定”分类可指示用来支持判定的碱基的数据的质量太低，以致于不能确定判定的准确度。本文提供的方法可用于区分由于低质量数据而不能判定的变型与不存在的变型。

在一些情况下，遗传性变型可通过变型类别(例如，EGFR激活突变、BRAF失活突变)来组织。变型类别可包含具有相似功能(例如，EGFR的功能的获得)的一个或多个遗传性变型。变型类别可包含至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、35、40、45、50个或更多个遗传性变型。在一些情况下，变型类别作为一组可被分配为一个分类。可基于上述相似的标准将变型类别分配为“存在”或“不存在”的分类。在一些情况下，变型类别分类可对应于该变型类别内单个遗传性变型的分类。例如，即便EGFR激活变型类别的一个遗传性变型(在多个EGFR激活变型的组中)被分配为“存在”的分类，EGFR激活变型类别作为一组也被分配为“存在”的分类。在一些情况下，可能需要将变型类别内多于一个遗传性变型分配为“存在”的分类，以便变型类别作为一组被分配为“存在”的分类。

“不确定”分类可指示对测序方案进行了至少一个修改。对测序方案的修改可包括对样品制备、样品处理或测序步骤的任何修改。在一些情况下，对测序方案的修改可以是测序方案的优化(即，以优化测序方法的结果)。可对探针、引物或反应条件中的至少一个进行修改。在特定的实例中，临床可行变型可在有问题的基因组区域(例如，GC丰富的区域)内找到。这些区域可针对这些区域内的临床可行变型产生“不确定”分类。可以分析用于生成测序数据的测序方案并可对该测序方案进行修改(例如，与GC丰富的区域以外的序列杂交的经修饰的捕获探针)。在一些情况下，该测序方案为包含靶标特异性引物和靶标特异性探针中的至少一个的靶标富集方案。在该实例中，可对靶标特异性引物或靶标特异性探针中的至少一个进行修改。

所述方法可进一步提供将覆盖不充足或质量评分低的区域翻译成基因组坐标。基因组坐标允许该方法的用户准确找到感兴趣的基因组区域或遗传性变型的确切位置。基因组坐标可包含染色体编号(例如，染色体10)以及该染色体上区域或变型的确切位置。基因组坐标可提供染色体上区域或变型的确切可寻址位置(即，遗传地址)。在本文的方法中可使用基因组坐标。例如，可向用户提供经修饰的引物或探针的基因组坐标，以用于例如从供应商预订经修饰的引物或探针。

所述方法进一步提供了生成报告，其中该报告可鉴别分类的遗传性变型。图2-图5描绘了可由本文公开的方法和系统生成的报告的示例。报告可以是将本文所述方法的结果转送给最终用户的任何方法。该报告可显示在屏幕或电子显示器上，或者可以打印在例如一张纸上。在一些情况下，通过网络传送报告。在一些情况下，网络为因特网。在一些情况下，该报告可以以用于转换成电子病历的JSON、HL7或类似格式的数据表示形式进行传送。在一些情况下，可以手动生成报告。在其他情况下，可以自动生成报告。在一些情况下，可以实时生成报告。该报告可鉴别测试小组中一个或多个变型的分类的遗传性变型。例如，该报告可鉴别被分类为“存在”的至少一个遗传性变型、被分类为“不存在”的至少一个遗传性变型、被分类为“不确定”的至少一个变型或其任何组合。在一些实例中，报告可鉴别变型类别的至少一个分类。在“不确定”分类的实例中，报告可建议或推荐如上所述对测序方案的修改。报告可进一步提供关于分类的遗传性变型的附加信息。在一些情况下，报告可提供基于测试结果的治疗计划或治疗建议。在该实例中，变型的存在或不存在可指示患者对特定疗法可能有反应或是难治性的。报告可将该信息呈现给最终用户(例如，患者、医疗保健提供者或临床实验室)。在一些情况下，报告可提供给移动设备、智能手机、平板电脑或个人健康监视器或其他支持网络的设备。在一些情况下，可根据报告中的信息作出治疗决策。在一些情况下，可根据报告向受试者施用治疗。在一些实例中，患者可在预订基因检测之前接受针对疾病的疗法。报告可指示遗传性变型存在以及当前治疗方案应停止并应施用新的治疗方案。在一些情况下，患者在接受治疗之前进行测试并且在治疗过程中预订进一步的测试。在该实例中，监测患者中从头遗传性变型的存在或不存在，该从头遗传性变型可指示当前治疗方案作为疗法对于该患者不再有效。报告可根据从头遗传性变型的存在或不存在进一步指示或推荐不同的治疗过程。报告可提供附加信息，包括但不限于感兴趣的变型或基因组区域的基因组坐标、将变型定位在蛋白质的功能区内的图像、显示变型区中比对的读取堆栈(read stack)的图像、与感兴趣的变型有关的参考文献(即，科学文献)的连接或链接(即，超链接)、支持治疗建议的临床证据、支持变型的临床使用的指南或与诊断或治疗有关的补偿编码或任何其他有用的信息。

所述方法进一步提供了接收第二数据输入。在一些情况下，第二数据输入包含第二测序数据。第二测序数据可以是与最初提交的数据不同的测序数据。可使用本文所述的关于样品制备、样品处理和测序的任何方法来生成第二测序数据。在一些情况下，第二测序数据可以是由修改的测序方案生成的测序数据。修改的测序方案可以是由上述方法生成的修改的测序方案。在这种情况下，可优化第二测序数据使得感兴趣的基因组区域的质量评分与先前的迭代方法相比得到改善。这些方法可能特别适合于再分析被分类为“不确定”的感兴趣的区域(即，具有低于阈值的质量评分的感兴趣的区域)。在该实例中，再分析的感兴趣区域的质量评分可超过阈值，使得可将“存在”或“不存在”的分类分配给变型。

在一些情况下，所述方法进一步提供了重新查询测序数据以确定一个或多个另外的遗传性变型的存在或不存在。重新查询可涉及再分析先前分析的测序数据(即，不需要接收另外的测序数据)。在这种情况下，可为包含一个或多个另外的遗传性变型的一个或多个基因组区域的每一个分配质量评分。如果质量评分大于预先确定的阈值，则可将质量评分分类为充足的，而如果质量评分低于预先确定的阈值，则可将质量评分分类为不充足的。

在本公开内容的另一个方面，提供了用于评估先前分析的测序数据集的准确度的方法。例如，测序数据集可能在先前已经进行分析并以科学论文或文章的形式报道。在一些情况下，该分析可报告整个测序数据集的平均覆盖深度，然而局部覆盖深度可能是未知的。在一些情况下，原始分析可报告从测序数据集鉴别的一个或多个遗传性变型的存在或不存在。在一些情况下，所述方法包括确定一个或多个基因组区域的质量评分，其中该一个或多个基因组区域包含先前已分析的一个或多个遗传性变型的至少一个。可使用本文提供的任何方法来进行所述分析。例如，可为正在研究的每个基因组区域分配质量评分。在一些情况下，质量评分为覆盖深度。该方法可进一步包括通过根据质量评分将每个遗传性变型鉴别为准确判定或不准确判定来评估原始分析的准确度。例如，如果原始分析鉴别具有小于预先确定的阈值的质量评分的基因组区域内的遗传性变型，则所述评估可包括将该原始分析鉴别为不准确。反之亦然，如果原始分析鉴别具有大于预先确定的阈值的质量评分的基因组区域内的遗传性变型，则所述评估可包括将该原始分析鉴别为准确。本文先前公开的用于鉴别遗传性变型的存在或不存在的方法可用来补充或强化原始分析，例如，以校正不准确的分析。在一些情况下，如果遗传性变型的原始分析被鉴别为不准确，则可推荐对测序方案的修改。

在本公开内容的特定方面，提供了一种方法，其包括：(a)接收包含由来自受试者的核酸样品生成的测序数据的数据输入，其中在所述接收之前，已分析了测序数据并已鉴别了一个或多个遗传性变型的存在或不存在，从而生成测序数据的原始分析；(b)为测序数据的一个或多个基因组区域中的每一个分配质量评分，所述一个或多个基因组区域包含一个或多个遗传性变型中的至少一个，其中所述分配由计算机处理器执行；(c)根据质量评分评估所述一个或多个遗传性变型的原始分析；以及(d)输出基于所述评估的结果，其中所述评估进一步包括如果包含遗传性变型的基因组区域的质量评分大于预先确定的阈值，则将所述一个或多个遗传性变型中的遗传性变型的原始分析鉴别为准确，并且其中所述评估进一步包括如果包含所述遗传性变型的基因组区域的质量评分小于预先确定的阈值，则将所述一个或多个遗传性变型中的遗传性变型的原始分析鉴别为不准确。

处理步骤

可以通过本领域技术人员已知的任何方法来处理和/或分析核酸。在一些情况下，可通过对样品中的一个或多个核酸分子进行一个或多个富集反应来进行本文公开的方法。富集反应可包括使样品与一个或多个珠子或珠子组接触。富集反应可包括一个或多个杂交反应。该一个或多个杂交反应可包括使用一个或多个捕获探针。该一个或多个捕获探针可包括一个或多个靶标特异性捕获探针。该靶标特异性捕获探针可与基因的外显子中的核酸序列杂交。富集反应可进一步包括一个或多个杂交的核酸分子的分离和/或纯化。富集反应可包括全外显子组富集。富集反应可包括靶向富集。富集反应可利用试剂盒或小组(panel)进行，该试剂盒或小组的商购可得的实例包括但不限于Agilent Whole ExomeSureSelect、NuGEN Ovation Fusion Panel和Illumina TruSight Cancer Panel。

在一些情况下，富集反应可包括一个或多个扩增反应。该一个或多个扩增反应可包括通过例如聚合酶链反应扩增核酸序列。所述扩增可包括利用一个或多个引物组。该一个或多个引物组可以是靶标特异性引物，以扩增靶向核酸序列。该一个或多个靶标特异性引物组可与基因的外显子中的核酸序列杂交。扩增的核酸序列可以进一步进行纯化、分离、提取等。在一些情况下，可将一个或多个条形码和/或衔接子附加到扩增的核酸序列。该一个或多个条形码和/或衔接子可以是用于例如测序反应的条形码和/或衔接子。

在一些情况下，对核酸进行测序以生成测序数据。可通过任何已知的测序方法生成测序数据。测序方法可包括毛细管测序、下一代测序、Sanger测序、合成测序、单分子纳米孔测序、连接测序、杂交测序、纳米孔电流限制测序或其组合。合成测序可包括可逆终止子测序、持续单分子测序、连续核苷酸流测序或其组合。连续核苷酸流测序可包括焦磷酸测序、pH介导的测序、半导体测序或其组合。进行一个或多个测序反应包括未靶向测序(即，全基因组测序)或靶向测序(即，外显子组测序)。

所述测序方法可包括Maxim-Gilbert、链终止或高通量系统。备选地或另外，该测序方法可包括Helioscope^TM单分子测序、纳米孔DNA测序、Lynx Therapeutics的大规模平行签名测序(Massively Parallel Signature Sequencing，MPSS)、454焦磷酸测序、单分子实时(RNAP)测序、Illumina(Solexa)测序、SOLiD测序、Ion Torrent^TM、离子半导体测序、单分子SMRT(TM)测序、聚合酶克隆测序(Polony sequencing)、DNA纳米球测序、VisiGenBiotechnologies方法或其组合。备选地或另外，该测序方法可包括一个或多个测序平台，该测序平台包括但不限于由Illumina提供的Genome Analyzer IIx、HiSeq、NextSeq和MiSeq，单分子实时(SMRT^TM)技术，如由Pacific Biosciences(California)提供的PacBioRS系统和Solexa测序仪，真正单分子测序(tSMS^TM)技术，如由Helicos Inc.(Cambridge,MA)提供的HeliScope^TM测序仪，由Genia Technologies,Inc.开发的基于纳米孔的测序平台和Oxford Nanopore MinION。

可接收测序数据(例如，通过与计算机存储器源耦合的计算机处理器)作为数据输入。可接收代表核苷酸序列的基于文本或二进制文件格式的测序数据。可以接收例如SRA、CRAM、FASTA、SAM、BAM或FASTQ文件格式的测序数据。在特定的实例中，接收FASTQ文件格式的测序数据。FASTQ文件格式存储核苷酸测序数据以及相应的质量数据。

临床可行变型

可使用本文公开的方法和系统来鉴别一个或多个临床可行变型。在一些情况下，可使用该方法和系统将一个或多个临床可行变型分类。该临床可行变型可以在基因的编码区中或者可以在基因组的非编码区中。基因组的非编码区可以是基因的调节区。该临床可行变型可以在基因的外显子中或者可以在基因的内含子中。临床可行变型可改变基因的表达或者可改变基因产物的功能(即，蛋白质的功能)。临床可行变型可调节与疾病有关的基因。在特定的实例中，该临床可行变型改变已知癌基因的表达或功能。在一些情况下，临床可行变型改变蛋白质对疗法的反应。例如，临床可行变型可指示蛋白质对特定疗法是难治性的(例如，抗原中的变型，使得抗体疗法不再识别该抗原)。

在特定情况下，临床可行变型可在患有癌症的受试者或患者中进行鉴别和/或分类。在一个实例中，临床可行变型可以是靶基因中的激活或失活突变。在一些情况下，临床可行变型可以是已知影响肿瘤对疗法的反应性的基因中或存在或不存在的原癌基因中的激活突变。“激活突变”可以是导致蛋白质的新功能或蛋白质的活性水平增加(即，“功能的获得”)的任何遗传性变型。激活突变可以是大规模变异如扩增、插入或易位，或者可以是小规模变异如点突变。在一些情况下，激活突变在靶基因中。在其他情况下，激活突变在靶基因的调节区或非编码区中。在一些情况下，激活突变的存在可指示受试者是特定疗法或治疗的候选者。在其他情况下，激活突变的不存在可指示受试者不是特定疗法或治疗的候选者。在一些情况下，临床可行变型可以是已知影响肿瘤对疗法的反应性的基因中或存在或不存在的肿瘤抑制基因中的失活突变。“失活突变”可以是导致蛋白质的功能丧失或蛋白质的活性水平降低的任何遗传性变型。失活突变可以是大规模变异如缺失或拷贝数损失，或者可以是小规模变异如点突变。在一些情况下，失活突变在靶基因中。在其他情况下，失活突变在靶基因的调节区或非编码区中。在一些情况下，受试者可在一个或多个靶基因中具有一个或多个激活和/或失活突变。

在一些情况下，临床可行变型可以是改变基因产物(即，蛋白质)对疗法的反应性的基因或基因调节区中的突变。在一个实例中，临床可行变型为可以影响代谢基因并且可以提高或降低对给定药物疗法的反应性的突变。代谢基因可以是改变治疗药物的药物基因组学的基因。例如，UGT1A1基因中变型的存在(例如，UGT1A1*28和/或UGT1A7*3)可能暗示受试者在用伊立替康(CAMPTOSAR)治疗时具有严重血液毒性的较高风险。在另一个实例中，细胞色素P450 2D6酶中变型的特定组合的存在可能暗示不推荐受试者采用他莫昔芬进行治疗。

在一些情况下，临床可行变型为影响转运基因的突变。转运基因可以是控制流入或流出细胞膜(即，通道、泵、转运体)的任何基因。在非限制性实例中，ABC转运体基因ABCC3中变型(例如，rs4148416)的存在可指示骨肉瘤患者可能显示出对采用顺铂、环磷酰胺、多柔比星、甲氨蝶呤或长春新碱的治疗的差的反应。在另一个非限制性实例中，ABCB1基因中变型(例如，rs1045642)的存在可能与采用紫杉醇治疗的亚洲转移性乳腺癌患者中的较低的生存期有关。在又一个非限制性实例中，SLC22A2中rs316019变型的存在可能与采用顺铂治疗的患者的肾毒性的风险增加有关。

在一些情况下，临床可行变型可以是与对给定药物疗法的非预期的或异常的反应有关的变型。在非限制性实例中，在mTOR中具有变型(例如，E2419K和E2014K)的晚期癌症患者可显示出对采用依维莫司的治疗的异常的反应。在另一个非限制性实例中，在RAD50基因中具有变型L1237F的转移性小细胞肺癌患者可显示出对采用AZD7762和伊立替康的治疗的异常的反应。在另一个非限制性实例中，在SLC15A2基因中具有rs2257212变型的肝细胞癌患者可显示出对采用索拉非尼的治疗的异常的反应。

在一些情况下，临床可行变型可影响DNA修复基因。在非限制性实例中，具有实体瘤且在ERCC1基因中具有变型的患者可显示出对采用铂基化合物的治疗的改善的反应。在另一个非限制性实例中，XRCC1基因中变型的存在可指示患者可显示出对氟尿嘧啶、卡铂、顺铂、奥沙利铂和其他铂基化合物的增加的反应。

在一些情况下，临床可行变型与增加的毒性或其他严重不良事件有关。在非限制性实例中，对于DPYD*2A、DPYD*13或rs67376798纯合的患者可指示该患者在采用氟嘧啶(即，5-氟尿嘧啶、卡培他滨或替加氟)治疗时可能经历严重毒性。在另一个非限制性实例中，TPMT*3B或TPMT*3C变型的存在可指示用顺铂、巯嘌呤或硫鸟嘌呤治疗的儿童可能具有增加的耳毒性风险。在又一个非限制性实例中，当采用多柔比星、柔红霉素、拉布立酶或达拉菲尼治疗时，缺乏G6PD的患者可能经历严重的不良副作用。

在一些情况下，临床可行变型位于已知在给定疾病中不发挥直接作用的基因内。例如，临床可行变型可位于在癌症中不发挥直接作用但可以改变患者对给定癌症治疗的反应的基因内。那么，应当理解，如本文所设想的临床可行变型是可以指示或预测受试者的临床结果的任何变型。

在一些情况下，临床可行变型在已知引起或促成癌症的发病机理的基因中。在一些情况下，该疾病为癌症。已知引起或促成癌症的病理的基因的非限制性实例可包括：ABCA1、ABCC3、ABCG2、ABL1、ACSL6、ADA、ADCY9、ADM、AGAP2、AIP、AKT1、AKT2、AKT3、ALK、ALOX12B、ANAPC5、APC、APC2、APCDD1、APEX1、AR、ARAF、ARFRP1、ARID1A、ARID1B、ARID2、ARID5B、ASXL1、ASXL2、ATM、ATR、ATRX、AURKA、AURKB、AXIN1、AXIN2、AXL、B2M、BACH1、BAI3、BAP1、BARD1、BAX、BBC3、BCL11A、BCL2、BCL2L1、BCL2L11、BCL2L2、BCL3、BCL6、BCOR、BCORL1、BCR、BIRC3、BIRC5、BIRC6、BLM、BMP4、BMPR1A、BRAF、BRCA1、BRCA2、BRD4、BRIP1、BTG1、BTK、BUB1B、C17orf39、CARD11、CARM1、CASP8、CAV1、CBFA2T3、CBFB、CBL、CCND1、CCND2、CCND3、CCNE1、CD274、CD276、CD40LG、CD44、CD79A、CD79B、CDC25A、CDC42、CDC73、CDH1、CDK12、CDK2、CDK4、CDK5、CDK6、CDK7、CDK8、CDK9、CDKN1A、CDKN1B、CDKN1C、CDKN2A、CDKN2B、CDKN2C、CDKN2D、CDX2、CEBPA、CEP57、CERK、CHEK1、CHEK2、CHN1、CHUK、CIC、CLTC、COL1A1、CRBN、CREBBP、CRKL、CRLF2、CSF1R、CSMD3、CSNK1G2、CTCF、CTLA4、CTNNA1、CTNNB1、CUL3、CUL4A、CUL4B、CYLD、CYP17A1、CYP19A1、CYP1B1、CYP2D6、DAXX、DCUN1D1、DDB2、DDIT3、DDR2、DGKB、DGKG、DGKI、DGKZ、DICER1、DIRAS3、DIS3、DIS3L2、DNMT1、DNMT3A、DNMT3B、DOT1L、DPYD、E2F1、E2F3、EED、EGF、EGFL7、EGFR、EIF1AX、ELOVL2、EMSY、ENPP2、EP300、EP400、EPCAM、EPHA2、EPHA3、EPHA5、EPHA8、EPHB1、EPHB2、EPHB4、EPHB6、EPO、ERBB2、ERBB3、ERBB4、ERCC1、ERCC2、ERCC3、ERCC4、ERCC5、ERCC6、ERG、ESR1、ESR2、ETS2、ETV1、ETV4、ETV6、EWSR1、EXT1、EXT2、EZH2、FAM123B(WTX)、FAM175A、FAM46C、FANCA、FANCB、FANCC、FANCD2、FANCE、FANCF、FANCG、FANCI、FANCL、FANCM、FAS、FAT1、FAT3、FBXW7、FES、FGF10、FGF12、FGF14、FGF19、FGF23、FGF3、FGF4、FGF6、FGF7、FGFR1、FGFR2、FGFR3、FGFR4、FH、FHIT、FIGF、FLCN、FLNC、FLT1、FLT3、FLT4、FN1、FOS、FOXA1、FOXL2、FOXO1、FOXO3、FOXP1、FUBP1、FURIN、GAB1、GATA1、GATA2、GATA3、GMPS、GNA11、GNA13、GNAQ、GNAS、GPC3、GPR124、GRB2、GREM1、GRIN2A、GSK3B、GSTT1、H3F3C、HDAC1、HDAC2、HDAC3、HDAC4、HGF、HIF1A、HIST1H1C、HIST1H2BD、HIST1H3B、HLA-A、HMGA1、HNF1A、HOXA9、HOXD11、HRAS、HSP90AA1、ICAM1、ICOSLG、IDH1、IDH2、IFNG、IFNGR1、IGF1、IGF1R、IGF2、IGF2R、IGFBP3、IKBKE、IKZF1、IL10、IL2、IL2RA、IL7R、INHBA、INPP4A、INPP4B、INSR、IRF4、IRS1、IRS2、ITGB3、JAK1、JAK2、JAK3、JUN、KALRN、KAT2B、KDM5A、KDM5C、KDM6A、KDR、KEAP1、KIT、KLF4、KLF6、KLHL6、KRAS、LAMA1、LAMP1、LATS1、LATS2、LDHA、LMO1、LMO2、LRP1B、LTBP1、MAP2K1、MAP2K2、MAP2K4、MAP3K1、MAP3K13、MAPK1、MAPK3、MAPK9、MAX、MCL1、MDC1、MDM2、MDM4、MECOM、MED12、MEF2B、MEN1、MET、MINPP1、MITF、MLH1、MLL、MLL2、MLL3、MPL、MRE11、MRE11A、MSH2、MSH6、MST1R、MTOR、MUC1、MUTYH、MYC、MYCL1、MYCN、MYD88、MYH9、MYOD1、MYST3、MYST4、NAV3、NBN、NCOA2、NCOR1、NF1、NF2、NFE2L2、NFKBIA、NKX2-1、NKX3-1、NOS2、NOS3、NOTCH1、NOTCH2、NOTCH3、NOTCH4、NPM1、NR3C1、NRAS、NSD1、NTRK1、NTRK2、NTRK3、NUP214、NUP93、PAFAH1B2、PAK1、PAK3、PAK7、PALB2、PARK2、PARP1、PARP2、PARP3、PARP4、PAX5、PBRM1、PCNA、PDCD1、PDGFA、PDGFB、PDGFRA、PDGFRB、PDK1、PDPK1、PGR、PHOX2B、PIGS、PIK3C2G、PIK3C3、PIK3CA、PIK3CB、PIK3CD、PIK3CG、PIK3R1、PIK3R2、PIK3R3、PIM1、PLCB1、PLCG1、PLCG2、PLK2、PMAIP1、PML、PMS1、PMS2、PNRC1、POLE、PPARA、PPARG、PPARGC1A、PPP1R13L、PPP1R3A、PPP2CB、PPP2R1A、PPP2R1B、PPP2R2B、PRDM1、PRF1、PRKAR1A、PRKCA、PRKCG、PRKCZ、PRKDC、PRSS8、PTCH1、PTCH2、PTEN、PTGS2、PTK2、PTPN11、PTPRB、PTPRC、PTPRD、PTPRF、PTPRS、PTPRT、RAC1、RAD50、RAD51、RAD51B、RAD51C、RAD51D、RAD51L1、RAD52、RAD54L、RAF1、RARA、RASA1、RB1、RBM10、RECQL4、REL、RET、RFWD2、RHBDF2、RHEB、RHOA、RICTOR、RIT1、RNF43、ROS1、RPA1、RPS6KA1、RPS6KA2、RPS6KA4、RPS6KB1、RPS6KB2、RPTOR、RUNX1、RUNX1T1、RYBP、SBDS、SDHA、SDHAF2、SDHB、SDHC、SDHD、SETD2、SF3B1、SH2B3、SH2D1A、SHC1、SHQ1、SKP2、SLX4、SMAD2、SMAD3、SMAD4、SMARCA4、SMARCB1、SMARCD1、SMO、SNCG、SOCS1、SOCS2、SOS1、SOX10、SOX17、SOX2、SOX9、SP1、SPEN、SPOP、SPRY2、SRC、STAG2、STAT4、STK11、STK40、SUFU、SUZ12、SYK、TAL1、TBX3、TCF12、TCF3、TEK、TERT、TET1、TET2、TFE3、TGFB3、TGFBR1、TGFBR2、THBS1、TIPARP、TK1、TLX1、TMEM127、TMPRSS2、TNFAIP3、TNFRSF14、TNK2、TOP1、TOP2A、TP53、TP63、TP73、TPM3、TPO、TPR、TRAF7、TRRAP、TSC1、TSC2、TSHR、U2AF1、UGT1A1、VDR、VEGFA、VHL、VTCN1、WISP3、WRN、WT1、XIAP、XPA、XPC、XPO1、XRCC3、YAP1、YES1、ZNF217、ZNF331和ZNF703。

在一些情况下，临床可行变型为选自表1的临床可行变型。

表1.临床可行变型和治疗意义的列表

数据的质量/质量评分

本文所述的方法和系统提供了计算一个或多个质量评分。本文所述的方法和系统进一步提供了为测序数据的子集分配一个或多个质量评分。一个或多个质量评分可包含读取深度(或覆盖深度)、映射质量或碱基判定质量。

在一种情况下，确定包含遗传性变型的基因组区域的读取深度或覆盖深度。“读取深度”和“覆盖深度”在本文可互换使用并且是指核苷酸碱基在测序反应中被“判定”的平均次数。通常，读取深度越高，任何给定的核苷酸碱基可以被判定的准确度越高。例如，10X的读取深度意味着任何给定的核苷酸将被判定平均十次。应当理解，读取深度可能不是一致的。例如，基因组的某些区域对于准确测序可能更具有挑战性，例如对于具有高GC含量的区域。在其他实例中，测序偏差可能造成在测序数据中缺乏一致性。测序偏差可以是随机的或非随机的。在一些情况下，确定基因组区域的区域读取深度。在一些情况下，该方法可包括确定一个或多个感兴趣基因组区域的读取深度。可以选择预先确定的阈值，使得质量评分大于预先确定的阈值的感兴趣的基因组区域内鉴别的遗传性变型在一定的置信度水平下被“判定”，而质量评分小于预先确定的阈值的测序数据内鉴别的遗传性变型在一定的置信度水平下不被“判定”。在一个实例中，以50X的测序读取深度在基因组区域中鉴别遗传性变型。在该实例中，该读取深度可足以在一定的置信度水平下“判定”遗传性变型。在另一个实例中，可以以5X的测序读取深度在基因组区域中鉴别遗传性变型。在该实例中，该读取深度可能不足以在一定的置信度水平下“判定”遗传性变型。读取深度可包括但不限于1X、2X、3X、4X、5X、6X、7X、8X、9X、10X、11X、12X、13X、14X、15X、16X、17X、18X、19X、20X、21X、22X、23X、24X、25X、26X、27X、28X、29X、30X、31X、32X、33X、34X、35X、36X、37X、38X、39X、40X、41X、42X、43X、44X、45X、46X、47X、48X、49X、50X、60X、70X、80X、90X、100X、200X、300X、400X、500X、600X、700X、800X、900X、1000X或更大。

在一些情况下，质量评分包含碱基判定质量评分。碱基判定质量评分可以是Phred质量评分。可以在自动化测序仪跟踪中为每个碱基判定分配Phred质量评分，并且该质量评分可以用来比较不同测序方法的功效。Phred质量评分(Q)可以被定义为与碱基判定错误概率(P)对数相关的性质。Phred质量评分(Q)可以计算为Q＝-10log₁₀P。一个或多个测序反应的Phred质量评分可以类似于当前测序方法的Phred质量评分。一种或多种测序方法的Phred质量评分可以在当前测序方法的Phred质量评分的1、2、3、4、5、6、7、8、9、10内。一种或多种测序方法的Phred质量评分可以小于一种或多种测序方法的Phred质量评分。一种或多种测序方法的Phred质量评分可以比一种或多种测序方法的Phred质量评分少至少约10、9、8、7、6、5、4、3、2、1。一种或多种测序方法的Phred质量评分可以大于5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25或30。一种或多种测序方法的Phred质量评分可以大于35、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59或60。一种或多种测序方法的Phred质量评分可以为至少35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60或更大。

在一些情况下，质量评分包含映射质量评分。映射质量评分可指示序列被映射到参考序列或与参考序列比对的准确度。可以以几种不同的方法计算每个比对读取的映射质量(Qm)评分。在一个特定的实例中，比对仪将提供映射质量评分(MQS)，其中：

其中L为读取长度，p_i为读取中第i个碱基的碱基判定p值，b_m为匹配碱基的位置组，并且b_mm为错配碱基的位置组。根据碱基质量评分计算碱基判定p值，从Phred尺度转换。映射质量评分可以在0-60的范围内。在一些情况下，一种或多种测序方法的映射质量评分为至少0、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59或60。

在一些情况下，可以使用经验的机器学习方法为质量评分分配置信度评分。在特定的实例中，质量评分基于4个值：特定变型位置处的总读取深度、含有该变型的读取的比例、该位置处非变异碱基判定的平均质量以及变异碱基判定的平均质量的差异。通过使用在多个实验室中处理的具有已知变型的大量样品以及利用多种处理方法，对模型进行训练以将输入质量变量的状态与正确变型判定的预期可能性相关联(阳性和阴性处理类似)。采用该方法得出的模型定义n维反应表面，其中n＝输入变量的数目，对所有一起取得的变型进行训练以提供在整个输入范围上构建反应表面所需的统计功效。该反应表面以方程式的形式被存储以供质量评分算法使用，以针对处理并报告的单个患者样品为测试小组中每个变型的不存在或存在判定分配在1％至100％之间的置信度评分。

样品

受试者可提供针对遗传筛查的生物样品。生物样品可以是由受试者产生的任何物质。通常，生物样品是从受试者取得的任何组织或由受试者产生的任何物质。生物样品的非限制性实例可包括血液、血浆、唾液、脑脊液(CSF)、面颊组织(即，来自面颊拭子)、尿液、粪便、皮肤、毛发、器官组织等。在一些情况下，生物样品为实体瘤或实体瘤的活检物。在一些情况下，生物样品为福尔马林固定的、石蜡包埋(FFPE)的组织样品。生物样品可以是包含核酸的任何生物样品。如本文所用的术语“核酸”通常是指任何长度的聚合形式的核苷酸(核糖核苷酸、脱氧核糖核苷酸或肽核酸(PNA))，其包含嘌呤和嘧啶碱基，或其他天然的、经化学或生物化学修饰的、非天然的或衍生的核苷酸碱基。多核苷酸的骨架可以包含糖和磷酸基团(如通常可以在RNA或DNA中找到的)，或者经修饰或取代的糖或磷酸基团。多核苷酸可以包含经修饰的核苷酸，如甲基化核苷酸和核苷酸类似物。核苷酸的序列可被非核苷酸组分打断。因此，术语核苷、核苷酸、脱氧核苷和脱氧核苷酸通常包括类似物如本文所述的那些。这些类似物是具有与天然存在的核苷或核苷酸相同的一些结构特征的那些分子，使得当并入到核酸或寡核苷酸序列中时，它们允许与溶液中的天然存在的核酸序列杂交。通常，这些类似物通过替代和/或修饰碱基、核糖或磷酸二酯部分从天然存在的核苷和核苷酸得到。可以根据需要定制这些改变以使杂种形成稳定或不稳定，或者提高与互补核酸序列杂交的特异性。核酸分子可以是DNA或RNA或其任何组合。RNA可包括mRNA、miRNA、piRNA、siRNA、tRNA、rRNA、sncRNA、snoRNA等。DNA可包括cDNA、基因组DNA、线粒体DNA、核外体DNA、病毒DNA等。在特定情况下，DNA为基因组DNA。核酸可从生物细胞中分离或者可以是无细胞核酸(即，循环DNA)。在特定的实例中，DNA为肿瘤DNA。在其他特定的实例中，RNA为肿瘤RNA。在一些情况下，DNA为胎儿DNA。

生物样品可以来源于受试者。受试者可以是哺乳动物、爬行动物、两栖动物、禽类或鱼类。哺乳动物可以是人、猿、猩猩、猴、黑猩猩、牛、猪、马、啮齿动物、鸟、爬行动物、狗、猫或其他动物。爬行动物可以是蜥蜴、蛇、短吻鳄、龟、鳄鱼和乌龟。两栖动物可以是蟾蜍、青蛙、蝾螈和火蜥蜴。禽类的实例包括但不限于鸭、鹅、企鹅、鸵鸟和猫头鹰。鱼类的实例包括但不限于鲶鱼、鳗鱼、鲨鱼和剑鱼。优选地，受试者是人。受试者可能患有疾病或病况。

疾病

本文公开的方法和系统可特别适合于诊断疾病。在一些情况下，可使用本文公开的方法和系统来鉴别已知改变或影响治疗方案对于治疗疾病的功效的临床可行变型。在一些情况下，该疾病为癌症。癌症的非限制性实例可包括：棘皮瘤、腺泡细胞癌、听神经瘤、肢端雀斑样黑色素瘤、顶端螺旋瘤、急性嗜酸性粒细胞白血病、急性淋巴母细胞白血病、急性巨核细胞白血病、急性单核细胞白血病、急性成髓细胞白血病伴成熟、急性髓样树突状细胞白血病、急性髓样白血病、急性早幼粒细胞白血病、成釉细胞瘤(Adamantinoma)、腺癌、腺样囊性癌、腺瘤、牙源性腺瘤样瘤、肾上腺皮质癌、成人T细胞白血病、侵袭性NK细胞白血病、艾滋病相关癌症、艾滋病相关淋巴瘤、腺泡状软组织肉瘤、成釉细胞纤维瘤、肛门癌、间变性大细胞淋巴瘤、未分化甲状腺癌、血管免疫母细胞性T细胞淋巴瘤、血管肌脂瘤、血管肉瘤、阑尾癌、星形细胞瘤、非典型畸胎样横纹肌样瘤、基底细胞癌、基底细胞样癌、B细胞白血病、B细胞淋巴瘤、比里尼导管癌(Bellini duct carcinoma)、胆道癌、膀胱癌、母细胞瘤、骨癌、骨肿瘤、脑干胶质瘤、脑瘤、乳腺癌、Brenner瘤、支气管肿瘤、细支气管肺泡癌、棕色瘤、伯基特淋巴瘤、原发部位不明的癌症、类癌瘤、癌、原位癌、阴茎癌、原发部位不明的癌、癌肉瘤、卡斯尔曼病(Castleman's Disease)、中枢神经系统胚胎瘤、小脑星形细胞瘤、大脑星形细胞瘤、宫颈癌、胆管癌、软骨瘤、软骨肉瘤、脊索瘤、绒毛膜癌、脉络丛乳头状瘤、慢性淋巴细胞白血病、慢性单核细胞白血病、慢性骨髓性白血病、慢性骨髓增生性疾病、慢性中性粒细胞白血病、透明细胞瘤、结肠癌、结直肠癌、颅咽管瘤、皮肤T细胞淋巴瘤、德戈斯病(Degosdisease)、隆凸性皮肤纤维肉瘤、皮样囊肿、促结缔组织增生性小圆细胞肿瘤、弥漫性大B细胞淋巴瘤、胚胎发育不良性神经上皮瘤、胚胎性癌、内胚窦瘤、子宫内膜癌、子宫内膜子宫癌、子宫内膜样肿瘤、肠病相关T细胞淋巴瘤、室管膜母细胞瘤(Ependymoblastoma)、室管膜瘤、上皮样肉瘤、红白血病、食管癌、鼻腔神经胶质瘤、尤因家族肿瘤、尤因家族肉瘤、尤因肉瘤、颅外生殖细胞肿瘤、性腺外生殖细胞肿瘤、肝外胆管癌、乳腺外佩吉特病、输卵管癌、胎中胎、纤维瘤、纤维肉瘤、滤泡性淋巴瘤、滤泡性甲状腺癌、胆囊癌、胆囊癌、神经节神经胶质瘤、神经节瘤、胃癌、胃淋巴瘤、胃肠癌、胃肠道类癌肿瘤、胃肠道间质瘤、胃肠道间质瘤、生殖细胞肿瘤、生殖细胞瘤、妊娠性绒毛膜癌、妊娠滋养细胞肿瘤、骨巨细胞瘤、多形性胶质母细胞瘤、胶质瘤、大脑胶质瘤病、血管球瘤、胰高血糖素瘤、性腺母细胞瘤、粒层细胞瘤、毛细胞白血病、毛细胞白血病、头颈癌、头颈癌、心脏癌症、血管母细胞瘤、血管外皮细胞瘤、血管肉瘤、恶性血液病、肝细胞癌、肝脾T细胞淋巴瘤、遗传性乳腺-卵巢癌综合征、霍奇金淋巴瘤、霍奇金氏淋巴瘤、下咽癌、下丘脑胶质瘤、炎性乳腺癌、眼内黑色素瘤、胰岛细胞癌、胰岛细胞瘤、幼年型粒单核细胞白血病、肉瘤、卡波西肉瘤、肾癌、Klatskin瘤、Krukenberg瘤、喉癌、喉癌、恶性雀斑样痣黑色素瘤、白血病、白血病、唇和口腔癌、脂肪肉瘤、肺癌、黄体瘤、淋巴管瘤、淋巴管肉瘤、淋巴上皮瘤、淋巴样白血病、淋巴瘤、巨球蛋白血症、恶性纤维性组织细胞瘤、恶性纤维性组织细胞瘤、骨恶性纤维性组织细胞瘤、恶性胶质瘤、恶性间皮瘤、恶性周围神经鞘肿瘤、恶性横纹肌样瘤、恶性蝾螈瘤、MALT淋巴瘤、套细胞淋巴瘤、肥大细胞白血病、纵隔生殖细胞肿瘤、纵隔肿瘤、甲状腺髓样癌、髓母细胞瘤、髓母细胞瘤、髓上皮瘤、黑色素瘤、黑色素瘤、脑膜瘤、Merkel细胞癌、间皮瘤、间皮瘤、隐匿性原发性转移性鳞状颈癌、转移性尿路上皮癌、米勒混合瘤(Mixed Mullerian tumor)、单核细胞白血病、口腔癌、粘液性肿瘤、多发性内分泌肿瘤综合征、多发性骨髓瘤、多发性骨髓瘤、蕈样真菌病、蕈样真菌病、骨髓增生异常疾病、骨髓增生异常综合征、骨髓性白血病、髓样肉瘤、骨髓增殖性疾病、粘液瘤、鼻腔癌、鼻咽癌、鼻咽癌、赘生物(Neoplasm)、神经鞘瘤、神经母细胞瘤、神经母细胞瘤、神经纤维瘤、神经瘤、结节性黑色素瘤、非霍奇金淋巴瘤、非霍奇金淋巴瘤、非黑色素瘤皮肤癌、非小细胞肺癌、眼部肿瘤、少突星形细胞瘤、少突胶质细胞瘤、嗜酸粒细胞腺瘤(Oncocytoma)、视神经鞘脑膜瘤、口腔癌、口腔癌、口咽癌、骨肉瘤、骨肉瘤、卵巢癌、卵巢癌、卵巢上皮癌、卵巢生殖细胞肿瘤、卵巢低恶性潜在肿瘤(Ovarian Low MalignantPotential Tumor)、乳腺佩吉特病、肺上沟瘤、胰腺癌、胰腺癌、甲状腺乳头状癌、乳头状瘤、副神经节瘤、鼻窦癌、甲状旁腺癌、阴茎癌、血管周上皮样细胞瘤、咽癌、嗜铬细胞瘤、中度分化的松果体实质瘤、松果体母细胞瘤、垂体细胞瘤、垂体腺瘤、垂体瘤、浆细胞肿瘤、胸膜肺母细胞瘤、多胚瘤、前体T淋巴母细胞性淋巴瘤、原发性中枢神经系统淋巴瘤、原发性渗出性淋巴瘤、原发性肝细胞癌、原发性肝癌、原发性腹膜癌、原始神经外胚层肿瘤、前列腺癌、腹膜假粘液瘤、直肠癌、肾细胞癌、涉及15号染色体上的NUT基因的呼吸道癌、视网膜母细胞瘤、横纹肌瘤、横纹肌肉瘤、Richter转化、骶尾部畸胎瘤、唾液腺癌、肉瘤、神经鞘瘤病(Schwannomatosis)、皮脂腺癌、继发性肿瘤、精原细胞瘤、浆液性肿瘤、Sertoli-Leydig细胞瘤、性索间质瘤、塞扎里综合征、印戒细胞癌、皮肤癌、小蓝圆细胞肿瘤、小细胞癌、小细胞肺癌、小细胞淋巴瘤、小肠癌、软组织肉瘤、生长抑素瘤、煤烟疣、脊髓瘤、脊髓肿瘤、脾边缘区淋巴瘤、鳞状细胞癌、胃癌、浅表扩散性黑色素瘤、幕上原始神经外胚层肿瘤、表面上皮间质瘤、滑膜肉瘤、T细胞急性淋巴母细胞白血病、T细胞大颗粒淋巴细胞白血病、T细胞白血病、T细胞淋巴瘤、T细胞幼淋巴细胞白血病、畸胎瘤、晚期淋巴癌、睾丸癌、卵泡膜细胞瘤、喉癌、胸腺癌、胸腺瘤、甲状腺癌、肾盂和输尿管移行细胞癌、移行细胞癌、脐尿管癌、尿道癌、泌尿生殖系统肿瘤、子宫肉瘤、葡萄膜黑色素瘤、阴道癌、弗纳-莫里森综合征、疣状癌、视通路胶质瘤、外阴癌、瓦尔登斯特伦(Waldenstrom)巨球蛋白血症、沃辛(Warthin)瘤、维尔姆斯(Wilms)瘤。

在一些情况下，可使用本文公开的方法和系统来鉴别已知改变或影响治疗方案对于治疗疾病的功效的临床可行变型。在一些情况下，该疾病为感染性疾病，包括细菌、病毒、真菌或原生动物，其中该方法和系统可以帮助鉴别原发性病原体或评估可增加治疗风险、不良作用和/或免疫系统应答的变型。

在一些情况下，所述疾病为神经退行性疾病，包括但不限于阿尔茨海默病、痴呆、帕金森病及其他疾病，其中所述方法和系统可用来鉴别可治疗的亚型并将它们与目前处于开发中的药物相匹配并鉴别可以影响给药的药物遗传性变型。在一些情况下，所述疾病为神经障碍，包括但不限于智力发育迟缓、癫痫或孤独症。

在一些情况下，所述疾病为成瘾障碍，其中所述方法和系统可根据受体信号传导基因中的变型以及内啡肽、多巴胺或可治疗的相关愉悦寻求途径来鉴别亚型。

在一些情况下，所述疾病为内分泌疾病。非限制性实例包括肢端肥大症、艾迪生病、肾上腺疾病、库欣综合征(Cushing's Syndrome)、De Quervain甲状腺炎、糖尿病、妊娠糖尿病、甲状腺肿、格雷夫斯病、发育障碍、生长激素缺乏症、桥本甲状腺炎(Hashimoto'sThyroiditis)、高血糖症、甲状旁腺功能亢进症、甲状腺功能亢进症、低血糖症、甲状旁腺功能减退症、甲状腺功能减退、性腺功能低下症、1型、2A型、2B型多发性内分泌瘤、肥胖、骨质疏松症、甲状旁腺疾病、嗜铬细胞瘤、垂体疾病、垂体肿瘤、多囊卵巢综合征、前驱糖尿病、静息性甲状腺炎、甲状腺疾病、甲状腺结节、甲状腺炎、特纳综合征、1型糖尿病和2型糖尿病。

在一些情况下，所述疾病为自身免疫病。非限制性实例包括急性播散性脑脊髓炎(ADEM)、急性坏死性出血性白质脑炎、艾迪生病、丙种球蛋白缺乏症、斑秃、淀粉样变性、强直性脊柱炎、抗GBM/抗TBM肾炎、抗磷脂综合征(APS)、自身免疫性血管性水肿、自身免疫性再生障碍性贫血、自身免疫性神经异常、自身免疫性肝炎、自身免疫性高脂血症、自身免疫性免疫缺陷、自身免疫性内耳疾病(AIED)、自身免疫性心肌炎、自身免疫性卵巢炎、自身免疫性胰腺炎、自身免疫性视网膜病变、自身免疫性血小板减少性紫癜(ATP)、自身免疫性甲状腺疾病、自身免疫性荨麻疹、轴突与神经元神经病、巴洛病、白塞病、大疱性类天疱疮、心肌病、Castleman病、乳糜泻、美洲锥虫病、慢性疲劳综合征**、慢性炎症性脱髓鞘性多神经病(CIDP)、慢性复发性多病灶性骨髓炎(CRMO)、丘斯综合征(Churg-Strauss syndrome)、瘢痕性类天疱疮/良性粘膜类天疱疮、克罗恩病、Cogans综合征、冷凝集素病、先天性心脏传导阻滞、柯萨奇病毒性心肌炎、CREST病、原发性混合性冷球蛋白血症(Essential mixedcryoglobulinemia)、脱髓鞘性神经病、疱疹样皮炎、皮肌炎、德维克病(视神经脊髓炎)、盘状狼疮、Dressler综合征、子宫内膜异位症、嗜酸细胞性食管炎、嗜酸细胞性筋膜炎、结节性红斑、实验性变应性脑脊髓炎、Evans综合征、纤维肌痛、纤维化肺泡炎、巨细胞性动脉炎(颞动脉炎)、巨细胞性心肌炎、肾小球性肾炎、古德帕斯丘综合征(Goodpasture’s syndrome)、伴有多血管炎的肉芽肿病(GPA)(以前称为韦格纳肉芽肿病)、格雷夫斯病、格林-巴利综合征(Guillain-Barre syndrome)、桥本脑炎、桥本甲状腺炎、溶血性贫血、亨-舍紫癜(Henoch-Schonlein purpura)、妊娠疱疹、低丙球蛋白血症、特发性血小板减少性紫癜(ITP)、IgA肾病、IgG4相关硬化病、免疫调节脂蛋白(Immunoregulatory lipoproteins)、包涵体肌炎、间质性膀胱炎、幼年型关节炎、幼年型肌炎、川畸综合征(Kawasaki syndrome)、兰-伊综合征(Lambert-Eaton syndrome)、白细胞破碎性血管炎、扁平苔藓、硬化性苔藓、木样结膜炎、线状IgA病(LAD)、狼疮(SLE)、莱姆病、慢性梅尼埃病、显微镜下多血管炎、混合性结缔组织病(MCTD)、蚕蚀性角膜溃疡、穆-哈病(Mucha-Habermann disease)、多发性硬化、重症肌无力、肌炎、发作性睡病、视神经脊髓炎(德维克病)、中性粒细胞减少症、眼瘢痕性类天疱疮、视神经炎、复发性风湿病、副肿瘤性小脑变性、阵发性睡眠性血红蛋白尿症(PNH)、帕-罗综合征(Parry Romberg syndrome)、Parsonnage-Turner综合征、睫状体扁平部炎(周边葡萄膜炎)、天疱疮、周围神经病变、静脉周围脑脊髓炎(Perivenousencephalomyelitis)、恶性贫血、POEMS综合征、结节性多动脉炎、I、II、和III型自身免疫性多腺性综合征、风湿性多肌痛、多肌炎、心肌梗死后综合征、心包切开术后综合征、孕酮皮炎、原发性胆汁性肝硬化、原发性硬化性胆管炎、银屑病、银屑病性关节炎、特发性肺纤维化、坏疽性脓皮病、纯红细胞再生障碍、雷诺现象、反应性关节炎、反射性交感神经营养不良、赖特综合征(Reiter’s syndrome)、复发性多软骨炎、不宁腿综合征、腹膜后纤维化、风湿热、类风湿性关节炎、结节病、施密特综合征(Schmidt syndrome)、巩膜炎、硬皮病、舍格伦综合征、精子和睾丸自身免疫、僵人综合征、亚急性细菌性心内膜炎(SBE)、Susac综合征、交感性眼炎、高安动脉炎、颞动脉炎/巨细胞性动脉炎、血小板减少性紫癜(TTP)、托-亨综合征(Tolosa-Hunt syndrome)、横贯性脊髓炎、1型糖尿病、溃疡性结肠炎、未分化结缔组织病(UCTD)、葡萄膜炎、血管炎、水疱大疱性皮肤病(Vesiculobullous dermatosis)、白癜风、韦格纳肉芽肿病(现在称为伴有多血管炎的肉芽肿病(GPA))。

在一些情况下，所述疾病为心血管疾病，其中所述方法和系统可用来鉴别与对目前可利用的治疗的反应的改善有关的变型，以及针对在临床环境中用于使单个患者与治疗更好地匹配而开发的那些变型。

生物医学报告

本文公开的方法和系统提供了一个或多个生物医学报告。图2-图5描绘了可由本公开内容的方法和系统生成的报告的示例。本文所述方法的结果可在一个或多个生物医学报告上呈现。一个或多个生物医学报告可由本公开内容的系统生成或产生。一个或多个生物医学报告可以以打印或电子格式提供给最终用户(即，医疗保健提供者或患者)。生物医学报告可以提供多个报告因素。生物医学报告可以提供分类的遗传性变型的列表。可根据本文公开的方法将遗传性变型分类为不存在、存在或不确定。可以在生物医学报告(例如，G12A)以及相应的基因名称(例如，KRAS)中鉴别测试的特定遗传性变型。生物医学报告可进一步提供特定遗传性变型的分类(例如，“存在”)。生物医学报告可提供变型的类型(例如，激活突变)。生物医学报告可为每个测试的变型提供数据质量评分。数据质量评分可以是读取深度、碱基判定质量、映射质量或其组合。在特定的实例中，生物医学报告为每个测试的变型提供读取深度。在一些情况下，该生物医学报告可提供基于临床可行变型的分类的治疗计划或建议。例如，生物医学报告可鉴别KRAS基因中激活突变的存在，并建议患者采用针对具有已知KRAS突变的癌症所示的疗法(例如，MEK抑制剂)进行治疗。在一些情况下，患者可能目前正在接受治疗，并且生物医学报告可以指示患者应当停止治疗或开始不同的治疗(例如，变型的存在指示第二疗法比第一疗法更有效)。

本公开内容的系统

本公开内容进一步提供了用于执行本文所述方法的基于计算机的系统。在一些方面，所述系统可用于确定和报告样品中遗传性变型的存在或不存在。所述系统可包含一个或多个客户端组件。所述一个或多个客户端组件可包含用户界面。所述系统可包含一个或多个服务器组件。所述服务器组件可包含一个或多个存储器单元。所述一个或多个存储器单元可被配置为接收数据输入。所述数据输入可包含测序数据。可从来自受试者的核酸样品生成测序数据。已描述了适用于本公开内容的系统的测序数据的非限制性实例。所述系统可进一步包含一个或多个计算机处理器。所述一个或多个计算机处理器可以与一个或多个存储器单元可操作地耦合。所述一个或多个计算机处理器可被编程为将测序数据映射到参考序列。所述一个或多个计算机处理器可进一步被编程为从测序数据确定遗传性变型的存在或不存在。所述确定步骤可包括本文所述的任何方法。所述确定可包括为包含遗传性变型的基因组区域分配质量评分，以根据质量评分生成分类的遗传性变型。遗传性变型可以是临床可行变型。在一些情况下，如果确定临床可行变型存在并且质量评分大于预先确定的阈值，则可将该临床可行变型分类为存在。在一些情况下，如果确定临床可行变型不存在并且质量评分大于预先确定的阈值，则可将该临床可行变型分类为不存在。在一些情况下，如果质量评分小于预先确定的阈值，则将该临床可行变型分类为不确定。所述一个或多个计算机处理器可进一步被编程为生成输出以在屏幕上显示。所述输出可包含鉴别分类的遗传性变型的一个或多个报告。

本文所述系统可包含一个或多个客户端组件。所述一个或多个客户端组件可包含一个或多个软件组件、一个或多个硬件组件或其组合。所述一个或多个客户端组件可通过一个或多个服务器组件获得一项或多项服务。所述一项或多项服务可由一个或多个客户端组件通过网络获得。“服务”在本文用来指系统的任何产品、方法、功能或用途。例如，用户可以下订单进行基因检测。可通过系统的一个或多个客户端组件下订单，并且可通过网络将要求传送给所述系统的一个或多个服务器组件。网络可以为因特网、互联网和/或外联网，或者内联网和/或与因特网通信的外联网。网络在一些情况下为电信和/或数据网络。网络可以包括一个或多个计算机服务器，其可以实现分布式计算如云计算。在一些情况下，网络在计算机系统的帮助下可以实现对等网络，这可以使与计算机系统耦合的设备能够起到客户端或服务器的作用。

所述系统可以包括一个或多个存储器单元(例如，随机存取存储器、只读存储器、闪速存储器)、电子存储单元(例如，硬盘)、用于与一个或多个其他系统通信的通信接口(例如，网络适配器)以及外围设备，如高速缓存、其他存储器、数据存储和/或电子显示适配器。存储器、存储单元、接口和外围设备通过通信总线如主板与CPU通信。存储单元可以是用于存储数据的数据存储单元(或数据储存库)。在一个实例中，一个或多个存储器单元可以存储接收的测序数据。

所述系统可包含一个或多个计算机处理器。所述一个或多个计算机处理器可以与一个或多个存储器单元可操作地耦合，以例如访问存储的测序数据。所述一个或多个计算机处理器可以执行机器可执行代码来执行本文所述方法。例如，所述一个或多个计算机处理器可以执行机器可读代码以将测序数据输入映射到参考序列，或为包含遗传性变型的基因组区域分配质量评分。

可以以软件的形式提供机器可执行或机器可读代码。在使用期间，代码可以由处理器执行。在一些情况下，可以从存储单元中检索代码并将其存储在存储器上以供处理器随时访问。在一些情况下，可以排除电子存储单元，并将机器可执行指令存储在存储器上。

代码可以进行预编译并配置为与具有适合于执行代码的处理器的机器一起使用，可以在运行期间进行编译或者可以在运行期间进行解释。代码可以以编程语言的形式提供，可以选择编程语言以使代码能够以预编译、编译或解释的方式执行。

本文提供的系统和方法的方面如计算机系统可以在编程中体现。所述技术的各个方面可被认为是通常为承载于或体现在一种类型的机器可读介质中的机器(或处理器)可执行代码和/或有关数据形式的“产品”或“制品”。机器可执行代码可以存储在电子存储单元，如存储器(例如，只读存储器、随机存取存储器、闪速存储器)或硬盘上。“存储”型介质可以包括计算机、处理器等的有形存储器或其相关模块(如各种半导体存储器、磁带驱动器、磁盘驱动器等)中的任一个或全部，其可以在任何时间提供非暂时性存储以供软件编程。软件的全部或部分有时可以通过因特网或多种其他电信网络进行通信。例如，这样的通信可以使软件能够从一个计算机或处理器加载到另一个计算机或处理器，例如从管理服务器或主计算机加载到应用服务器的计算机平台。因此，另一种类型的可以承载软件要素的介质包括如跨本地设备之间的物理接口，通过有线和光学陆上线路网络以及经各种空中链路使用的光波、电波和电磁波。携带这样的波的物理元件如有线或无线链路、光学链路等也可以被认为是承载软件的介质。除非局限于非暂时性、有形的“存储”介质，否则如本文所用的术语如计算机或机器“可读介质”是指参与为处理器提供用于执行的指令的任何介质。

因此，机器可读介质如计算机可执行代码可以采用许多种形式，包括但不限于有形存储介质、载波介质或物理传输介质。非易失性存储介质包括例如光盘或磁盘，如任何计算机等中的任何存储设备，如可用于实现附图中所示的数据库等。易失性存储介质包括动态存储器，如这种计算机平台的主存储器。有形传输介质包括同轴电缆、铜线和光纤，包括在计算机系统中包含总线的电线。载波传输介质可以采用电信号或电磁信号，或者声波或光波如在射频(RF)和红外(IR)数据通信期间生成的那些声波或光波的形式。因此，计算机可读介质的常见形式包括例如：软盘、柔性盘、硬盘、磁带、任何其他磁介质、CD-ROM、DVD或DVD-ROM、任何其他光介质、穿孔卡纸带、具有孔图案的任何其他物理存储介质、RAM、ROM、PROM和EPROM、FLASH-EPROM、任何其他存储芯片或盒、输送数据或指令的载波、输送这样的载波的电缆或链路，或计算机可从中读取编程代码和/或数据的任何其他介质。这些形式的计算机可读介质中的许多可参与将一个或多个指令的一个或多个序列携带至处理器以供执行。

本文公开的系统可包含一个或多个电子显示器或与一个或多个电子显示器通信。电子显示器可以是计算机系统的一部分，或与计算机系统直接耦合或通过网络耦合。计算机系统可包含用于提供本文公开的多种特征和功能的用户界面(UI)。UI的实例包括但不限于图形用户界面(GUI)和基于网络的用户界面。UI可以提供交互工具，通过该交互工具用户可使用本文所述的方法和系统。举例而言，如本文所设想的UI可以是基于网络的工具，通过该工具医疗保健提供者可以预订基因检测，自定义待测试的遗传性变型的列表，以及接收和查看生物医学报告。

本文公开的方法可以包括生物医学数据库、基因组数据库、生物医学报告、疾病报告、病例-对照分析以及基于来自一个或多个数据库的数据和/或信息的罕见变型发现分析、一个或多个测定、一个或多个数据或结果、基于或来源于一个或多个测定的一个或多个输出、基于或来源于一个或多个数据或结果的一个或多个输出或其组合。

机器可执行代码

如本文所述，一个或多个计算机处理器可以执行机器可执行代码以执行本公开内容的方法。机器可执行代码可包含任何数目的开放源或封闭源软件。可以执行机器可执行代码以分析数据输入。数据输入可以是由一个或多个测序反应生成的测序数据。计算机处理器可以与至少一个存储器单元可操作地耦合。计算机处理器可以访问来自所述至少一个存储器单元的测序数据。在一些情况下，计算机处理器可以执行机器可执行代码以将测序数据映射到参考序列。在一些情况下，计算机处理器可以执行机器可执行代码以从测序数据确定遗传性变型的存在或不存在。遗传性变型可以是例如临床可行变型。在一些情况下，计算机处理器可以执行机器可执行代码以计算包含遗传性变型的至少一个基因组区域的质量评分。在一些情况下，计算机处理器可以执行机器可执行代码以为包含遗传性变型的至少一个基因组区域分配质量评分。在一些情况下，计算机处理器可以执行机器可执行代码以根据分配的质量评分将遗传性变型分类。在一些情况下，计算机处理器可以执行机器可执行代码以生成用于在屏幕上显示的输出(例如，生物医学报告)，以鉴别分类的遗传性变型。

机器可执行代码(或机器可读代码)可包括一个或多个序列比对软件。序列比对软件可包括DNA-seq比对仪。适合于执行本公开内容的方法的DNA-seq比对仪的非限制性实例包括BLAST、CS-BLAST、CUDASW++、FASTA、GGSEARCH/GLSEARCH、HMMER、HHpred/HHsearch、IDF、Infernal、KLAST、PSI-BLAST、PSI-Search、ScalaBLAST、Sequilab、SAM、SSEARCH、SWAPHI、SWAPHI-LS、SWIPE、ACANA、AlignMe、Bioconductor、Biostrings::pairwiseAlignment、BioPerldpAlign、BLASTZ、LASTZ、CUDAlign、DNADot、DOTLET、FEAST、G-PAS、GapMis、JAligner、K*Sync、LALIGN、NW-align、mAlign、matcher、MCALIGN2、MUMmer、needle、Ngila、Path、PatternHunter、ProbA(propA)、PyMOL、REPuter、SABERTOOTH、Satsuma、SEQALN、SIM、GAP、LAP、NAP、SPA、Sequences Studio、SWIFT Suit、stretcher、tranalign、UGENE、water、wordmatch、YASS、ABA、ALE、AMAP、anon.、BAli-Phy、Base-By-Base、CHAOS/DIALIGN、ClustalW、CodonCode Aligner、Compass,DECIPHER、DIALIGN-TX、DIALIGN-T、DNA Alignment、DNA Baser Sequence Assembler、EDNA、FSA、Geneious、KAlign、MAFFT、MARNA、MAVID、MSA、MSAProbes、MULTALIN、Multi-LAGAN、MUSCLE、Opal、Pecan、Phylo、Praline、PicXAA、POA、Probalign、ProbCons、PROMALS3D、PRRN/PRRD、PSAlign、RevTrans、SAGA、Se-Al、StatAlign、Stemloc、T-Coffee、UGENE、VectorFriends、GLProbs、ACT、AVID、BLAT、GMAP、Splign、Mauve、MGA、Mulan、Multiz、PLAST-ncRNA、Sequerome、Sequilab、Shuffle-LAGAN、SIBSim4、SLAM、BarraCUDA、BBMap、BFAST、BLASTN、Bowtie、HIVE-Hexagon、BWA、BWA-MEM、BWA-PSSM、CASHX、Cloudburst、CUDA-EC、CUSHAW、CUSHAW2、CUSHAW2-GPU、CUSHAW3、drFAST、ELAND、ERNE、GASSST、GEM、Genalice MAP、Geneious Assembler、GensearchNGS、GMAP、GSNAP、GNUMAP、iSSAC、LAST、MAQ、mrFAST、mrsFAST、MOM、MOSAIK、MPscan、Novoalign、NovoalignCS、NextGENe、NextGenMap、Omixon、PALMapper、Partek、PASS、PerM、PRIMEX、QPalma、RazerS、REAL、cREAL、RMAP、rNA、RTGInvestigator、Segemehl、SeqMap、Shrec、SHRiMP、SLIDER、SOAP、SOAP2、SOAP3、SOAP3-dp、SOCS、SSAHA、SSAHA2、Stampy、SToRM、Subread、Subjunc、Taipan、VelociMapper、XPressAlign、ZOOM和YAHA。在一些情况下，序列比对软件可包括RNA-seq比对仪。适合于执行本公开内容的方法的RNA-seq比对仪的非限制性实例包括Bowtie、Cufflinks、Erange、GMAP、GSNAP、GSTRUCT、GEM、IsoformEx、HISAT、HPG aligner、HMMSplicer、MapAL、MapSplice、Olego、OSA、PALMapper、PASS、RNA_MATE、ReadsMap、RUM、RNASEQR、SAMMate、SOAPSplice、SMALT、STAR1、STAR2、SpliceSeq、SpliceMap、Subread、Subjunc、TopHat1、TopHat2和X-Mate。

机器可执行代码可包括一个或多个比对可视化软件。比对可视化软件可包括但不限于Ale、IVistMSA、AliView、Base-By-Base、BioEdit、BioNumerics、BoxShade、CINEMA、CLC查看器、ClustalX查看器、Cylindrical BLAST查看器、DECIPHER、Discovery Studio、DnaSP、emacs-biomode、Genedoc、Geneious、整合基因组浏览器(IGB)、IntegrativeGenomics查看器(IGV)、Jalview 2、JEvTrace、JSAV、Maestro、MEGA、Multiseq、MView、PFAAT、Ralee、S2S RNA编辑器、Seaview、Sequilab、SeqPop、Sequlator、SnipViz、Strap、Tablet、UGENE、VISSA序列/结构查看器、Artemis、Savant、DNApy、比对注解器(AlignmentAnnotator)、Google Genomics API浏览器和PyBamView。

机器可执行代码可包括一个或多个变型判定软件。变型判定软件可包括生殖细胞系或体细胞判定器，该判定器鉴别所有单核苷酸变型、插入和缺失，并报告支持鉴别的变型的存在的读取计数。生殖细胞系或体细胞判定器的实例可包括但不限于CRISP、SNVer、Platypus、BreaKmer、Gustaf、GATK、VarScan、VarScan2、Somatic Sniper和SAMTools。变型判定软件可包括鉴别拷贝数变化的CNV鉴别器(identifier)。CNV鉴别器的实例可包括但不限于CNVnator、RDXplorer、CONTRA和ExomeCNV。变型判定软件可包括结构变型鉴别器，其鉴别DNA-seq数据中较大的插入、缺失、倒位、染色体间和染色体内易位或RNA-seq数据中的融合产物。结构变型鉴别器的实例可包括但不限于BreakDancer、Breakpointer、ChimeraScan、DeFuse、Delly、CLEVER、EBARDenovo、FusionAnalyser、FusionCatcher、FusionHunter、FusionMap、Fusion Seq、GASBPro、JAFFA、PRADA、SOAPFuse、SOAPfusion、SVMerge和TopHat-Fusion。

机器可执行代码可包含一种或多种算法。所述一种或多种算法可用于实现本公开内容的方法。一种或多种算法可包含特征计数算法。特征计数算法可用于计算给定区域列表的每个区域内的最大、最小或平均读取深度。特征计数算法的输出可用于计算变型的不存在的确定性，以及用于证实变型的存在的确定性。一种或多种算法可包含参考构建器算法(builder algorithm)。参考构建器算法可将被用户选择用于包含在测试小组中的变型转换成染色体位置(即，遗传地址)。一种或多种算法可包含质量评分算法。质量评分算法可根据质量输入为每个变型的不存在或存在判定分配1％至100％之间的置信度评分。一种或多种算法可包含直接挖掘算法。直接挖掘算法可以利用测试小组上的变型附近的参考序列来查询原始读取数据并汇集证据以支持该变型的存在或不存在。

计算机系统

本公开内容的系统可包含一个或多个计算机系统。图1显示了被编程或以其他方式配置为实现本公开内容的方法如接收测序数据以及将遗传性变型的存在或不存在分类的计算机系统(本文也称为“系统”)101。系统101包括中央处理器(CPU，本文也称为“处理器”和“计算机处理器”)105，其可以是单核或多核处理器或用于平行处理的多个处理器。系统101还包括存储器110(例如，随机存取存储器、只读存储器、闪速存储器)、电子存储单元115(例如，硬盘)、用于与一个或多个其他系统通信的通信接口120(例如，网络适配器)以及外围设备125，如高速缓存、其他存储器、数据存储和/或电子显示适配器。存储器110、存储单元115、接口120和外围设备125通过通信总线(实线)如主板与CPU 105通信。存储单元115可以是用于存储数据的数据存储单元(或数据储存库)。系统101在通信接口120的帮助下与计算机网络(“网络”)130可操作地耦合。网络130可以为因特网、互联网和/或外联网，或者内联网和/或与因特网通信的外联网。网络130在一些情况下为电信和/或数据网络。网络130可以包括一个或多个计算机服务器，其可以实现分布式计算如云计算。在一些情况下，网络130在系统101的帮助下可以实现对等网络，这可以使与系统101耦合的设备能够起到客户端或服务器的作用。

系统101与处理系统140通信。处理系统140可以被配置为实现本文公开的方法，如将测序数据映射到参考序列或为遗传性变型分配分类。处理系统140可通过网络130或通过直接(例如，有线、无线)连接与系统101通信。处理系统140可被配置用于分析，如核酸序列分析。

可通过系统101的电子存储位置，例如存储器110或电子存储单元115上存储的机器(或计算机处理器)可执行代码(或软件)来实现如本文所述的方法和系统。在使用期间，代码可以由处理器105执行。在一些实例中，可以从存储单元115中检索代码并将其存储在存储器110上以供处理器105随时访问。在一些情况下，可以排除电子存储单元115，并将机器可执行指令存储在存储器110上。

本文提供的系统和方法的方面可以在编程中体现。所述技术的各个方面可被认为是通常为承载于或体现在一种类型的机器可读介质中的机器(或处理器)可执行代码和/或有关数据形式的“产品”或“制品”。机器可执行代码可以存储在电子存储单元，如存储器(例如，只读存储器、随机存取存储器、闪速存储器)或硬盘上。“存储”型介质可以包括计算机、处理器等的有形存储器或其相关模块(如各种半导体存储器、磁带驱动器、磁盘驱动器等)中的任一个或全部，其可以在任何时间提供非暂时性存储以供软件编程。软件的全部或部分有时可以通过因特网或多种其他电信网络进行通信。例如，这样的通信可以使软件能够从一个计算机或处理器加载到另一个计算机或处理器，例如从管理服务器或主计算机加载到应用服务器的计算机平台。因此，另一种类型的可以承载软件要素的介质包括如跨本地设备之间的物理接口，通过有线和光学陆上线路网络以及经各种空中链路使用的光波、电波和电磁波。携带这样的波的物理元件如有线或无线链路、光学链路等也可以被认为是承载软件的介质。除非局限于非暂时性、有形的“存储”介质，否则如本文所用的术语如计算机或机器“可读介质”是指参与为处理器提供用于执行的指令的任何介质。

因此，机器可读介质如计算机可执行代码可以采用许多种形式，包括但不限于有形存储介质、载波介质或物理传输介质。非易失性存储介质包括例如光盘或磁盘，如任何计算机等中的任何存储设备，如可用于实现数据库等。易失性存储介质包括动态存储器，如这种计算机平台的主存储器。有形传输介质包括同轴电缆、铜线和光纤，包括在计算机系统中包含总线的电线。载波传输介质可以采用电信号或电磁信号，或者声波或光波如在射频(RF)和红外(IR)数据通信期间生成的那些声波或光波的形式。因此，计算机可读介质的常见形式包括例如：软盘、柔性盘、硬盘、磁带、任何其他磁介质、CD-ROM、DVD或DVD-ROM、任何其他光介质、穿孔卡纸带、具有孔图案的任何其他物理存储介质、RAM、ROM、PROM和EPROM、FLASH-EPROM、任何其他存储芯片或盒、输送数据或指令的载波、输送这样的载波的电缆或链路，或计算机可从中读取编程代码和/或数据的任何其他介质。这些形式的计算机可读介质中的许多可参与将一个或多个指令的一个或多个序列携带至处理器以供执行。

计算机系统101可包括电子显示器或与电子显示器通信，该电子显示器包含用于提供例如可通过本公开内容的方法分析的遗传性变型的可自定义菜单的用户界面(UI)。UI的实例包括但不限于图形用户界面(GUI)和基于网络的用户界面。

在一些实施方案中，系统101包括显示器以向用户提供可视信息。在一些实施方案中，显示器为阴极射线管(CRT)。在一些实施方案中，显示器为液晶显示器(LCD)。在进一步的实施方案中，显示器为薄膜晶体管液晶显示器(TFT-LCD)。在一些实施方案中，显示器为有机电致发光二极管(OLED)显示器。在多个进一步的实施方案中，OLED显示器为无源矩阵OLED(PMOLED)或有源矩阵OLED(AMOLED)显示器。在一些实施方案中，显示器为等离子体显示器。在其他实施方案中，显示器为视频投影机。在进一步的实施方案中，显示器为设备如本文公开的设备的组合。显示器可向最终用户提供如通过本文所述方法生成的一个或多个生物医学报告。

在一些实施方案中，系统101包括输入设备以接收来自用户的信息。在一些实施方案中，输入设备为键盘。在一些实施方案中，输入设备为定点设备，举非限制性实例，包括鼠标、跟踪球、跟踪板、操纵杆、游戏控制器或指示笔。在一些实施方案中，输入设备为触摸屏或多点触摸屏。在其他实施方案中，输入设备为麦克风以捕获语音或其他声音输入。在其他实施方案中，输入设备为摄像机以捕获运动或视觉输入。在进一步的实施方案中，输入设备为设备如本文公开的设备的组合。

系统101可以包括一个或多个数据库或与一个或多个数据库可操作地耦合。数据库可包括基因组、蛋白质组学、药物基因组学、生物医学和科学数据库。数据库可以是公开可得的数据库。备选地或另外，数据库可包括专有数据库。数据库可以是商购可得的数据库。数据库包括但不限于MendelDB、PharmGKB、Varimed、Regulome、curated BreakSeqjunctions、在线人类孟德尔遗传数据库(OMIM)、人类基因组突变数据库(Human GenomeMutation Database，HGMD)、NCBI dbSNP、NCBI RefSeq、GENCODE、GO(基因本体论)以及京都基因和基因组百科全书(KEGG)。

数据可以在包含与数据的用户相同的国家的地理位置中产生和/或传送。数据可以例如从一个国家中的地理位置生成和/或传送，而数据的用户可以存在于不同的国家。在一些情况下，本公开内容的系统访问的数据可以从多个地理位置中的一个传送给用户。数据可以在多个地理位置之间来回传送，例如通过网络、安全网络、不安全的网络、互联网或内联网。

用户界面

所述系统可包含一个或多个用户界面。所述一个或多个用户界面可用于执行本文公开的方法的全部或部分。用户可在预订基因检测之前选择待查询的遗传性变型，或者可在预订基因检测之后选择遗传性变型。所述方法的用户可以是例如，患者、医疗保健提供者或临床实验室(即，CLIA认证的)。在一些情况下，可以选择第一组遗传性变型进行第一基因检测，随后可以选择第二组遗传性变型进行第二基因检测。第二基因检测可包括再分析用于第一基因检测的测序数据、分析新的测序数据或分析两者的组合。被选择用于第二基因检测的遗传性变型可根据第一基因检测的分析进行选择。例如，在第一基因检测中鉴别的第一临床可行变型可指示应分析测序数据中第二临床可行变型的存在或不存在。医疗保健提供者或患者可选择遗传性变型的小组，以通过用户界面进行筛选。变型的小组可以是根据疾病类型或亚型、表型等分组的多个变型。变型的小组可包含已知与特定疾病或表型有关的多个临床可行变型。在一些情况下，可以预设或预先确定小组。每组变型可根据患者的需要进行自定义和定制。例如，用户可选择完全预设的变型小组，可以从预设小组中取消选择一个或多个变型，或者可以将感兴趣的另外的变型添加到预设小组中。所述另外的变型可以是与所选小组的疾病或表型有关的变型，或者可以是与不同疾病或表型有关的变型。变型的小组可以根据科学文献、基因组研究、数据库等进行更新。例如，如果变型先前被分类为未知意义的变型(VUS)但已经被重新分类为临床可行变型，则可以将该变型添加到小组中。同样地，如果临床可行变型被重新分类为良性，则可从小组中去除该变型。

所公开的方法和系统可利用可从一个或多个数据库、在线来源或公开来源中汇集的临床可行变型的预定义组。公开来源的非限制性实例可包括NCCN肿瘤临床实践指南、ESMO肿瘤临床实践指南、AMP临床实践指南和CAP IASLC AMP分子测试指南。在线来源的非限制性实例可包括药物标签中的药物基因组生物标志物的FDA表(http://fda.gov/Drugs/ScienceResearch/ResearchAreas/Pharmacogenetics/u cm083378.htm)和NCI异常应答者倡议数据库(NCI Exceptional Responder Initiative database)。数据库的其他非限制性实例可包括MyCancerGenome(http://mycancergenome.com)、PharmGKB(http://pharmgkb.org)、MD Anderson个性化精确肿瘤学癌症治疗知识库(MD AndersonPersonalized Cancer Therapy Knowledge Base for Precision Oncology)(http://pct.mdanderson.org)。来源的其他非限制性实例可包括在主要癌症中心的临床学习系统，包括IBM Watson和ASCO CancerLINQ。在一些情况下，临床可行变型为选自表1的临床可行变型。

性能

可使用本文公开的方法和系统来改善鉴别和/或分类变型的性能。本文公开的方法和系统可以以约或大于约50％、55％、60％、65％、70％、75％、76％、77％、78％、79％、80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或99.5％的特异性对遗传性变型进行鉴别和/或分类。本文公开的方法和系统可以以约或大于约50％、55％、60％、65％、70％、75％、76％、77％、78％、79％、80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或99.5％的灵敏度对遗传性变型进行鉴别和/或分类。本文公开的方法和系统可以以约或至少约80％、85％、90％、95％、95.5％、96％、96.5％、97％、97.5％、98％、98.5％、99％、99.5％或更大的阳性预测值对遗传性变型进行鉴别和/或分类。本文公开的方法和系统可以以约或至少约80％、85％、90％、95％、95.5％、96％、96.5％、97％、97.5％、98％、98.5％、99％、99.5％或更大的阴性预测值对遗传性变型进行鉴别和/或分类。

与当前方法的灵敏度相比，本文公开的方法和系统可提高灵敏度。如本文所述的方法和系统可将灵敏度提高至少约1％、2％、3％、4％、5％、5.5％、6％、6.5％、7％、7.5％、8％、8.5％、9％、9.5％、10％、10.5％、11％、12％、13％、14％、15％、16％、17％、18％、19％、20％、25％、30％、35％、40％、45％、50％、55％、60％、70％、80％、90％、95％、97％或更多。如本文所述的方法和系统可将特异性提高至少约1％、2％、3％、4％、5％、5.5％、6％、6.5％、7％、7.5％、8％、8.5％、9％、9.5％、10％、10.5％、11％、12％、13％、14％、15％、16％、17％、18％、19％、20％、25％、30％、35％、40％、45％、50％、55％、60％、70％、80％、90％、95％、97％或更多。

本文公开的方法和系统可鉴别突变等位基因分数为至少1％、2％、3％、4％、5％、6％、7％、8％、9％、10％、15％、20％、25％、30％、35％、40％、45％、50％、60％、70％、80％、90％、95％、96％、97％、98％、99％或更大的变型。在一些情况下，分类具有至少99％的灵敏度。在一些情况下，分类具有至少99％的特异性。在一些实例中，当被分类为存在时，每个变型具有至少5％的突变等位基因分数。在其他情况下，当被分类为存在时，每个变型具有至少10％的突变等位基因分数。在一些情况下，分类具有至少99％的阳性预测值。

在一些情况下，与替代方法相比，本公开内容的方法可以用于降低测序数据集中的假阴性的频率或消除假阴性(不准确地称为“不存在”遗传性变型)。与替代方法相比，本文公开的方法可使假阴性的频率降低约1％、约2％、约3％、约4％、约5％、约6％、约7％、约8％、约9％、约10％、约20％、约30％、约40％、约50％、约60％、约70％、约80％、约90％、约91％、约92％、约93％、约94％、约95％、约96％、约97％、约98％、约99％或约100％。另外或备选地，与替代方法相比，本公开内容的方法可以用于降低测序数据集中的假阳性的频率或消除假阳性。与替代方法相比，本文公开的方法可使假阳性的频率降低约1％、约2％、约3％、约4％、约5％、约6％、约7％、约8％、约9％、约10％、约20％、约30％、约40％、约50％、约60％、约70％、约80％、约90％、约91％、约92％、约93％、约94％、约95％、约96％、约97％、约98％、约99％或约100％。

实施例

以下实施例是为了说明本发明的各种实施方案而给出的，并非意在以任何方式限制本发明。本发明的实施例以及本文所述的方法目前是优选实施方案的代表，是示例性的，并非旨在对本发明的范围进行限制。本领域技术人员将想到其中的变化以及包含在由权利要求的范围限定的本发明的精神内的其他用途。

实施例1.鉴别癌症样品群组中的遗传性变型

测序将很快成为实体瘤的诊断检查中的基本工具。在临床开发流程中的超过700种肿瘤药物中，预计73％需要生物标志物。需要改进的软件系统来管理多标志物测试的复杂性。建立了一种软件系统，该系统将采用高效的医学级分析可靠地提供跨越在癌症类型、组织保存和靶标富集方面的变化的一致结果，该结果可容易地在大多数病理实验室中进行验证并整合至实体瘤工作流程中。

选择来自5个不同实验室的公开数据的54个样品来代表处理条件和肿瘤类型的不同组合。选择的标准是AKT、ALK、BRAF、BRCA1、CDKN2A、EGFR、KRAS、NRAS、PIK3CA、PIK3R1或PTEN中存在一个或多个可行变型。37个样品来自患者肿瘤，包括肺、结肠、食管肿瘤和未知原发性癌症，其中18个样品为FFPE样品。来自循环肿瘤细胞(CTC)的9个样品与常用于实验室验证的8个细胞系样品的稀释系列一起包括在内。使用仅有肿瘤的数据进行该项研究。独立地开发评估中的新软件系统，其配置有156个变型的预定义测试小组，并随后在该研究期间将该小组锁定。身份隐藏的FASTQ文件作为单个批次进行处理。揭露结果以与原始公开来源进行比较。

新软件系统鉴别了37个患者肿瘤的36个中的所有可行变型，在单个样品中仅错失了2个变型中的1个。正确报告了全部细胞系稀释系列。在CTC系列中正确报告了9个样品中的5个，其余样品具有1个错失的变型。在读取深度低于30x的情况下，CTC系列中错失的判定表明不一致的读取深度是该样品类型中性能不均匀的原因。在所有患者肿瘤样品中，成功的判定具有50x至2800x的读取深度，表明功能检测限为50x。新软件系统显示了与FFPE和冷冻的细胞系和患者实体瘤样品的高度一致性。

实施例2.用户的变型小组选择

用户(即，医疗保健从业者或临床实验室)访问本公开内容的用户门户。向该用户呈现可被选择用于查询的临床可行变型的菜单。该用户可选择包含与特定疾病(例如，前列腺癌)有关的多个临床可行变型的预设或预定义变型小组。该用户确定该小组中的两个临床可行变型是不感兴趣的，并从该小组中取消选择或去除这两个临床可行变型。该用户还向该小组中添加近来已在科学出版物中被描述为与前列腺癌的治疗反应有关的三个遗传性变型。该用户保存小组选择并将该小组选择传送至服务器。用户将两种FASTQ文件格式上载至服务器，该服务器包含患有前列腺癌的患者的靶标富集的测序数据。计算机处理器鉴别含有测试小组中定义的临床可行变型的遗传地址的测序数据的基因组区域。计算机处理器根据本公开内容的方法鉴别每个临床可行变型的存在或不存在。计算机处理器生成列出每个临床可行变型的分类以及治疗建议的报告。服务器将该报告传送至用户门户以供用户查看。

实施例3.新软件系统在采用多实验室数据的研究中显示高度一致性

测序将很快成为实体瘤的诊断检查中的基本工具。在临床开发流程中的超过700种肿瘤药物中，预计73％需要生物标志物。需要改进的软件系统来管理多标志物测试的复杂性。

构建了新软件系统，该系统将采用高效的医学级分析可靠地提供跨越在癌症类型、组织保存和靶标富集方面的变化的一致结果，该结果可容易地在大多数病理实验室中进行验证并整合至实体瘤工作流程中。简要描述了来自初始验证研究的发现。

该研究的目的是评估采用代表临床使用中期望的宽范围的条件的数据：多种组织类型和保存以及多个实验室、方案和仪器，单一的标准分析核心是否可以提供一致性能，以评估我们利用仅有肿瘤的数据的新型分析是否可以提供与更昂贵的肿瘤正常分析等同的结果，以及跨越一系列读取深度评估新软件系统的性能。通常的做法需要使分析“调整”为单个实验室方案和仪器，因此方案变化可能是极具破坏性的。另外，通常的做法利用可能使测试成本加倍的肿瘤正常成对样品。

选择来自五(5)个不同实验室的公开数据的五十四(54)个样品来代表如表2中所示的处理条件和肿瘤类型的不同组合。选择的标准是AKT、ALK、BRAF、BRCA1、CDKN2A、EGFR、KRAS、NRAS、PIK3CA、PIK3R1或PTEN中存在一个或多个可行变型。使用如表3中所示的仅有肿瘤的数据进行该项研究。

表2.5个实验室的处理条件

实验室	靶标富集	测序仪
			位点1	SureSelect自定义	Illumina基因组分析仪IIx
位点2	SureSelect全部外显子50MB	Illumina HiSeq 2000
			位点3	SureSelect自定义	Illumina HiSeq 2000
位点4	DNA集成技术，自定义	Illumina HiSeq 2000
			位点5	SureSelect全部外显子v4	Illumina HiSeq 2000

表3.样品处理条件

独立地开发评估中的新软件系统，其配置有156个变型的预定义测试小组，并随后在该研究期间将该小组锁定。身份隐藏的FASTQ文件作为单个批次进行处理。揭露结果以与原始公开来源进行比较。图6示出了研究设计的工作流程。

如表4和图7中所示，新软件系统鉴别了37个患者肿瘤中的36个中的所有可行变型，在单个样品中仅错失2个变型中的1个。正确报告了全部细胞系稀释系列。在循环肿瘤细胞(CTC)系列中正确报告了9个样品中的5个，而其余样品具有1个错失的变型。具有错失判定的4个CTC样品(样品46、样品49、样品51和样品52)在假定的变型位置分别具有<5x、<5x、5x和25x的读取深度。这些结果建立了功能检测限的下界。低于30x的读取深度提供的数据不充足，从而无法鉴别这些样品中指定位置处的变型。

发现样品14和样品31在KRAS密码子12中具有氨基酸置换，这在原始出版物中被错误报告。仔细查看KRAS密码子12中的读取，显示样品14携带双突变CC→AA，产生了G→F氨基酸置换。使用Integrative Genomics查看器(IGV)和Ensembl Variant Effect Predictor(VEP)验证新软件系统产生的结果。

表4.结果

^*参见结果描述中的解释

在样品14和样品31中发现的变型到氨基酸变化的错误映射在设计用于研究用途的分析管线(pipeline)中是常见的。这些管线将变型判定与效果预测分开。采用这种方式，效果预测接收的信息不充足，从而无法识别出独立检测的两个单核苷酸变型存在于相同的读取上以及共用对所得氨基酸具有联合作用的密码子。

通过新软件系统准确判定读取深度大于30x的每个样品，包括具有原始出版物错误报告的挑战性变型的那些样品。图8为示出算法的性能的混淆矩阵。

在该初始验证研究中，新软件系统显示出与福尔马林固定的、石蜡包埋(FFPE)和冷冻的细胞系和患者实体瘤样品的高度一致性。该单一的标准分析核心在临床使用中期望的条件范围内提供一致的性能。

新软件系统中的算法使仅有肿瘤的数据能够提供与更昂贵的肿瘤正常分析等同的结果。读取深度大于30x的准确判定表明当采用新软件系统时对于临床样品通常接受的100x的下界可能降低。

实施例4.独立的变型水平评估揭露在基于测序的EGFR测试中探针设计和覆盖的差异

EGFR抑制剂在采用已知诱导对这些靶向疗法的敏感性或抗性的特定变型治疗肺癌中发挥重要作用。FDA批准的标签需要针对EGFR外显子19缺失和外显子21(L858R)进行测试。由医学病理学协会(AMP)、美国病理学家学会(CAP)和国际肺癌研究协会(IASLC)出版并被美国临床肿瘤学会(ASCO)支持的2013年共有序列指南(2013consensus guideline)将该列表扩充至外显子18、19、20和21上的26个EGFR变型，其被推荐用于肺腺癌的常规测试。

测序通常用于EGFR变型检测，但仅当该处理方案在待检测变型的位置处提供充足覆盖或读取深度时该方法才足够灵敏。

对常用于基于测序的测试的靶标富集方案是否在2013AMP/CAP/IASLC指南中的每个可报告区域提供一致且充足的读取深度进行评估。为了进行该评估，建立新型算法(CoverageFx)以进行每个可报告区域的读取深度的统计评估。

从公开来源中选择来自12个群组，由11个不同实验室测序的数据。入选标准为：1)EGFR包含在靶标富集设计中；以及2)平均读取深度报告为50x或更大。

利用来自Agilent、Illumina、Ion和Raindance的Illumina和Ion测序仪和靶标富集方案生成所包含的数据。患者样品来自10个不同的癌症类型，包括肺癌、结肠癌、乳腺癌和黑色素瘤。每个群组由3-5个随机选择的样品代表。

以FASTQ数据文件形式从公开可得的来源获得在11个不同实验室测序的总计54个癌症患者样品。通过实施例3中所述的Farsigh分析核心(Farsight Analytic Core)处理这些数据。按群组将结果分组以便利用CoverageFx算法进行后处理，以进行每个可报告区域的读取深度的统计评估。

表5总结了对该研究中包含的12个群组中每一个的读取深度影响最大的处理特征。这些处理特征包括靶标富集方法、测序仪、肿瘤类型和样品保存方法。每个测序实验室包括如在其各自原始出版物中所述的总读取深度的评估。选择的可报告区域的平均局部读取深度是由CoverageFx算法计算的读取深度。在所有EGFR可报告区域中，呈现了平均读取深度低于100x的百分比。对于测序数据的临床使用，100x的读取深度通常被认为是可以在含有低至20％肿瘤的活检物中检测到10％的肿瘤细胞中存在突变的最小阈值。

由CoverageFx算法进行的统计分析以针对每个群组均显示的盒须图呈现(图9)。

如表5所示，由CoverageFx评估的局部读取深度揭露了读取深度低于临床阈值100x的大量单独的可报告区域。尽管这些群组可能没有按照临床目的进行测序，但考虑到原始出版物中报告的内容，该差异大于预期的差异。对于分析的多个群组，由于低于该可报告区域中的平均读取深度，因此可能已经错失了导致抗性的T790变型。

表5.包含在总结中的群组的汇总

如针对12个群组的盒须图(图9)中所示，通过CoverageFx进行的更广泛的统计分析揭露了在可报告区域之间读取深度的其他隐藏的变化。对于12个群组中的8个，差异显著。

在充足的读取深度下EGFR外显子19可报告区域在几乎所有群组中得到一致评估。这并不意外，因为外显子19的缺失是自早期临床试验以来已用于患者选择的激活突变，并且现在在EGFR抑制剂的标签上。相比之下，外显子18、20和21在关键区域都取样不足。在仅50％的群组中在充足的读取深度下测量外显子20，T790中重要的可报告区域。在仅42％-58％的群组中在充足的读取深度下测量外显子21上重要的L858区域以及外显子18可报告区域。出现了靶标富集的重要差异，且所有外显子靶标富集产物的更新版本的外显子18、20和21的读取深度显著改善。

该多群组研究表明，在临床测序中单独的平均覆盖是不充足的，甚至是误导性的质量测量。本研究中使用的CoverageFx算法揭露了关键的可报告区域的覆盖的显著出乎意料的变化。

该研究强调了实验室进行基于测序的测试的重要性，以确认在每个可报告区域的阅读深度充足。应在测试验证时最低限度地进行这种读取深度确认。理想情况下，对于每个患者报告，应确认每个可报告区域的读取深度。

实施例5.适应症专用的报告

由本公开内容的系统接收测序数据输入。测序数据输入可以来自测序仪(例如，Illumina测序仪)或来自数据储存库。该系统鉴别与三种不同适应症有关的临床可行变型的存在或不存在。选择具有显著的基因列表重叠的适应症来优化运行该系统的成本。用户(即，医疗保健从业者或临床实验室)访问本公开内容的用户门户。用户具有从三个报告中选择的选择权。三个报告中的每一个提供与相应适应症的临床可行变型的存在或不存在有关的信息。计算机处理器生成列出每个临床可行变型的分类以及治疗建议的报告。服务器将该报告传送至用户门户以供用户查看。

实施例6.双输出系统

用户(即，医疗保健从业者或临床实验室)访问本公开内容的用户门户。向该用户呈现可被选择用于查询的临床可行变型的菜单。该用户可选择包含与特定疾病(例如，前列腺癌)有关的多个临床可行变型的预设或预定义变型小组。该用户确定该小组中的两个临床可行变型是不感兴趣的，并从该小组中取消选择或去除这两个临床可行变型。该用户还向该小组中添加近来已在科学出版物中被描述为与前列腺癌的治疗反应有关的三个遗传性变型。用户进一步选择临床试验赞助商要求的多个基因/变型。该用户保存小组选择并将该小组选择传送至服务器。用户将两种FASTQ文件格式上载至服务器，该服务器包含患有前列腺癌的患者的靶标富集的测序数据。用户任选地将临床试验资格报告上载至含有与患者有关的信息(例如，传记数据、健康风险评估等)的系统。计算机处理器鉴别含有测试小组中定义的临床可行变型的遗传地址的测序数据的基因组区域。计算机处理器根据本公开内容的方法鉴别每个临床可行变型的存在或不存在。计算机处理器生成列出每个临床可行变型的分类以及治疗建议的报告。计算机处理器生成列出临床试验赞助商要求的附加基因/变型的分类的单独报告。服务器将合并的报告传送至用户门户以供用户查看。用户可以与临床试验赞助商共享用户门户的入口或者可以将该报告转送至临床试验赞助商。

实施例7.平行分析系统

用户(即，医疗保健从业者或临床实验室)访问本公开内容的用户门户。向该用户呈现可被选择用于查询的临床可行变型的菜单。该用户可选择包含与特定疾病(例如，前列腺癌)有关的多个临床可行变型的预设或预定义变型小组。该用户确定该小组中的两个临床可行变型是不感兴趣的，并从该小组中取消选择或去除这两个临床可行变型。该用户还向该小组中添加近来已在科学出版物中被描述为与前列腺癌的治疗反应有关的三个遗传性变型。该用户保存小组选择并将该小组选择传送至服务器。用户将两种FASTQ文件格式上载至服务器，该服务器包含患有前列腺癌的患者的靶标富集的测序数据。计算机处理器鉴别含有测试小组中定义的临床可行变型的遗传地址的测序数据的基因组区域。计算机处理器根据本公开内容的方法鉴别每个临床可行变型的存在或不存在。该系统进一步使用第三方设计的多标志物算法。计算机处理器生成列出每个临床可行变型的分类以及治疗建议的报告。计算机处理器利用多标志物算法将计算整合至该报告中。服务器将两个报告传送至用户门户以供用户查看。

尽管本文中已经示出并描述了本发明的优选实施方案，但对于本领域技术人员显而易见的是，这些实施方案仅以示例的方式提供。本领域技术人员在不脱离本发明的情况下现将想到多种变化、改变和替代。应当理解，本文中所述的本发明实施方案的各种替代方案可用于实施本发明。旨在由以下权利要求限定本发明的范围，并由此涵盖这些权利要求范围内的方法和结构及其等同项。

Claims

1.一种用于报告遗传性变型的存在或不存在的系统，该系统包括：

(a)被配置为接收数据输入的至少一个存储器单元，该数据输入包含由来自受试者的核酸样品生成的测序数据；

(b)与所述至少一个存储器单元可操作地耦合的计算机处理器，其中所述计算机处理器被编程为(i)从所述测序数据确定所述遗传性变型的存在或不存在，其中所述确定包括为包含所述遗传性变型的基因组区域分配一质量评分，以根据所述质量评分生成分类的遗传性变型；以及(ii)生成输出，其中所述输出鉴别所述分类的遗传性变型；

其中如果确定所述遗传性变型存在并且所述质量评分大于预先确定的阈值，则将所述遗传性变型分类为存在，

其中如果确定所述遗传性变型不存在并且所述质量评分大于预先确定的阈值，则将所述遗传性变型分类为不存在，并且

其中如果所述质量评分小于预先确定的阈值，则将所述遗传性变型分类为不确定。

2.根据权利要求1所述的系统，其中所述输出包含鉴别所述分类的遗传性变型的报告。

3.根据权利要求2所述的系统，其中将所述报告递送至用户界面进行显示。

4.根据权利要求1所述的系统，其中所述计算机处理器被编程为将所述测序数据映射到一参考序列。

5.根据权利要求4所述的系统，其中所述参考序列为共有参考序列。

6.根据权利要求4所述的系统，其中根据经验从肿瘤测序数据得到所述参考序列。

7.根据权利要求6所述的系统，其中所述遗传性变型为临床可行变型。

8.根据权利要求7所述的系统，其中所述临床可行变型在改变所述受试者对疗法的反应的基因中。

9.根据权利要求8所述的系统，其中所述报告根据所述分类的遗传性变型推荐治疗。

10.根据权利要求1所述的系统，其中通过覆盖深度、映射质量和碱基读取质量中的至少一个来确定所述质量评分。

11.根据权利要求10所述的系统，其中根据经验确定所述质量评分。

12.根据权利要求1所述的系统，其中所述受试者患有疾病。

13.根据权利要求12所述的系统，其中所述疾病为癌症。

14.根据权利要求1所述的系统，其中所述受试者易患癌症。

15.根据权利要求1所述的系统，其中所述测序数据包含靶标富集的测序数据。

16.根据权利要求15所述的系统，其中所述靶标富集的测序数据包含全外显子组测序数据。

17.根据权利要求15所述的系统，其中从靶标富集测序方案生成所述靶标富集的测序数据。

18.根据权利要求17所述的系统，其中如果所述遗传性变型被分类为不确定，则进行对所述靶标富集测序方案的修改。

19.根据权利要求18所述的系统，其中所述至少一个存储器单元被配置为接收第二数据输入，该第二数据输入包含由对所述靶标富集测序方案的所述修改生成的第二测序数据。

20.根据权利要求19所述的系统，其中对所述靶标富集方案的所述修改包括对靶标特异性引物和靶标特异性探针的至少一个修改。

21.根据权利要求3所述的系统，其中所述用户界面被配置为使用户能够选择变型测试小组。

22.根据权利要求21所述的系统，其中所述计算机处理器被编程为确定选自所述变型测试小组的遗传性变型的存在或不存在。

23.根据权利要求22所述的系统，其中所述用户界面被配置为使用户能够修改所述变型测试小组。

24.根据权利要求23所述的系统，其中所述用户界面被配置为使用户能够在所述变型测试小组中添加或去除至少一个遗传性变型。

25.根据权利要求21所述的系统，其中所述用户界面与至少一个数据库可操作地耦合。

26.根据权利要求25所述的系统，其中所述用户界面接收来自所述至少一个数据库的数据输入。

27.根据权利要求26所述的系统，其中所述变型测试小组根据来自所述至少一个数据库的所述数据输入实时更新。

28.根据权利要求21所述的系统，其中所述变型测试小组包含至少一个临床可行变型。

29.一种系统，其包括：

(a)客户端组件，其中所述客户端组件包含用户界面；

(b)服务器组件，其中所述服务器组件包含至少一个存储器单元，该至少一个存储器单元被配置为接收包含从核酸样品生成的测序数据的数据输入；

(c)与所述服务器组件可操作地耦合的所述用户界面；以及

(d)与所述至少一个存储器单元可操作地耦合的计算机处理器，其中所述计算机处理器被编程为将所述测序数据映射到一参考序列，并为所述映射的测序数据的多个感兴趣基因组区域中的每一个分配一质量评分；

其中所述用户界面被编程为使用户能够选择至少一个遗传性变型并将所述选择传送到所述服务器组件，其中(i)所述遗传性变型位于所述多个感兴趣基因组区域中的至少一个内；(ii)所述计算机处理器被编程为返回包含所述至少一个遗传性变型的所述多个感兴趣基因组区域中的至少一个的所述质量评分；并且(iii)所述计算机处理器被编程为将所述多个感兴趣基因组区域中的至少一个的所述质量评分与预先确定的阈值进行比较，其中如果所述质量评分大于所述预先确定的阈值，则所述质量评分被报告为充足，并且其中如果所述质量评分低于所述预先确定的阈值，则所述质量评分被报告为不充足，并且如果所述质量评分被报告为充足，则所述计算机处理器被编程为确定所述至少一个遗传性变型中每一个的存在或不存在，

其中如果确定所述遗传性变型存在并且所述质量评分大于所述预先确定的阈值，则将所述遗传性变型分类为存在，

并且其中如果确定所述遗传性变型不存在并且所述质量评分大于所述预先确定的阈值，则将所述遗传性变型分类为不存在。

30.根据权利要求29所述的系统，其中如果所述质量评分被报告为不充足，则所述计算机处理器被编程为将所述至少一个遗传性变型翻译成至少一个染色体位置。

31.根据权利要求30所述的系统，其中所述服务器组件将所述至少一个染色体位置传送到第三方服务器组件。

32.根据权利要求29所述的系统，其中通过覆盖深度、映射质量和碱基质量中的至少一个来确定所述质量评分。