CN118103525A

CN118103525A - 用于自动调用拷贝数改变的方法和系统

Info

Publication number: CN118103525A
Application number: CN202280067616.3A
Authority: CN
Inventors: 伯纳德·芬德勒; 杰森·D·休斯
Original assignee: Foundation Medical Co
Current assignee: Foundation Medical Co
Priority date: 2021-10-08
Filing date: 2022-10-07
Publication date: 2024-05-28
Also published as: WO2023060236A1

Abstract

描述了用于自动调用拷贝数改变(CNA)的方法和系统。所述方法和系统利用来自对象的样品中一个或更多个亚基因组区间内的一个或更多个基因座的基于测序的覆盖率数据、等位基因分数数据、分割数据和拷贝数模型数据来检测基因座的扩增和缺失，并应用多个阈值和过滤程序以在不需要过程匹配的对照和手动处理测序数据的同时提供具有改善的可靠性的CNA的自动调用。

Description

用于自动调用拷贝数改变的方法和系统

相关申请的交叉引用

本申请要求2021年10月8日提交的美国临时专利申请序列No.63/253,907的优先权权益，其内容通过引用整体并入本文。

技术领域

本公开内容一般性地涉及用于分析基因组谱分析数据的方法和系统，并且更具体地涉及使用基因组谱分析数据用于自动调用拷贝数改变的方法和系统。

背景技术

结构变体(structural variant，SV)是通常包含长度为至少50个碱基对(basepair，bp)的改变的大的基因组改变(Mahmoud，et al.(2019)，“Structural variantcalling：the long and the short of it”，Genome Biology 20：246)。这些大的基因组改变可分为缺失、重复、插入、倒位和易位，并描述了DNA获得、丢失或重排的不同组合。

拷贝数改变(copy number alteration，CNA)(也称为拷贝数变异(copy numbervariation，CNV))是大的结构变体的亚型，主要包含缺失或重复，并且可涵盖长度为多至50万个核苷酸的改变。体细胞拷贝数变异(CNV)在多种癌症的发展中发挥着至关重要的作用(Samadian，et al.(2018)，“Bamgineer：Introduction of simulated allele-specificcopy number variants into exome and targeted sequence data sets”，PLoS ComputBiol.14(3)：e1006080)。下一代测序(next-generation sequencing，NGS)方法的发展使得算法的发展能够从多种测序数据集(包括外显子组和靶向序列数据)中计算性地推断CNA谱。

然而，基于测序数据用于检测和调用CNA的现有方法可能需要配对的正常样品或用于测序覆盖度归一化的过程匹配的对照，可能需要对测序数据进行大量的手动处理(curation)，可能容易受到例如样品污染引入的错误的影响，和/或可能无法很好地处理染色体X上发生的小缺失和/或CNA事件的CNA检测和调用。因此，仍然需要用于自动调用CNA的改进方法。

发明内容

本文中公开了用于自动调用拷贝数改变(CNA)的方法和系统，其提供对拷贝数改变的更准确的检测并且不需要覆盖度归一化样品或序列数据的手动处理。具体地，所描述的方法和系统使用：(i)使用“正常组”方法的覆盖度归一化程序，其提供考虑性别的染色体X序列读出数据的适当归一化，(ii)基于修剪精确线性时间(pruned exact linear time，PELT)方法的分割，所述修剪精确线性时间(PELT)方法被定制为使用覆盖率数据的特定转换并扩展到考虑样品污染，(iii)基于异常SNP谱(使用碱基替换噪声模型和拷贝数模型谱鉴定污染信号确定的)的迭代样品污染检测方法，(iv)新的基于确定所有局部最优拷贝数模型配置和模型的优先级(例如，与序列读出数据最一致并且生物学上合理的拷贝数模型)的拷贝数模型确定方法，和/或(v)基于特定拷贝数模型和对未明确包含在总体拷贝数模型中的另外的改变的扫描二者来自动调用CNA。

本文中公开了包括以下的方法：提供从来自对象的样品获得的多个核酸分子；将一个或更多个衔接子连接到来自多个核酸分子的一个或更多个核酸分子上；对来自多个核酸分子的一个或更多个经连接的核酸分子进行扩增；从所扩增的核酸分子中捕获经扩增的核酸分子；通过测序仪对所捕获的核酸分子进行测序以获得代表经捕获的核酸分子的多个序列读出，其中多个测序读出中的一个或更多个与样品中一个或更多个亚基因组区间内的一个或更多个基因座重叠；在一个或更多个处理器处接收多个序列读出的序列读出数据，以及基于所述序列读出数据：使用一个或更多个处理器确定样品的倍性、一个或更多个亚基因组区间内的一个或更多个基因座的覆盖率数据、等位基因分数数据、分割数据和拷贝数模型；使用一个或更多个处理器基于分割数据鉴定多个区段；使用一个或更多个处理器基于至少覆盖率数据、等位基因分数数据、分割数据和拷贝数模型确定多个区段的拷贝数；使用一个或更多个处理器基于多个区段中的相应区段的拷贝数，检测一个或更多个基因座中的基因座的扩增或缺失的存在；以及基于检测到的一个或更多个基因座的扩增和缺失调用一个或更多个基因座的拷贝数改变(CNA)。

在一些实施方案中，所述方法还包括合并针对一个或更多个基因座中的基因座检测到的任何重复扩增和缺失。在一些实施方案中，拷贝数模型基于覆盖率数据和等位基因分数数据来预测一个或更多个基因座的拷贝数。在一些实施方案中，覆盖率数据还包含与一个或更多个基因座相关的单核苷酸多态性(single nucleotide polymorphism，SNP)和内含子的覆盖率数据。在一些实施方案中，拷贝数模型还预测样品的样品纯度和倍性。在一些实施方案中，拷贝数模型还输出分割数据。在一些实施方案中，当相应区段的拷贝数大于或等于样品的倍性时，检测到扩增。在一些实施方案中，缺失的检测包括确定相应区段中的一个或更多个基因座的纯合缺失。在一些实施方案中，缺失的检测包括确定相应区段中的一个或更多个基因座的杂合缺失。在一些实施方案中，缺失的检测包括确定相应区段中的一个或更多个基因座的部分缺失。在一些实施方案中，对象被怀疑患有疾病或确定患有疾病。在一些实施方案中，疾病是癌症。在一些实施方案中，所述方法用于常规测试。在一些实施方案中，所述方法用于产前测试。在一些实施方案中，所述方法还包括从对象收集样品。在一些实施方案中，样品包含组织活检样品、液体活检样品或正常对照。在一些实施方案中，样品是组织活检样品并且包含骨髓。在一些实施方案中，样品是液体活检样品并且包含血液、血浆、脑脊液、痰、粪便、尿液或唾液。在一些实施方案中，样品是液体活检样品并且包含循环肿瘤细胞(circulating tumor cell，CTC)。在一些实施方案中，样品是液体活检样品并且包含无细胞DNA(cell-free DNA，cfDNA)、循环肿瘤DNA(circulating tumor DNA，ctDNA)，或其任意组合。在一些实施方案中，多个核酸分子包含肿瘤核酸分子与非肿瘤核酸分子的混合物。在一些实施方案中，肿瘤核酸分子来源于异质组织活检样品的肿瘤部分，并且非肿瘤核酸分子来源于异质组织活检样品的正常部分。在一些实施方案中，样品包含液体活检样品，并且其中肿瘤核酸分子来源于液体活检样品的循环肿瘤DNA(ctDNA)部分，且非肿瘤核酸分子来源于液体活检样品的非肿瘤无细胞DNA(cfDNA)部分。在一些实施方案中，一个或更多个衔接子包含扩增引物、流动池衔接子序列、底物衔接子序列或样品索引序列。在一些实施方案中，所捕获的核酸分子通过与一个或更多个诱饵分子杂交而从所扩增的核酸分子中捕获。在一些实施方案中，一个或更多个诱饵分子包含一个或更多个核酸分子，每个核酸分子包含与所捕获的核酸分子的区域互补的区域。在一些实施方案中，对核酸分子进行扩增包括进行聚合酶链反应(polymerase chain reaction，PCR)扩增技术、非PCR扩增技术或等温扩增技术。在一些实施方案中，测序包括使用大规模平行测序(massivelyparallel sequencing，MPS)技术、全基因组测序(whole genome sequencing，WGS)、全外显子组测序、靶向测序、直接测序或Sanger测序技术。在一些实施方案中，测序包括大规模平行测序，并且大规模平行测序技术包括下一代测序(NGS)。在一些实施方案中，下一代测序(NGS)包括配对末端测序。在一些实施方案中，测序仪包括下一代测序仪。在一些实施方案中，所述方法还包括由一个或更多个处理器生成指示所调用的拷贝数改变的报告。在一些实施方案中，所述方法还包括向健康护理提供者传输报告。在一些实施方案中，报告经由计算机网络或对等连接传输。

本文还公开了用于自动调用拷贝数改变的方法，其包括：在一个或更多个处理器处接收与来自对象的样品中一个或更多个亚基因组区间内的一个或更多个基因座重叠的多个序列读出的序列读出数据，以及基于所述序列读出数据：确定样品的倍性、一个或更多个亚基因组区间内的一个或更多个基因座的覆盖率数据、等位基因分数数据、分割数据和拷贝数模型；使用一个或更多个处理器基于分割数据鉴定多个区段；使用一个或更多个处理器基于至少覆盖率数据、等位基因分数数据、分割数据和拷贝数模型确定多个区段的拷贝数；使用一个或更多个处理器基于多个区段中的相应区段的拷贝数，检测一个或更多个基因座中的基因座的扩增或缺失的存在；以及基于检测到的一个或更多个基因座的扩增和缺失调用一个或更多个基因座的拷贝数改变(CNA)。

在一些实施方案中，所述方法还包括合并针对一个或更多个基因座中的基因座检测到的任何重复扩增和缺失。在一些实施方案中，所述方法还包括生成包含一个或更多个基因座的所调用的拷贝数改变的报告。在一些实施方案中，所述方法还包括基于一个或更多个基因座的所调用的拷贝数改变生成对象的基因组谱。

在一些实施方案中，覆盖率数据通过以下确定：将与样品和对照样品中一个或更多个亚基因组区间内的一个或更多个基因座重叠的多个序列读出与参考基因组进行比对，以及确定与样品和对照样品中一个或更多个亚基因组区间内的一个或更多个基因座中的每一个重叠的序列读出的数目。在一些实施方案中，对照样品是配对的正常样品、过程匹配的对照样品、或正常对照样品组。

在一些实施方案中，等位基因分数数据通过以下确定：将与样品中一个或更多个亚基因组区间内的一个或更多个基因座重叠的多个序列读出与参考基因组进行比对，检测存在于一个或更多个基因座中的基因座处的等位基因的数目，以及确定存在于该基因座处的至少一个等位基因的等位基因分数。

在一些实施方案中，分割数据通过以下生成：将与样品中一个或更多个亚基因组区间内的一个或更多个基因座重叠的多个序列读出与参考基因组进行比对，以及使用修剪精确线性时间(PELT)方法处理比对的序列读出数据、覆盖率数据和等位基因分数数据以确定说明(account)比对序列读出数据所需的区段的数目，其中每个区段具有相同的拷贝数。

在一些实施方案中，拷贝数模型基于覆盖率数据和等位基因分数数据来预测一个或更多个基因座的拷贝数。在一些实施方案中，覆盖率数据还包含与一个或更多个基因座相关的单核苷酸多态性(SNP)和内含子的覆盖率数据。在一些实施方案中，拷贝数模型还预测样品的样品纯度和倍性。在一些实施方案中，拷贝数模型还输出分割数据。在一些实施方案中，样品的倍性具有1至8范围内的值。

在一些实施方案中，当相应区段的拷贝数大于或等于样品的倍性时，检测到扩增。在一些实施方案中，当相应区段的拷贝数大于或等于样品的倍性加第一预定值时，检测到扩增。在一些实施方案中，第一预定值为2至500范围内的值。在一些实施方案中，第一预定值为2至10范围内的值。

在一些实施方案中，当相应区段的拷贝数大于或等于样品的倍性加第二预定值并且基因座是第一预定义基因座组的成员时，检测到扩增。在一些实施方案中，第二预定值为0至500范围内的值。在一些实施方案中，第二预定值为2至10范围内的值。在一些实施方案中，第一预定义基因座组包含一个或更多个可成药基因靶基因座、预后基因座、癌基因基因座，或其任意组合。在一些实施方案中，第一预定义基因座组包含AR和ERBB2基因座。

在一些实施方案中，缺失的检测包括确定相应区段中的一个或更多个基因座的纯合缺失。在一些实施方案中，纯合缺失通过确定给定基因座的总拷贝数来检测，所述给定基因座的总拷贝数等于该基因座处的第一等位基因和第二等位基因的拷贝数的总和。在一些实施方案中，第一等位基因是主要等位基因并且第二等位基因是次要等位基因。在一些实施方案中，如果给定基因座的总拷贝数等于第三预定值，则调用纯合缺失。在一些实施方案中，第三预定值为约零。

在一些实施方案中，缺失的检测包括确定相应区段中的一个或更多个基因座的杂合缺失。在一些实施方案中，如果给定基因座处的第一等位基因的拷贝数等于第四预定值，并且给定基因座处的第二等位基因的拷贝数不等于第四预定值，则调用杂合缺失。在一些实施方案中，第四预定值为约零。在一些实施方案中，第一等位基因是主要等位基因并且第二等位基因是次要等位基因。

在一些实施方案中，缺失的检测包括确定相应区段中的一个或更多个基因座的部分缺失。在一些实施方案中，如果相邻基因座、单核苷酸多态性(SNP)和内含子的log2比率(log2 ratio，L2R)与该基因座的log2比率显著不同，并且给定基因座的log2比率与非相邻基因座、单核苷酸多态性(SNP)和内含子的L2R分布显著不同，则调用给定基因座的部分缺失。

在一些实施方案中，所调用的CNA用于在对象中诊断疾病或确认疾病的诊断。在一些实施方案中，疾病是癌症。在一些实施方案中，所述方法还包括基于所调用的CNA选择施用于对象的癌症治疗。在一些实施方案中，所述方法还包括基于所调用的CNA确定施用于对象的癌症治疗的有效量。在一些实施方案中，所述方法还包括基于所调用的CNA向对象施用癌症治疗。在一些实施方案中，癌症治疗包含化学治疗、放射治疗、免疫治疗、靶向治疗或手术。在一些实施方案中，癌症为B细胞癌(多发性骨髓瘤)、黑素瘤、乳腺癌、肺癌、支气管癌、结直肠癌、前列腺癌、胰腺癌、胃癌、卵巢癌、膀胱癌、脑癌、中枢神经系统癌、周围神经系统癌、食管癌、宫颈癌、子宫癌、子宫内膜癌、口腔癌、咽癌、肝癌、肾癌、睾丸癌、胆道癌、小肠癌、阑尾癌、唾液腺癌、甲状腺癌、肾上腺癌、骨肉瘤、软骨肉瘤、血液学组织癌、腺癌、炎性肌成纤维细胞瘤、胃肠道间质瘤(gastrointestinal stromal tumor，GIST)、结肠癌、多发性骨髓瘤(multiple myeloma，MM)、骨髓增生异常综合征(myelodysplastic syndrome，MDS)、骨髓增殖性病症(myeloproliferative disorder，MPD)、急性淋巴细胞白血病(acutelymphocytic leukemia，ALL)、急性髓细胞白血病(acute myelocytic leukemia，AML)、慢性髓细胞白血病(chronic myelocytic leukemia，CML)、慢性淋巴细胞白血病(chroniclymphocytic leukemia，CLL)、真性红细胞增多症、霍奇金淋巴瘤(Hodgkin lymphoma)、非霍奇金淋巴瘤(non-Hodgkin lymphoma，NHL)、软组织肉瘤、纤维肉瘤、黏液肉瘤、脂肪肉瘤、成骨肉瘤、脊索瘤、血管肉瘤、内皮肉瘤、淋巴管肉瘤、淋巴管内皮肉瘤、滑膜瘤、间皮瘤、尤因肿瘤(Ewing’s tumor)、平滑肌肉瘤、横纹肌肉瘤、鳞状细胞癌、基底细胞癌、腺癌、汗腺癌、皮脂腺癌、乳头状癌、乳头状腺癌、髓样癌、支气管源性癌、肾细胞癌、肝癌、胆管癌、绒毛膜癌、精原细胞瘤、胚胎癌、维尔姆斯瘤(Wilms’tumor)、膀胱癌、上皮癌、神经胶质瘤、星形细胞瘤、髓母细胞瘤、颅咽管瘤、室管膜瘤、松果体瘤、血管母细胞瘤、听神经瘤、少突胶质细胞瘤、脑膜瘤、神经母细胞瘤、视网膜母细胞瘤、滤泡性淋巴瘤、弥漫大B细胞淋巴瘤、套细胞淋巴瘤、肝细胞癌、甲状腺癌、胃癌、头颈癌、小细胞癌、原发性血小板增多症、原因不明性髓样化生、高嗜酸性粒细胞增多综合征、系统性肥大细胞增多症、常见高嗜酸性粒细胞增多症、慢性嗜酸性粒细胞白血病、神经内分泌癌、或类癌瘤。

在一些实施方案中，所述一个或更多个基因座包含10至20个基因座、10至40个基因座、10至60个基因座、10至80个基因座、10至100个基因座、10至150个基因座、10至200个基因座、10至250个基因座、10至300个基因座、10至350个基因座、10至400个基因座、10至450个基因座、10至500个基因座、20至40个基因座、20至60个基因座、20至80个基因座、20至100个基因座、20至150个基因座、20至200个基因座、20至250个基因座、20至300个基因座、20至350个基因座、20至400个基因座、20至500个基因座、40至60个基因座、40至80个基因座、40至100个基因座、40至150个基因座、40至200个基因座、40至250个基因座、40至300个基因座、40至350个基因座、40至400个基因座、40至500个基因座、60至80个基因座、60至100个基因座、60至150个基因座、60至200个基因座、60至250个基因座、60至300个基因座、60至350个基因座、60至400个基因座、60至500个基因座、80至100个基因座、80至150个基因座、80至200个基因座、80至250个基因座、80至300个基因座、80至350个基因座、80至400个基因座、80至500个基因座、100至150个基因座、100至200个基因座、100至250个基因座、100至300个基因座、100至350个基因座、100至400个基因座、100至500个基因座、150至200个基因座、150至250个基因座、150至300个基因座、150至350个基因座、150至400个基因座、150至500个基因座、200至250个基因座、200至300个基因座、200至350个基因座、200至400个基因座、200至500个基因座、250至300个基因座、250至350个基因座、250至400个基因座、250至500个基因座、300至350个基因座、300至400个基因座、300至500个基因座、350至400个基因座、350至500个基因座或400至500个基因座。

本文中公开了用于诊断疾病的方法，所述方法包括：基于检测来自对象的样品中一个或更多个亚基因组区间内的一个或更多个基因座的拷贝数改变(CNA)，诊断对象患有该疾病，其中检测到的CNA是根据本文中公开的任何方法确定的。

本文中公开了选择癌症治疗的方法，所述方法包括：响应于检测来自对象的样品中一个或更多个亚基因组区间内的一个或更多个基因座的拷贝数改变(CNA)，选择用于对象的癌症治疗，其中检测到的CNA是根据本文中公开的任何方法确定的。

本文中公开了在对象中治疗癌症的方法，其包括：响应于检测来自对象的样品中一个或更多个亚基因组区间内的一个或更多个基因座的拷贝数改变(CNA)，向对象施用有效量的癌症治疗，其中检测到的CNA是根据本文中公开的任何方法确定的。

本文中公开了用于在对象中监测肿瘤进展或复发的方法，所述方法包括：根据本文中公开的任何方法，检测在第一时间点从对象获得的第一样品中一个或更多个亚基因组区间内的一个或更多个基因座的拷贝数改变(CNA)；检测在第二时间点从对象获得的第二样品中一个或更多个亚基因组区间内的一个或更多个基因座的拷贝数改变(CNA)；以及将在第一样品中检测到的CNA与在第二样品中检测到的CNA进行比较，从而监测肿瘤进展或复发。在一些实施方案中，第二样品中CNA的检测是根据本文中公开的任何方法确定的。在一些实施方案中，所述方法还包括响应于肿瘤进展而调整抗癌治疗。在一些实施方案中，所述方法还包括响应于肿瘤进展而调整抗癌治疗的剂量或选择不同的抗癌治疗。在一些实施方案中，所述方法还包括向对象施用经调整的抗癌治疗。在一些实施方案中，所述第一时间点是在向对象施用抗癌治疗之前，并且其中所述第二时间点是在向对象施用抗癌治疗之后。在一些实施方案中，对象患有癌症、处于患有癌症的风险中、正在针对癌症进行常规测试或被怀疑患有癌症。在一些实施方案中，癌症为实体瘤。在一些实施方案中，癌症为血液学癌症。在一些实施方案中，抗癌治疗包含化学治疗、放射治疗、免疫治疗、靶向治疗或手术。

在一些实施方案中，本文中公开的任何方法还包括确定一个或更多个亚基因组区间内的一个或更多个基因座的所调用的CNA，并且应用所调用的CNA作为与样品相关的诊断值。在一些实施方案中，本文中公开的任何方法还包括基于一个或更多个基因座的所调用的CNA生成对象的基因组谱。在一些实施方案中，对象的基因组谱还包含来自以下的结果：全面基因组谱分析(comprehensive genomic profiling，CGP)测试、基因表达谱分析测试、癌症热点组测试、DNA甲基化测试、DNA片段化测试、RNA片段化测试，或其任意组合。在一些实施方案中，对象的基因组谱还包含来自基于核酸测序的测试的结果。在一些实施方案中，所述方法还包括基于所生成的基因组谱选择抗癌剂、向对象施用抗癌剂或向对象施加抗癌治疗。

在一些实施方案中，使用任何公开的方法对样品中一个或更多个亚基因组区间内的一个或更多个基因座的CNA的检测用于为对象做出建议的治疗决定。在一些实施方案中，对样品中一个或更多个亚基因组区间内的一个或更多个基因座的CNA的检测用于向对象施加或施用治疗。

本文中公开了系统，其包含：一个或更多个处理器；以及与一个或更多个处理器通信耦合并被配置为存储指令的存储器，当所述指令由一个或更多个处理器执行时，使得系统：接收与来自对象的样品中一个或更多个亚基因组区间内的一个或更多个基因座重叠的多个序列读出的序列读出数据，以及基于所述序列读出数据：确定样品的倍性、一个或更多个亚基因组区间内的一个或更多个基因座的覆盖率数据、等位基因分数数据、分割数据和拷贝数模型；基于分割数据鉴定多个区段；基于至少覆盖率数据、等位基因分数数据、分割数据和拷贝数模型确定多个区段的拷贝数；基于多个区段中的相应区段的拷贝数检测一个或更多个基因座中的基因座的扩增或缺失的存在；以及基于检测到的一个或更多个基因座的扩增和缺失调用所述一个或更多个基因座的拷贝数改变(CNA)。

本文中还公开了存储一个或更多个程序的非暂态计算机可读存储介质，所述一个或更多个程序包含指令，所述指令当由系统的一个或更多个处理器执行时，使得系统：接收与来自对象的样品中一个或更多个亚基因组区间内的一个或更多个基因座重叠的多个序列读出的序列读出数据，以及基于所述序列读出数据：确定样品的倍性、一个或更多个亚基因组区间内的一个或更多个基因座的覆盖率数据、等位基因分数数据、分割数据和拷贝数模型；基于分割数据鉴定多个区段；基于至少覆盖率数据、等位基因分数数据、分割数据和拷贝数模型确定多个区段的拷贝数；基于多个区段中的相应区段的拷贝数检测一个或更多个基因座中的基因座的扩增或缺失的存在；以及基于检测到的一个或更多个基因座的扩增和缺失调用所述一个或更多个基因座的拷贝数改变(CNA)。

通过引用并入

本说明书中提及的所有出版物、专利和专利申请都通过引用整体以如同每个单独的出版物、专利或专利申请被具体地和单独地指明通过引用整体并入本文中一样的相同程度并入本文中。在本文中的术语与并入的引用中的术语存在冲突的情况下，则以本文中的术语为准。

附图说明

所公开的方法、装置和系统的多个方面在所附权利要求中具体阐述。通过参考以下示例性实施方案的详细描述和附图，将获得对所公开的方法、装置和系统的特征和优点的更好的理解，其中：

图1提供了根据所公开方法的一个实例的用于自动CNA调用的过程流程图的一个非限制性实例。

图2提供了根据所公开方法的一个实例的用于自动CNA调用的过程流程图的另一个非限制性实例。

图3提供了根据所公开方法的一个实例的用于扫描缺失调用的过程流程图的一个非限制性实例。

图4提供了根据所公开方法的一个实例的合并重复基因调用的过程流程图的一个非限制性实例。

图5提供了根据所公开方法的一个实例的用于设置对应于基因座的基因对象的特性的过程流程图的一个非限制性实例。

图6示出了根据本文中所述系统的一些实例的一个示例性计算装置。

图7示出了根据本文中所述系统的一些实例的一个示例性计算机系统或计算机网络。

具体实施方式

本文中公开了用于自动调用拷贝数改变(CNA)的方法和系统，其不需要覆盖率归一化样品或手动处理序列数据。所描述的方法和系统使用：(i)使用“正常组”方法的覆盖率归一化程序，该方法提供考虑性别的染色体X序列读出数据的适当归一化，(ii)基于例如修剪精确线性时间(PELT)法的分割，该方法被定制为使用覆盖率数据的特定变换并扩展至考虑样品污染，(iii)基于异常SNP谱的迭代样品污染检测方法(其使用碱基替换噪声模型和拷贝数模型谱来确定以鉴定污染信号)，(iv)新的拷贝数模型确定方法，该方法基于确定所有局部最佳拷贝数模型配置和模型的优先级排序(例如，与序列读出数据最一致并且生物学上合理的拷贝数模型)，和/或(v)基于特定拷贝数模型和对未明确包含在总体拷贝数模型中的另外改变的扫描二者来自动调用CNA。

在一些情况下，例如，描述了用于自动调用拷贝数改变的方法，其包括：在一个或更多个处理器处接收来自对象的样品中一个或更多个亚基因组区间内的一个或更多个基因座的覆盖率数据、等位基因分数数据、分割数据和拷贝数模型数据；使用一个或更多个处理器基于在分割数据中确定的相应区段的拷贝数和样品的倍性来确定一个或更多个基因座的基因座的扩增；使用一个或更多个处理器基于在分割数据中确定的相应区段的拷贝数来检测一个或更多个基因座的基因座的缺失；使用一个或更多个处理器合并一个或更多个基因座的基因座的任何重复扩增和缺失调用；以及基于所确定的一个或更多个基因座的扩增和检测到的缺失来调用一个或更多个基因座的拷贝数改变(CNA)。

与调用CNA的常规方法相比，所公开的方法和系统的优点包括消除了对过程匹配控制的需要，消除了对手动处理的需要，相对于在常规方法中使用匹配控制改善了覆盖率归一化(降低了噪声)，因为除去了对过程匹配控制质量的依赖而改善了稳健性；更精确地处理较低纯度的肿瘤样品(由于降低的噪声水平和改进的拷贝数模型)，以及更可再现的CNA调用(例如，通过消除由手动处理引起的变化)。

定义

除非另有定义，否则本文中使用的所有技术术语具有与本公开内容所属领域的普通技术人员通常所理解的相同含义。

除非上下文另外明确指出，否则如在本说明书和所附权利要求书中使用的未用数量词修饰的名词意指“一个/种或更多个/种”。除非另有说明，否则本文中对“或/或者”的任何引用旨在涵盖“和/或/或者”。

如本文中所使用的，术语“包含”(以及包含的任何形式或变体，例如“包含多项”和“包含一项”)、“具有”(以及具有的任何形式或变体，例如“具有多项”和“具有一项”)、“包括”(以及包括的任何形式或变体，例如“包括多项”和“包括一项”)、或“含有”(以及含有的任何形式或变体，例如“含有多项”和“含有一项”)是包含性的或开放式的并且不排除另外的、未记载的添加物、组分、整数、要素或方法步骤。

如本文中所使用的，术语“约”数字或值是指该数字或值加上或减去该数字或值的10％。术语“约”当在范围的情况下使用时，是指该范围减去其最低值的10％并加上其最大值的10％。

如本文中所使用的，术语“亚基因组区间”(或“亚基因组序列区间”)是指基因组序列的一部分。

如本文中所使用的，术语“对象区间”是指亚基因组区间或表达的亚基因组区间(例如，亚基因组区间的转录序列)。

如本文中所使用的，术语“变体序列”或“变体”可互换使用，并且是指相对于相应的“正常”或“野生型”序列的经修饰的核酸序列。在一些情况下，变体序列可以是“短变体序列”(或“短变体”)，即长度小于约50个碱基对的变体序列。

术语“等位基因频率”和“等位基因分数”在本文中可互换使用，并且是指对应于特定等位基因的序列读出相对于针对基因组基因座的序列读出的总数目的分数。

术语“变体等位基因频率”和“变体等位基因分数”在本文中可互换使用，并且是指对应于特定变体等位基因的序列读出相对于针对基因组基因座的序列读出的总数目的分数。

如本文中所使用的，术语“分割”(或“序列分割”)是指这样的过程：其用于将序列读出数据划分成覆盖所有序列读出数据点的多个非重叠区段，使得多个区段中的每个区段尽可能同质，并且与给定区段相关的所有序列读出都具有相同的拷贝数。在一些情况下，可通过使用本领域技术人员已知的多种方法中的任一种处理比对的序列读出数据(或来源于该序列读出数据的其他测序相关数据，例如覆盖数据、等位基因频率数据等)来进行分割(参见，例如，Braun and Miller(1998)，“Statistical methods for DNA sequencesegmentation”，Statistical Science 13(2)：142-162)。分割方法的一些实例包括但不限于循环二元分割(circular binary segmentation，CBS)法、最大似然法、隐马尔可夫链法、行走马尔可夫法、贝叶斯法、长程相关性法、变点法，或其任意组合。

如本文中所使用的，术语“倍性”是指如通过拷贝数模型确定的肿瘤样品中多个基因座的平均拷贝数。在一些情况下，由于肿瘤样品的异质性(即，肿瘤样品纯度的变化)，肿瘤样品的“倍性”可不同于细胞中完整染色体组的数目，并因此也不同于常染色体基因(即，位于编号的非性染色体上的基因)的可能等位基因的数目。

本文中使用的章节标题仅出于组织目的，并且不应被解释为限制所描述的主题。

用于自动CNA调用的方法

图1提供了根据所公开方法的一个实例的自动CNA调用过程100的过程流程图的一个非限制性实例。所描述的方法和系统使用：(i)使用“正常组”方法的覆盖率归一化程序，该方法提供考虑性别的染色体X序列读出数据的适当归一化，(ii)基于例如修剪精确线性时间(PELT)法的分割，该方法被定制为使用覆盖率数据的特定变换并扩展至考虑样品污染，(iii)基于异常SNP谱的迭代样品污染检测方法(其使用碱基替换噪声模型和拷贝数模型谱来确定以鉴定污染信号)，(iv)新的拷贝数模型确定方法，该方法基于确定所有局部最佳拷贝数模型配置和模型的优先级排序(例如，与序列读出数据最一致并且生物学上合理的拷贝数模型)，和/或(v)基于特定拷贝数模型和对未明确包含在总体拷贝数模型中的另外改变的扫描二者来自动调用CNA。

如图1中所示，自动CNA调用过程100开始于步骤102，输入测序覆盖率数据(或“覆盖率数据”)、等位基因分数数据、分割数据和拷贝数模型数据，这些数据是通过预处理与待分析样品(例如，患者肿瘤样品)中一个或更多个亚基因组区间内的一个或更多个基因座重叠的多个序列读出的序列读出数据而导出的。

在一些情况下，样品(例如，患者肿瘤样品)的覆盖率数据通过以下来确定：将与样品中和对照(例如，配对的正常对照、过程匹配的对照或“正常组”对照)中的一个或更多个亚基因组区间内的一个或更多个遗传基因座重叠的多个序列读出与参考基因组(例如，GRCh38人参考基因组)进行比对，以及确定与样品中和对照中的一个或更多个亚基因组区间内的一个或更多个基因座中的每一个重叠的序列读出数，以将肿瘤样品的覆盖度(coverage)相对于对照中的覆盖度归一化。在一些情况下，例如，如果配对的正常对照样品不可用，则可使用过程匹配的对照(例如，来自多个HapMap细胞系的DNA的混合物)代替配对的正常对照来归一化覆盖度。在一些情况下，例如，如果配对的正常对照样品不可用，则可使用“正常组”对照代替配对的正常对照来归一化覆盖度。

在一些情况下，“正常组”(panel of normal，PoN)或“切线归一化(Tangentnormalization)”对照方法可被用于归一化测序覆盖度(参见，例如，Tabak，et al.(2019)“The Tangent copy-number inference pipeline for cancer genome analyses”，https：//www.biorxiv.org/content/10.1101/566505v1.full.pdf)。切线归一化方法是对肿瘤数据进行归一化以处理数据中的噪声的方法。具体地，切线法涉及降低由于在其下生成来自肿瘤和/或其正常对照的测序数据的实验条件差异而导致的系统噪声。已经表明，切线归一化方法比常规归一化方法产生更大的噪声降低。

首先，令n_N为正常非患者样品(即，从多个健康个体获得的样品)的数目，并且n_T为肿瘤样品的数目。令i为集合{1，2，...，n_N}的要素并且j为集合{1，2，...，n_T}}的要素。将N_i定义为第i个正常样品的基因组顺序中log2拷贝比强度的向量。类似地，将T_j定义为第j个肿瘤样品的基因组顺序中log2拷贝比强度的向量。正常样品向量和肿瘤样品向量是所有可能的覆盖谱的M维向量空间的要素。现在定义所有可能的覆盖谱的向量空间的参考子空间N为包含正常样品的向量{N₁，N₂，...，N_nN}的所有线性组合的空间。N被称为“噪声空间”并且是(n_N-1)维平面。

鉴于此设置，切线归一化方法按如下方式进行。首先，对于每个肿瘤样品向量T_j，通过使用欧几里德度量(Euclidean metric)来确定噪声空间N中最接近T_j的向量。将该向量p(T_j)表示为T_j在N上的投影。p(T_j)表示在与T_j相似的条件下表征的正常样品的谱。现在可通过计算T_j与T_j在N上的投影p(T_j)之间的差值来计算Tj的归一化：

T_j的归一化＝T_j-p(T_j)

可使用标准线性代数技术直接计算投影p(T_j)。

PoN方法使用正常样品中观察到的系统噪声模式来除去典型变化。染色体X(chromosome X，chrX)在男性中具有在chrX上基因座的覆盖率为一半的特定模式，这是由于正常男性只有一条X染色体。因此PoN方法除去了这种变化。

在一些情况下，样品(例如，患者肿瘤样品)的等位基因分数数据通过以下来确定：将与样品中一个或更多个亚基因组区间内的一个或更多个基因座重叠的多个序列读出与参考基因组(例如，GRCh38人参考基因组)进行比对，检测样品中一个或更多个亚基因组区间中的一个或更多个基因座处存在的不同等位基因的数目，以及通过将针对给定等位基因序列确定的序列读出的数目除以针对该基因座确定的序列读出的总数目来确定一个或更多个基因座处存在的不同等位基因的等位基因分数。

在一些情况下，样品(例如，患者肿瘤样品)的分割数据通过以下生成：将与样品中一个或更多个亚基因组区间内的一个或更多个基因座重叠的多个序列读出与参考基因组(例如，GRCh38人参考基因组)进行比对，以及使用分割算法(例如，循环二元分割(CBS)法、最大似然法、隐马尔可夫链法、行走马尔可夫法、贝叶斯法、长程相关性法、变点法，或其任意组合)处理比对的序列读出数据(或来源于该序列读出数据的其他测序相关数据，例如覆盖率数据、等位基因频率数据等)以产生多个非重叠区段，使得与给定区段相关的序列具有相同的拷贝数。

在一些情况下，分割可作为拷贝数建模过程的一部分来进行以确定最佳考虑覆盖率和等位基因分数数据的拷贝数模型。例如，在一些情况下，拷贝数模型可包含：纯度估计(例如，样品中来源于肿瘤的细胞的分数)、分割(例如，将基因组划分为已经历扩增或损失的组分)以及将拷贝数状态分配至每个区段，其中拷贝数状态是该区段的基因组拷贝数。在一些情况下，拷贝数建模可通过以下来实现：将单倍体覆盖率数据(例如，R_A和R_B，其中R_A和R_B分别是次要和主要等位基因A和B的单倍体覆盖率)转化为主要和次要等位基因的总和覆盖率(R_A+R_B＝(2+(C_A+C_B)g)/(1+λg)，其中C_A和C_B分别是次要和主要等位基因A和B的等位基因计数；g＝ρ/(1-ρ)，其中ρ为纯度；其中λ＝(Ψ/2)，并且其中Ψ是倍性)和差异覆盖率(R_A-R_B＝((C_A-C_B)g)/(1+λg))数据，并将差异覆盖率数据相比于总和覆盖率数据绘制在图中，该图可与区段数据和表示允许的拷贝数状态的网格重叠。

在一些情况下，可以以迭代方式进行分割，同时对序列读出数据中的样品污染进行检测和校正。例如，在一些情况下，方法可包括基于所选择的杂合单核苷酸多态性(SNP)组的次要等位基因频率的分布来估计样品的污染程度。然后，使用估计的污染程度作为次要等位基因频率(minor allele frequency，MAF)阈值的初始值，对测序数据进行迭代分割，同时将测序数据从包含具有低于MAF阈值的次要等位基因频率的SNP的分割过程中排除。在每次迭代时，如果剩余的SNP具有不同于在相同区段上检测到的其他SNP的MAF的次要等位基因频率，则将其分类为异常(即，可能是由于污染)，并且基于异常SNP次要等位基因频率的分布与所选择杂合SNP组的次要等位基因频率的预期分布的比较来递增地调整MAF阈值。每次提高MAF阈值时，重复分割、分类和MAF阈值调整步骤。当不需要进一步提高MAF阈值时(或者异常SNP次要等位基因频率的分布没有进一步改变，或者已达到指定的最大迭代数目)，则输出样品的分割数据和估计的污染程度(等于MAF阈值的最终值)。在一些情况下，方法还包括使用分割数据和估计的污染程度来构建预测一个或更多个基因座的拷贝数的拷贝数模型。

在一些情况下，样品(例如，患者肿瘤样品)的分割数据可使用修剪精确线性时间(PELT)法来生成，以确定正确考虑经比对序列读出数据(或从序列读出数据导出的其他测序相关数据，例如，覆盖率数据、等位基因频率数据等)所需的区段数目，其中每个区段(以及与该区段相关的序列读出)具有相同的拷贝数。在一些情况下，分割数据是使用修剪精确线性时间(PELT)法生成的，该方法已被定制为使用覆盖率和等位基因分数数据的特定变换(例如，能够在同一图上呈现覆盖率和等位基因分数数据同时叠加预测的拷贝数状态的变换)并扩展为考虑样品污染。

在一些情况下，拷贝数模型可用于确定(或预测)每个基因座的拷贝数、样品的分割、样品纯度和样品倍性(即，样品的平均拷贝数)，其最佳考虑了一个或更多个基因座(即，一个或更多个基因靶标)的所测量的覆盖率和等位基因分数数据。在一些情况下，用于生成拷贝数模型的输入数据还包括内含子和单核苷酸多态性(SNP)的覆盖率和等位基因分数数据。覆盖率数据通常转换为log2覆盖率数据。拷贝数建模方法的一些实例包括但不限于用于计算非重叠窗口中的读出计数的滑动窗口方法、归一化覆盖深度和B等位基因频率(即，两个等位基因的相对信号强度比率的归一化测量)方法、循环二元分割(CBS)法、基于均值偏移方法的映射密度统计分析、隐马尔可夫模型、基于读出深度的贝叶斯信息标准方法、或其任意组合(参见，例如，Li and Olivier(2013)，“Current analysis platforms andmethods for detecting copy number variation”，Physiol.Genomics 45(1)：1-16)。

在一些情况下，用于生成拷贝数模型的输入覆盖率数据或拷贝数估计被四舍五入为整数值。在一些情况下，由最终拷贝数模型报告的输出值(例如，区段的预测拷贝数值)是整数值。在一些情况下，由最终拷贝数模型报告的输出值(例如，样品纯度、样品倍性和针对特定基因座预测的拷贝数值)是实数(即，连续的)。在一些情况下，可发生不符合整数拷贝数值的亚克隆事件(例如，亚克隆缺失事件)并因此可具有非整数预测拷贝数值。

在一些情况下，拷贝数模型可确定样品纯度(或肿瘤分数)具有范围为0.05到1.0的值。在一些情况下，所确定的样品纯度可为至少0.05、至少0.1、至少0.2、至少0.3、至少0.4、至少0.5、至少0.6、至少0.7、至少0.8、至少0.9、至少0.95、至少0.98或至少0.99。在一些情况下，所确定的样品纯度可为至多0.99、至多0.98、至多0.95、至多0.9、至多0.8、至多0.7、至多0.6、至多0.5、至多0.4、至多0.3、至多0.2、至多0.1或至多0.05。本段落中描述的任何下限值和上限值可组合以形成包含在本公开内容内的范围，例如，在一些情况下，所确定的样品纯度可为0.1至0.8。本领域技术人员将认识到，在给定情况下所确定的样品纯度可具有该范围内的任何值，例如，约0.64。

在一些情况下，拷贝数模型可确定样品倍性具有范围为1.0至10.0的值。在一些情况下，所确定的样品倍性可为至少1.0、至少2.0、至少3.0、至少4.0、至少5.0、至少6.0、至少7.0、至少8.0、至少9.0或至少10.0。在一些情况下，所确定的样品倍性可为至多10.0、至多9.0、至多8.0、至多7.0、至多6.0、至多5.0、至多4.0、至多3.0、至多2.0或至多1.0。本段落中描述的任何下限值和上限值可组合以形成包含在本公开内容内的范围，例如，在一些情况下，所确定的样品倍性可为1.0至8.0。本领域技术人员将认识到，在给定情况下所确定的样品倍性可具有该范围内的任何值，例如，约3.4。在一些情况下，样品倍性可被四舍五入并报告为整数值。

在一些情况下，拷贝数模型可预测给定基因座(或与其相关的区段)的拷贝数，其范围为0至500。在一些情况下，预测的拷贝数为至少0、至少2、至少4、至少6、至少8、至少10、至少20、至少40、至少60、至少80、至少100、至少200、至少300、至少400或至少500。在一些情况下，预测的拷贝数为至多500、至多4400、至多300、至多200、至多100、至多80、至多60、至多40、至多20、至多10、至多8、至多6、至多4、至多2或至多0。本段落中描述的任何下限值和上限值可组合以形成包含在本公开内容内的范围，例如，在一些情况下，预测的拷贝数可为1至100。本领域技术人员将认识到，预测的拷贝数可具有该范围内的任何值，例如，7。在一些情况下，基因座的预测拷贝数可以是实数值而不是整数。

再次参考图1，在步骤104处，在逐个区段的基础上确定所分析的一个或更多个基因座的每个基因座的扩增(例如，基因座的拷贝数的提高)或缺失(例如，完整或部分基因座的缺失)。用于检测一个或更多个基因座的扩增或缺失的方法将在关于图2的下文中更详细地描述。

在图1的步骤106处，合并重复基因调用，或更正式地，合并针对“基因对象”的重复调用(即，具有与给定基因座相关的特性组(例如，序列位置、靶等位基因序列、覆盖率等)的数字数据构造)。例如，如果基因序列被分成两个子序列，并且两个子序列都被调用为包含扩增或缺失的基因座，从而针对该基因座生成多于一个基因对象，则可出现重复调用。在其他情况下，可使用以下二者来调用缺失：直接来自拷贝数模型数据的拷贝数预测和通过部分缺失扫描方法(例如，寻找与靶等位基因序列重叠但显著偏离并导致部分缺失调用的序列读出的方法)，在这种情况下再次为基因座生成多于一个基因对象。用于检测和调用部分缺失的方法将在关于图3的下文中更详细地描述。在合并时，两个或更多个基因对象及其相应的特性(例如，序列位置、靶等位基因序列、覆盖率等)将被单个基因对象和共有特性组替代。用于合并基因对象及其特性的方法将在关于图4的下文中更详细地描述。

在图1中的步骤108处，更新与每个基因座(或基因对象)相关的特性组。下文将提供更新基因特性的更详细的描述作为图5的描述的一部分。

在图1中的步骤110处，CNA结果被过滤，例如，通过进行质量控制(qualitycontrol，QC)程序来评估序列读出数据的质量、样品纯度(例如，通过将样品纯度与指定的样品纯度阈值进行比较)、拷贝数模型的成功收敛，和/或以评估针对单个基因座的CNA调用的可靠性等，并准备报告。

图2提供了根据所公开方法的一个实例的自动CNA调用过程200的过程流程图的一个更详细的实例。该过程开始于步骤202，输入覆盖率数据、等位基因分数数据、分割数据和拷贝数模型数据，这些数据是通过预处理与待分析样品(例如，患者肿瘤样品)中一个或更多个亚基因组区间内的一个或更多个基因座重叠的多个序列读出的序列读出数据而导出的。

在图2中的步骤204处，通过将拷贝数模型预测的基因座(或与其相关的区段)的拷贝数(CN)与拷贝数模型确定的样品的倍性进行比较来在逐个区段的基础上确定扩增的基因座。例如，如果在步骤204中基因座(或与其相关的区段)的拷贝数大于倍性，则在步骤210中该基因座被确定已扩增并且被添加至调用基因(或调用基因座)的列表中。

在一些情况下，确定基因座扩增包括确定基因座(或相应区段)的拷贝数是否大于或等于样品的倍性加第一预定值。在一些情况下，第一预定值可为0至500。在一些情况下，第一预定值为至少0、至少2、至少4、至少6、至少8、至少10、至少20、至少40、至少60、至少80、至少100、至少200、至少300、至少400或至少500。在一些情况下，第一预定值为至多500、至多4400、至多300、至多200、至多100、至多80、至多60、至多40、至多20、至多10、至多8、至多6、至多4、至多2或至多0。本段落中描述的任何下限值和上限值可组合以形成包含在本公开内容内的范围，例如，在一些情况下，第一预定值可为2至10。本领域技术人员将认识到，第一预定值可具有该范围内的任何值，例如，约11。

在一些情况下，在图2的步骤204中确定基因座的扩增包括确定基因座(或相应区段)的拷贝数是否大于或等于样品的倍性加第二预定值(即，不同于第一预定值的值)，以及该基因座是否是第一预限定基因座组的成员。在一些情况下，第二预定值为0至500的数值。在一些情况下，第二预定值为至少0、至少2、至少4、至少6、至少8、至少10、至少20、至少40、至少60、至少80、至少100、至少200、至少300、至少400或至少500。在一些情况下，第二预定值为至多500、至多4400、至多300、至多200、至多100、至多80、至多60、至多40、至多20、至多10、至多8、至多6、至多4、至多2或至多0。本段落中描述的任何下限值和上限值可组合以形成包含在本公开内容内的范围，例如，在一些情况下，第二预定值可为4至60。本领域技术人员将认识到，第二预定值可具有该范围内的任何值，例如，约7。在一些情况下，第一预限定基因座组包含一个或更多个可成药基因靶基因座、预后基因座、癌基因座，或其任意组合。在一些情况下，第一预限定基因座组包括例如AR和ERBB2基因座。

在图2中的步骤206处，通过确定给定基因座的总拷贝数(总CN)并将该基因座的总拷贝数与第三预限定值进行比较来在逐个区段的基础上鉴定基因座的纯合缺失。基因座的总拷贝数等于该基因座处的第一等位基因和第二等位基因(例如，主要等位基因和次要等位基因)的拷贝数总和。在一些情况下，由于输入到拷贝数模型中的覆盖率数据中的统计学波动(或噪声)，给定基因座的预测拷贝数可具有负值。如果基因座(或与其相关的相应区段)的总拷贝数约等于第三预限定值，则在步骤210中针对该基因座调用纯合缺失并将该基因座添加至调用基因的列表。

在图2中的步骤208处，通过将给定基因座的第一等位基因和第二等位基因(例如，主要等位基因和次要等位基因)的拷贝数与第四预限定值进行比较来在逐个区段的基础上鉴定基因座的杂合缺失。如果给定基因座(或相应区段)的第一等位基因的拷贝数约等于第四预定值，并且该基因座(或相应区段)的第二等位基因的拷贝数不等于第四预定值，则针对给定基因座调用杂合缺失。如果基因座(或相应区段)的第一等位基因的拷贝数约等于第四预定值，并且基因座(或相应区段)的第二等位基因的拷贝数不等于第四预定值，则在步骤210中针对该基因座调用杂合缺失并将该基因座添加至调用基因的列表。

在图2中的步骤212处，基因座的部分缺失可通过以下来鉴定：确定相邻基因座、单核苷酸多态性(SNP)和/或内含子的log2覆盖率(“log2比率”或“L2R”)是否显著不同于给定基因座的L2R，以及给定基因座的L2R是否显著不同于非相邻基因座、单核苷酸多态性(SNP)和/或内含子的L2R分布。L2R中的显著差异的确定将在关于图3的下文中更详细地描述。如果在步骤212中调用了给定基因座的部分缺失，则在步骤214中将该基因座添加至调用基因的列表。

在图2中的步骤216处，可合并针对基因座(数字表示为“基因对象”)的重复调用。如上所述，例如，如果基因序列被分成两个子序列，并且两个子序列都被调用为包含扩增或缺失的基因座，或者如果使用直接来自拷贝数模型的拷贝数预测和通过部分缺失扫描方法二者已经调用了基因座的缺失，则可出现重复调用。用于检测和调用部分缺失的方法将在关于图3的下文中更详细地描述。在合并时，两个或更多个基因对象及其相应的特性(例如，序列位置、靶等位基因序列、覆盖率等)将被单个基因对象和共有特性组替代。用于合并基因对象及其特性的方法将在关于图4的下文中更详细地描述。

在图2中的步骤218处，更新与每个基因座(或基因对象)相关的特性组。下文将提供更新基因特性的更详细的描述作为图5的描述的一部分。

在图2中的步骤220处，CNA结果被过滤，例如，通过进行质量控制(QC)程序来评估序列读出数据的质量、样品纯度(例如，通过将样品纯度与指定的样品纯度阈值进行比较)、拷贝数模型的成功收敛，和/或评估针对单个基因座的CNA调用的可靠性等，并准备报告。

图3提供了系统调用基因座中的部分缺失的过程(或子例程)300的一个非限制性实例。从步骤302开始，检查每个基因重叠区段的部分缺失。如上所述，可通过以下鉴定基因座的部分缺失：在步骤304处确定邻近基因座(例如，基因座、单核苷酸多态性(SNP)和/或内含子)的log2覆盖率(“log2比率”或“L2R”)是否与给定基因座的L2R显著不同(并且对应于非零拷贝数)，以及在步骤308处确定给定基因座的L2R是否与非邻近基因座(例如，基因座、单核苷酸多态性(SNP)和/或内含子)的L2R的分布显著不同，其中在步骤306处收集非邻近基因座的L2R。如果在步骤304处确定邻近基因座的L2R与基因座的L2R没有显著不同，则将该结果添加至对应于该基因座的基因对象并在步骤310处返回(在扫描了所有基因重叠区段之后，部分缺失评价过程返回至图2中示出的过程200)。如果在步骤304处确定邻近基因座的L2R与基因座的L2R显著不同，并且在步骤308处确定给定基因座的L2R与非邻近基因座的L2R的分布显著不同，则将该结果添加至对应于基因座的基因对象并在步骤310处返回。

在一些情况下，例如，如果样品纯度低于指定的纯度阈值，则在步骤304处，如果满足以下条件，则可确定相邻基因座、单核苷酸多态性(SNP)和/或内含子(即，位于两个其他目的基因座之间或与目的基因座相邻的插入基因座、SNP或内含子)的log2覆盖率(L2R)与给定基因座的L2R显著不同：(i)两个最近邻基因座(例如，基因座、SNP基因座和/或内含子)的平均拷贝数小于或等于第一指定阈值和覆盖率(例如，log2覆盖率)的分数差。例如，两个最近邻基因座的分数差可定义为|(L2R_i-L2R_i+1)|/(max[L2R_i，L2R_i+1])，其中i是相邻基因座的基因组指数)小于或等于第二指定阈值，或(ii)当前基因座(基因座i)的预测拷贝数小于或等于零(如上所述，由于覆盖率(或log2覆盖率)数据的统计波动，预测拷贝数值可能为负)，在最近邻基因座i+1(例如，最近邻基因座、SNP基因座和/或内含子)的预测拷贝数小于或等于零，并且分数差(如上所定义的)小于第一指定阈值，和(iii)双尾p值小于第三指定阈值。在一些情况下，第一指定阈值、第二指定阈值和第三指定阈值可各自独立地在约0.000001至约0.3的范围内。在一些情况下，第一指定阈值、第二指定阈值和第三指定阈值可各自独立地为至少或约0.000001、至少或约0.00001、至少或约0.0001、至少或约0.001、至少或约0.002、至少或约0.003、至少或约0.004、至少或约0.005、至少或约0.01、至少或约0.02、至少或约0.03、至少或约0.04、至少或约0.05、至少或约0.06、至少或约0.07、至少或约0.08、至少或约0.09、至少或约0.1、至少或约0.12、至少或约0.14、至少或约0.16、至少或约0.18、至少或约0.20、至少或约0.22、至少或约0.24、至少或约0.26、至少或约0.28、或者至少或约0.30。

在一些情况下，例如，如果样品纯度高于指定的纯度阈值，在步骤304处如果两个最近邻基因座(例如，基因座、SNP基因座和/或内含子)的平均拷贝数小于第一指定阈值、log2覆盖率的分数差(如上所述)小于第二指定阈值以及双尾p值小于第三指定阈值，则可确定给定基因座的log2覆盖率与非相邻基因座、单核苷酸多态性(SNP)和/或内含子的L2R的分布显著不同。在这些情况下，第一指定阈值、第二指定阈值和第三指定阈值可各自独立地在约0.000001至约0.3的范围内。在一些情况下，第一指定阈值、第二指定阈值和第三指定阈值可各自独立地为至少或约0.000001、至少或约0.00001、至少或约0.0001、至少或约0.001、至少或约0.002、至少或约0.003、至少或约0.004、至少或约0.005、至少或约0.01、至少或约0.02、至少或约0.03、至少或约0.04、至少或约0.05、至少或约0.06、至少或约0.07、至少或约0.08、至少或约0.09、至少或约0.1、至少或约0.12、至少或约0.14、至少或约0.16、至少或约0.18、至少或约0.20、至少或约0.22、至少或约0.24、至少或约0.26、至少或约0.28、或者至少或约0.30。

在图3的步骤308中，如果，例如双尾p值小于指定阈值则可确定给定基因座的L2R与非相邻基因座、单核苷酸多态性(SNP)和/或内含子的L2R的分布显著不同。

图4提供了用于修剪和合并重复基因调用的过程(或子例程)400的一个非限制性实例。如上所述，例如，如果基因序列被分成两个子序列，并且两个子序列都被调用为包含扩增或缺失的基因座，或者如果使用直接来自拷贝数模型的拷贝数预测和通过部分缺失扫描方法二者已经调用了基因座的缺失，则可出现重复调用。该过程从步骤402开始，检查具有相同基因名称的每个基因对象。在步骤404处，确定是否已针对相同的基因对象调用了所有相应的基因组区间(例如，与给定基因座进行比对的序列读出)。如果是，则在步骤406处返回所反对的基因(在所有基因对象都经过检查之后，修剪和合并过程返回至图2中示出的过程200)。如果不是，则检查重复的调用以确定哪些调用应修剪(丢弃)以及哪些调用应保存和合并。所保存的重复基因对象的属性(例如，基因靶序列、L2R数据、扩增或缺失状态等)在步骤408处被合并，并且随后在步骤406处返回至主过程。

待合并的重复基因调用可包含相同的、重叠的基因序列或者是完整基因序列的子序列的基因序列。例如，当一个基因对象跨越整个基因序列并且相同基因的另一个基因对象是子序列时，频繁进行修剪步骤。

图5提供了用于设置或更新对应于基因座的基因对象的属性的过程500的一个非限制性实例。该过程开始于步骤502，检查每个基因对象。在步骤504中，设置基因对象的状态(例如，基因的类型、给定拷贝数事件大小的改变的相关性、扩增或缺失调用的可靠性、基因是已知的还是未知的等)。

在图5的步骤506中，评估基因对象以确定是否已对该基因进行了缺失调用。如果是，则在步骤508处进行缺失调用的可靠性评估。如果不是，则在步骤510处评估基因对象以确定是否已对该基因进行了扩增调用。如果是，则在步骤512处进行扩增调用的可靠性评估(扩增模棱两可性评估)。如果不是，则在步骤514处进行亚克隆缺失的可靠性评估。

图5的步骤508中进行的缺失调用可靠性评估可包括：确定样品的批量纯度(即，由表征样品的批量肿瘤块的拷贝数模型确定的参数，或者换言之，覆盖样品中的肿瘤组织所展示的拷贝数范围的拷贝数值)，以及基于批量纯度与第一指定批量纯度阈值的比较，为每个调用缺失的基因对象分配真或假的质量控制状态。

在图5的步骤512中进行的扩增模棱两可性评估可包括：如果基因座映射到的相应区段的拷贝数小于或等于样品的倍性加上第一指定的倍性差异阈值，则将一个或更多个基因座的给定基因座的状态设置为扩增模棱两可。

在一些情况下，在图5的步骤512中进行的扩增模棱两可性评估可包括：如果基因座映射到的相应区段的拷贝数小于或等于样品的倍性加上第二指定的倍性差异阈值，并且该基因座不包括在以低于第二指定拷贝数阈值的拷贝数调用的第三预定基因座组中，则将一个或更多个基因座的给定基因座的状态设置为扩增模棱两可性。

在一些情况下，在图5的步骤512中进行的扩增模棱两可性评估可包括：如果基因座映射到的相应区段的拷贝数等于样品的倍性加上第三指定倍性差异阈值，并且该基因座包括在第四预定义基因座组中，则将一个或更多个基因座的给定基因座的状态设置为扩增模棱两可。

在一些情况下，在图5的步骤512中进行的扩增模棱两可性评估可包括：如果基因座映射到的相应区段的拷贝数等于样品的倍性加上第四指定倍性差异阈值，并且该基因座包括在第五预定义基因座组中，则将一个或更多个基因座的给定基因座的状态设置为扩增模棱两可。

在一些情况下，第一指定倍性差异阈值、第二指定倍性差异阈值、第三指定倍性差异阈值和第四指定倍性差异阈值可各自独立地在1至12的范围内(例如，整数或浮点数)。在一些情况下，第一指定倍性差异阈值、第二指定倍性差异阈值、第三指定倍性差异阈值和第四指定倍性差异阈值各自独立地为至少1、至少2、至少3、至少4、至少5、至少6、至少7、至少8、至少9、至少10、至少11、或至少12。在一些情况下，第一指定倍性差异阈值、第二指定倍性差异阈值、第三指定倍性差异阈值和第四指定倍性差异阈值各自独立地为至多12、至多11、至多10、至多9、至多8、至多7、至多6、至多5、至多4、至多3、至多2、或至多1。本段中描述的任何下限值和上限值可组合以形成包括在本公开内容内的范围，例如，在一些情况下，第一指定倍性差异阈值、第二指定倍性差异阈值、第三指定倍性差异阈值阈值和第四指定倍性差异阈值可各自独立地在2至11的范围内。

在一些情况下，第二指定拷贝数阈值在2至12的范围。在一些情况下，第二指定拷贝数阈值是至少2、至少3、至少4、至少5、至少6、至少7、至少8、至少9、至少10、至少11、或至少12。在一些情况下，第二指定拷贝数阈值是至多12、至多11、至多10、至多9、至多8、至多7、至多6、至多5、至多4、至多3或至多2。本段落中描述的任何下限值和上限值可组合以形成包括在本公开内容内的范围，例如，在一些情况下，第二指定拷贝数阈值的范围可在3至7的范围。

在一些情况下，第三预定基因座组、第四预定基因座组和第五预定基因座组可各自独立地包含ERBB2基因座、AR基因座，或其任意组合。

在图5的步骤518中进行亚克隆缺失调用的可靠性评估。在一些情况下，如果已调用了基因座的缺失、拷贝数模型成功收敛、样品纯度大于指定的纯度阈值、第一分离系数和分离的乘积小于覆盖率差，并且覆盖率差小于第二分离系数和分离的乘积，则设置“模棱两可亚克隆缺失”的状态。分离可以是基于样品纯度和倍性的拷贝数模型参数；例如，分离β₁＝ρ/(Ψρ+2(1-ρ))，其中ρ是样品纯度(肿瘤分数)，并且Ψ是样品倍性。覆盖率差异可等于主要和次要等位基因的覆盖率总和(R_a+R_b；等于平均覆盖率的两倍)减去拷贝数模型的零水平(或基态)参数，β₀＝(2(1-ρ))/(Ψρ+2(1-ρ))。

在一些情况下，指定的纯度阈值在0至1的范围。在一些情况下，指定的纯度阈值是至少0、至少0.05、至少0.1、至少0.2、至少0.3、至少0.4、至少0.5、至少0.6、至少0.7、至少0.8、至少0.9、或至少0.95。在一些情况下，指定的纯度阈值是至多1、至多0.95、至多0.9、至多0.8、至多0.7、至多0.6、至多0.5、至多0.4、至多0.3、至多0.2、至多0.1、或至多0.05。本段落中描述的任何下限值和上限值可组合以形成包括在本公开内容内的范围，例如，在一些情况下，第二指定纯度阈值可在0.1至0.7的范围内。

在一些情况下，第一分离系数在0.10至0.30的范围内。在一些情况下，第一分离系数为至少0.1、至少0.15、至少0.2、至少0.25、或至少0.3。在一些情况下，第一分离系数为至多0.3、至多0.25、至多0.2、至多0.15、或至多0.1。本段落中描述的任何下限值和上限值可组合以形成包括在本公开内容内的范围，例如，在一些情况下，第一分离系数可在0.15至0.25的范围内。

在一些情况下，第二分离系数在0.50至0.90的范围内。在一些情况下，第二分离系数为至少0.5、至少0.6、至少0.7、至少0.8、或至少0.9。在一些情况下，第二分离系数为至多0.9、至多0.8、至多0.7、至多0.6、或至多0.5。本段落中描述的任何下限值和上限值可组合以形成包括在本公开内容内的范围，例如，在一些情况下，第二分离系数可在0.6至0.8的范围内。

在图5的步骤516中，如果如上所述确定扩增或缺失调用是模棱两可的，则可为基因座设置“模棱两可”的最终状态。在步骤518处，可查阅特殊规则组(例如，已知所公开的CNA调用程序表现不佳的特定基因座的列表)，使得可过滤掉对列出的基因座的调用。在步骤520处，更新一个或更多个基因座的状态设置的过程为完成的。

在一些情况下，所公开的用于自动调用CNA的方法可应用于覆盖基因座组的序列读出数据，所述基因座组包含至少10个、至少20个、至少30个、至少40个、至少50个、至少60个、至少70个、至少80个、至少90个、至少100个、至少120个、至少140个、至少160个、至少180个、至少200个、至少220个、至少240个、至少260个、至少280个、至少300个、至少320个、至少340个、至少360个、至少380个、至少400个、或多于400个基因座。在一些情况下，所述组还可包含多个全基因组SNP基因座，例如包含至少100个、至少200个、至少300个、至少400个、至少500个、至少600个、至少700个、至少800个、至少900个、至少1,000个、至少2,000个、至少3,000个、至少4,000个、至少5,000个、至少600个、至少7,000个、至少8,000个、至少9,000个、或至少10,000个SNP基因座。在一些情况下，所述组可包含至少100个、至少200个、至少300个、至少400个、至少500个、至少600个、至少700个、至少800个、至少900个、至少1,000个、至少1,500个、至少2,000个、至少2,500个、至少3,000个、至少3,500个、至少4,000个、至少4,500个、至少5,000个、至少5,500个、至少6,000个、至少6,500个、至少7,000个、至少7,500个、至少8,000个、至少8,500个、至少9,000个、至少9,500个、至少10,000个、至少11,000个、至少12,000个、至少13,000个、至少14,000个、或至少15,000个靶基因座，所述靶基因座包含基因座、SNP基因座、外显子基因座、内含子基因座的组合，或其任意组合。

使用方法

在一些情况下，公开的方法还可包括以下步骤中的一个或更多个：(i)从对象(例如，怀疑患有或确定患有癌症的对象)获得样品，(ii)从样品中提取核酸分子(例如，肿瘤核酸分子与非肿瘤核酸分子的混合物)，(iii)将一个或更多个衔接子连接至从样品中提取的核酸分子(例如，一个或更多个扩增引物、流动池衔接子序列、底物衔接子序列或样品索引序列)，(iv)扩增核酸分子(例如，使用聚合酶链反应(PCR)扩增技术、非PCR扩增技术或等温扩增技术)，(v)从扩增的核酸分子中捕获核酸分子(例如，通过与一个或更多个诱饵分子杂交，其中诱饵分子各自包含一个或更多个核酸分子，所述核酸分子各自包含与捕获的核酸分子的区域互补的区域)，(vi)使用例如下一代(大规模平行)测序技术、全基因组测序(WGS)技术、全外显子组测序技术、靶向测序技术、直接测序技术或Sanger测序技术，使用例如下一代(大规模平行)测序仪对从样品(或来源于其的文库代替物(library proxy))中提取的核酸分子进行测序，以及(vii)向对象(或患者)、照料者、健康护理提供者、医师、肿瘤学家、电子病历系统、医院、诊所、第三方支付方、保险公司或政府办公室生成、显示、传输和/或递送报告(例如，电子的、基于网络的或纸质报告)。在一些情况下，该报告包括来自本文中所述方法的输出。在一些情况下，报告的全部或一部分可显示于在线或基于网络的健康护理门户的图形用户界面中。在一些情况下，报告经由计算机网络或对等网络连接传输。

所公开的方法可用于多种样品中的任一种。例如，在一些情况下，样品可包含组织活检样品、液体活检样品或正常对照。在一些情况下，样品可以是液体活检样品并且可包含血液、血浆、脑脊液、痰、粪便、尿液或唾液。在一些情况下，样品可以是液体活检样品并且可包含循环肿瘤细胞(circulating tumor cell，CTC)。在一些情况下，样品可以是液体活检样品并且可包含无细胞DNA(cfDNA)、循环肿瘤DNA(ctDNA)、或其任意组合。

在一些情况下，从样品中提取的核酸分子可包含肿瘤核酸分子与非肿瘤核酸分子的混合物。在一些情况下，肿瘤核酸分子可来源于异质组织活检样品的肿瘤部分，并且非肿瘤核酸分子可来源于异质组织活检样品的正常部分。在一些情况下，样品可包含液体活检样品，并且肿瘤核酸分子可来源于液体活检样品的循环肿瘤DNA(ctDNA)部分，而非肿瘤核酸分子可来源于液体活检样品的非肿瘤、无细胞DNA(cfDNA)部分。

在一些情况下，所公开的用于自动检测和调用拷贝数改变(CNA)的方法可用于诊断对象(例如患者)中疾病或其他病症(例如癌症、遗传性病症(例如唐氏综合征(DownSyndrome)和脆性X(Fragile X))、神经病症、或者其中拷贝数与诊断、治疗或预测所述疾病相关的任何其他疾病类型)的存在。在一些情况下，所公开的方法可适用于如本文中别处所述的多种癌症中的任一种的诊断。

在一些情况下，所公开的用于自动CNA调用的方法可用于预测胎儿DNA中的遗传性病症。(例如，用于侵入性或非侵入性产前检测)。例如，可根据所公开的方法处理序列读出数据以鉴定与例如X染色体和Y染色体的额外或缺失拷贝以及唐氏综合征(21三体)、18三体、13三体相关的拷贝数改变，所述序列读出数据是对从使用侵入性羊膜穿刺术、绒毛膜绒毛取样(chorionic villus sampling，cVS)或胎儿脐带取样技术获得的样品中提取的胎儿DNA进行测序获得的，或是对从使用无细胞DNA(cfDNA)样品(其包含母体cfDNA和胎儿cfDNA的混合物)的非侵入性取样获得的样品中提取的胎儿DNA进行测序获得的。

在一些情况下，所公开的用于自动CNA调用的方法可用于基于针对一个或更多个基因座确定的CNA值来选择用于临床试验的对象(例如，患者)。在一些情况下，基于例如一个或更多个基因座处的CNA的鉴定来进行临床试验的患者选择可加速靶向治疗的进展并改善治疗决策的健康护理结果。

在一些情况下，所公开的用于自动检测和调用拷贝数改变(CNA)的方法可用于为对象选择合适的疗法或治疗(例如，癌症疗法或癌症治疗)。在一些情况下，例如，癌症疗法或治疗可包括使用聚(ADP-核糖)聚合酶抑制剂(poly(ADP-ribose)polymeraseinhibitor，PARPi)、铂化合物、化学治疗、放射治疗、靶向治疗(例如免疫治疗)、手术、或其任意组合。

在一些情况下，所公开的用于自动检测和调用拷贝数改变(CNA)的方法可用于治疗对象的疾病(例如，癌症)。例如，响应于使用本文中公开的任何方法来确定CNA存在于患者样品中的一个或更多个基因座中，可向对象施用有效量的癌症疗法或癌症治疗。

在一些情况下，所公开的用于自动检测和调用拷贝数改变(CNA)的方法可用于监测对象中的疾病进展或复发(例如，癌症或肿瘤进展或复发)。例如，在一些情况下，所述方法可用于检测在第一时间点处从对象获得的第一样品中的CNA，并用于检测在第二时间点处从对象获得的第二样品中的CNA，其中CNA的第一测定值和CNA的第二测定值的比较允许监测疾病进展或复发。在一些情况下，第一时间点选在已向对象施用疗法或治疗之前，并且第二时间点选在已向对象施用疗法或治疗之后。

在一些情况下，所公开的方法可用于调整对象的疗法或治疗(例如，癌症治疗或癌症疗法)，例如通过响应于调用拷贝数改变(CNA)的变化来调整治疗剂量和/或选择不同的治疗。

在一些情况下，使用所公开的方法确定的调用CNA可用作与样品相关的预后或诊断指标。例如，在一些情况下，预后或诊断指标可包括样品中存在疾病(例如癌症)的指标、样品中存在疾病(例如癌症)的可能性的指标、样品来源的对象将发生疾病(例如癌症)的可能性的指标(即风险因素)，或者样品来源的对象将对特定的疗法或治疗作出响应的可能性的指标。

在一些情况下，所公开的用于自动检测和调用拷贝数改变(CNA)的方法可作为基因组谱分析过程的一部分来实施，所述基因组谱分析过程包括鉴定来源于对象的样品中一个或更多个基因座处变体序列的存在，作为检测、监测特定疾病(例如癌症)、预测其风险因素或为其选择治疗的一部分。在一些情况下，选择用于基因组谱分析的变体组可包括在选择的基因座组处检测变体序列。在一些情况下，选择用于基因组谱分析的变体组可包括通过全面基因组谱分析(comprehensive genomic profiling，CGP)检测多个基因座处的变体序列，所述全面基因组谱分析(CGP)是用于在单次测定中评估数百个基因(包括相关癌症生物标志物)的下一代测序(NGS)方法。包含所公开用于自动检测和调用拷贝数改变(CNA)的方法作为基因组谱分析过程的一部分(或包含来自用于调用CNA的所公开方法的输出作为对象的基因组谱的一部分)可通过例如独立地确认给定患者样品中一个或更多个基因座中CNA的存在，提高基于基因组谱做出的例如疾病检测调用和治疗决策的有效性。

在一些情况下，基因组谱可包含关于个体的基因组和/或蛋白质组中基因(或其变体序列)、拷贝数变异、表观遗传性状、蛋白质(或其修饰)和/或其他生物标志物的存在的信息，以及关于个体的相应表型性状和遗传或基因组性状、表型性状与环境因素之间相互作用的信息。

在一些情况下，对象的基因组谱可包含来自全面基因组谱分析(CGP)测试、基于核酸测序的测试、基因表达谱分析测试、癌症热点组测试、DNA甲基化测试、DNA片段化测试、RNA片段化测试、或其任意组合的结果。

在一些情况下，所述方法还可包括基于所产生的基因组谱向对象施用或施加治疗或疗法(例如，抗癌剂、抗癌治疗或抗癌疗法)。抗癌剂或抗癌治疗可以是指在癌细胞治疗中有效的化合物。抗癌剂或抗癌治疗的一些实例包括但不限于烷基化剂、抗代谢物、天然产物、激素、化学治疗、放射治疗、免疫治疗、手术或配置为靶向特定细胞信号传导途径中的缺陷(例如DNA错配修复(mismatch repair，MMR)途径中的缺陷)的治疗。

样品

所公开的方法和系统可与从对象(例如患者)收集的包含核酸(例如DNA或RNA)的多种样品(在本文中也称为样本)中的任一种一起使用。一些实例包括但不限于肿瘤样品、组织样品、活检样品、血液样品(例如外周全血样品)、血浆样品、血清样品、淋巴样品、唾液样品、痰样品、尿液样品、妇科流体样品、循环肿瘤细胞(CTC)样品、脑脊液(cerebralspinal fluid，CSF)样品、心包液样品、胸膜液样品、腹水(腹膜液)样品、粪便(或大便)样品、或者其他体液、分泌物和/或排泄物样品(或来源于其的细胞样品)。在某些情况下，样品可以是冷冻样品或经福尔马林固定的石蜡包埋的(formalin-fixed paraffin-embedded，FFPE)样品。

在一些情况下，可通过组织切除(例如，手术切除)、针刺活检、骨髓活检、骨髓抽吸、皮肤活检、内窥镜活检、细针抽吸、口腔拭子、鼻拭子、阴道拭子或细胞学涂片、刮片、冲洗或灌洗(例如导管灌洗或支气管肺泡灌洗)等来收集样品。

在一些情况下，样品是液体活检样品，并且可包含例如全血、血浆、血清、尿液、粪便、痰、唾液或脑脊液。在一些情况下，样品可以是液体活检样品并且可包含循环肿瘤细胞(CTC)。在一些情况下，样品可以是液体活检样品并且可包含无细胞DNA(cfDNA)、循环肿瘤DNA(ctDNA)、或其任意组合。

在一些情况下，样品可包含一种或更多种癌前(premalignant)或恶性细胞。如本文中所使用的，癌前是指尚未恶变但即将恶变的细胞或组织。在某些情况下，样品可从实体瘤、软组织肿瘤或转移性病变获取。在某些情况下，样品可从血液学恶性肿瘤或初癌(pre-malignancy)获取。在另一些情况下，样品可包含来自手术切缘的组织或细胞。在某些情况下，样品可包含肿瘤浸润淋巴细胞。在一些情况下，样品可包含一种或更多种非恶性细胞。在一些情况下，样品可以是原发性肿瘤或转移(例如，转移活检样品)，或者是其一部分。在一些情况下，样品可从与相邻部位(例如，与肿瘤相邻的部位)相比具有最高肿瘤(例如，肿瘤细胞)百分比的部位(例如，肿瘤部位)获得。在一些情况下，样品可从与相邻部位(例如，与肿瘤相邻的部位)相比具有最大肿瘤病灶(例如，当在显微镜下观察时，最大数目的肿瘤细胞)的部位(例如，肿瘤部位)获得。

在一些情况下，所公开的方法还可包括分析主要对照(例如，正常组织样品)。在一些情况下，所公开的方法还可包括确定主要对照是否可用，并且如果可用的话，则从所述主要对照中分离对照核酸(例如，DNA)。在一些情况下，如果没有可用的主要对照，则样品可包含任何正常对照(例如，正常邻近组织(normal adjacent tissue，NAT))。在一些情况下，样品可以是或可包含组织学上正常的组织。在一些情况下，所述方法包括使用本文中所述的方法评价样品，例如组织学上正常的样品(例如，来自手术组织切缘)。在一些情况下，所公开的方法还可包括例如通过从不附带主要对照的样品中的所述NAT宏观解剖非肿瘤组织来获取富含非肿瘤细胞的子样品。在一些情况下，所公开的方法还可包括确定没有主要对照且没有NAT可用，以及标记所述样品用于在没有匹配对照的情况下进行分析。

在一些情况下，从组织学上正常的组织(例如在其他情况下，组织学上正常的手术组织切缘)获得的样品仍可包含遗传改变，例如如本文中所述的变体序列。因此，所述方法还可包括基于检测到的遗传改变的存在对样品进行重新分类。在一些情况下，同时处理(例如，来自不同对象的)多个样品。

所公开的方法和系统可应用于从多种组织样品(或其疾病状态)(例如，实体组织样品、软组织样品、转移性病变或液体活检样品)中的任一种提取的核酸的分析。组织的一些实例包括但不限于结缔组织、肌肉组织、神经组织、上皮组织和血液。组织样品可从动物或人体内的任何器官收集。人体器官的一些实例包括但不限于脑、心脏、肺、肝、肾、胰腺、脾、甲状腺、乳腺、子宫、前列腺、大肠、小肠、膀胱、骨、皮肤等。

在一些情况下，从样品中提取的核酸可包含脱氧核糖核酸(deoxyribonucleicacid，DNA)分子。可适合于通过所公开的方法分析的DNA的一些实例包括但不限于基因组DNA或其片段、线粒体DNA或其片段、无细胞DNA(cfDNA)和循环肿瘤DNA(ctDNA)。无细胞DNA(cfDNA)由在凋亡和坏死期间正常细胞和/或癌细胞释放的并且在血流中循环和/或在其他体液中积累的DNA片段构成。循环肿瘤DNA(ctDNA)由癌细胞和肿瘤释放的、在血流中循环和/或在其他体液中积累的DNA片段构成。

在一些情况下，DNA是从来自样品的有核细胞中提取的。在一些情况下，样品可具有低有核细胞性，例如当样品主要由红细胞、含有过量细胞质的病变细胞或具有纤维化的组织构成时。在一些情况下，具有低有核细胞性的样品可能需要更多的(例如更大的)组织体积用于DNA提取。

在一些情况下，从样品中提取的核酸可包含核糖核酸(ribonucleic acid，RNA)分子。可适合于通过所公开的方法分析的RNA的一些实例包括但不限于总细胞RNA、在耗竭某些丰富的RNA序列(例如核糖体RNA)之后的总细胞RNA、无细胞RNA(cell-free RNA，cfRNA)、信使RNA(messenger RNA，mRNA)或其片段、总RNA的poly(A)尾mRNA部分、核糖体RNA(ribosomal RNA，rRNA)或其片段、转移RNA(transfer RNA，tRNA)或其片段、以及线粒体RNA或其片段。在一些情况下，可从样品中提取RNA并使用例如逆转录反应将RNA转换为互补DNA(complementary DNA，cDNA)。在一些情况下，cDNA是通过随机引发的cDNA合成方法产生的。在另一些情况下，通过用含有寡(dT)的寡核苷酸引发，在成熟mRNA的poly(A)尾处启动cDNA合成。用于耗竭、poly(A)富集和cDNA合成的方法是本领域技术人员公知的。

在一些情况下，样品可包含肿瘤内容物，例如包含肿瘤细胞或肿瘤细胞核。在一些情况下，样品可包含至少5％至50％、10％至40％、15％至25％或20％至30％肿瘤细胞核的肿瘤内容物。在一些情况下，样品可包含至少5％、至少10％、至少20％、至少30％、至少40％或至少50％肿瘤细胞核的肿瘤内容物。在一些情况下，通过将样品中肿瘤细胞的数目除以样品中具有细胞核的所有细胞的总数来确定(例如，计算)肿瘤细胞核百分比。在一些情况下，例如当样品是包含肝细胞的肝样品时，由于存在的肝细胞的细胞核的DNA含量是其他(例如非肝细胞、体细胞核)的两倍或多于两倍，因此可能需要不同的肿瘤含量计算。在一些情况下，检测遗传改变(例如变体序列)或确定例如微卫星不稳定性的灵敏度可能取决于样品的肿瘤含量。例如，对于给定尺寸的样品，具有较低肿瘤含量的样品可导致较低的检测灵敏度。

在一些情况下，如上所述，样品包含例如来自肿瘤或来自正常组织的核酸(例如DNA、RNA(或来源于RNA的cDNA)或二者)。在某些情况下，样品还可包含例如来自肿瘤或正常组织的非核酸组分(例如细胞、蛋白质、碳水化合物或脂质)。

对象

在一些情况下，样品是从患有病症或疾病(例如，过度增殖性疾病或非癌症适应证)或者疑似患有所述病症或疾病的对象(例如，患者)获得(例如，收集)的。在一些情况下，过度增殖性疾病是癌症。在一些情况下，癌症是实体瘤或其转移形式。在一些情况下，癌症是血液学癌症，例如白血病或淋巴瘤。

在一些情况下，对象患有癌症或处于患有癌症的风险之中。例如，在一些情况下，对象具有癌症的遗传倾向(例如，具有提高他或她发生癌症之基线风险的遗传突变)。在一些情况下，对象已暴露于提高他或她发生癌症之风险的环境扰动(例如，辐射或化学物质)。在一些情况下，需要针对癌症的发展来监测对象。在一些情况下，需要针对癌症的进展或消退(例如，在用癌症疗法(或癌症治疗)进行治疗之后)来监测对象。在一些情况下，需要针对癌症的复发来监测对象。在一些情况下，需要针对最小残留疾病(minimum residualdisease，MRD)来监测对象。在一些情况下，对象已经针对癌症进行过治疗或者正在针对癌症进行治疗。在一些情况下，对象尚未用癌症疗法(或癌症治疗)治疗过。

在一些情况下，对象(例如，患者)正在用一种或更多种靶向治疗进行治疗，或者先前已经用一种或更多种靶向治疗进行过治疗。在一些情况下，例如对于先前已经用靶向治疗治疗过的患者，获得(例如，收集)靶向治疗之后的样品(例如，样本)。在一些情况下，靶向治疗之后的样品是在靶向治疗完成之后获得(例如，收集)的样品。

在一些情况下，患者先前未用靶向治疗治疗过。在一些情况下，例如对于先前未用靶向治疗治疗过的患者，样品包含切除物，例如原始切除物或复发后(例如，治疗后疾病复发后)切除物。

癌症

在一些情况下，样品是从患有癌症的对象获取的。示例性癌症包括但不限于B细胞癌(例如，多发性骨髓瘤)、黑素瘤、乳腺癌、肺癌(例如非小细胞肺癌或NSCLC(non-smallcell lung carcinoma))、支气管癌、结直肠癌、前列腺癌、胰腺癌、胃癌、卵巢癌、膀胱癌、脑或中枢神经系统癌、周围神经系统癌、食管癌、宫颈癌、子宫或子宫内膜癌、口腔癌或咽癌、肝癌、肾癌、睾丸癌、胆道癌、小肠或阑尾癌、唾液腺癌、甲状腺癌、肾上腺癌、骨肉瘤、软骨肉瘤、血液学组织癌、腺癌、炎性肌成纤维细胞瘤、胃肠道间质瘤(gastrointestinal stromaltumor，GIST)、结肠癌、多发性骨髓瘤(multiple myeloma，MM)、骨髓增生异常综合征(myelodysplastic syndrome，MDS)、骨髓增殖性病症(myeloproliferative disorder，MPD)、急性淋巴细胞白血病(acute lymphocytic leukemia，ALL)、急性髓细胞白血病(acute myelocytic leukemia，AML)、慢性髓细胞白血病(chronic myelocytic leukemia，CML)、慢性淋巴细胞白血病(chronic lymphocytic leukemia，CLL)、真性红细胞增多症、霍奇金淋巴瘤、非霍奇金淋巴瘤(non-Hodgkin lymphoma，NHL)、软组织肉瘤、纤维肉瘤、黏液肉瘤、脂肪肉瘤、成骨肉瘤、脊索瘤、血管肉瘤、内皮肉瘤、淋巴管肉瘤、淋巴管内皮肉瘤、滑膜瘤、间皮瘤、尤因肿瘤(Ewing′s tumor)、平滑肌肉瘤、横纹肌肉瘤、鳞状细胞癌、基底细胞癌、腺癌、汗腺癌、皮脂腺癌、乳头状癌、乳头状腺癌、髓样癌、支气管源性癌、肾细胞癌、肝癌、胆管癌、绒毛膜癌、精原细胞瘤、胚胎癌、维尔姆斯瘤(Wilms′tumor)、膀胱癌、上皮癌、神经胶质瘤、星形细胞瘤、髓母细胞瘤、颅咽管瘤、室管膜瘤、松果体瘤、血管母细胞瘤、听神经瘤、少突胶质细胞瘤、脑膜瘤、神经母细胞瘤、视网膜母细胞瘤、滤泡性淋巴瘤、弥漫性大B细胞淋巴瘤、套细胞淋巴瘤、肝细胞癌、甲状腺癌、胃癌、头颈癌、小细胞癌、原发性血小板增多症、原因不明性髓样化生、高嗜酸性粒细胞增多综合征、系统性肥大细胞增多症、常见高嗜酸性粒细胞增多症、慢性嗜酸性粒细胞白血病、神经内分泌癌、类癌瘤等。

在一些情况下，癌症是血液学恶性肿瘤(或初癌)。如本文中所使用的，血液学恶性肿瘤是指造血或淋巴组织的肿瘤，例如影响血液、骨髓或淋巴结的肿瘤。示例性血液学恶性肿瘤包括但不限于白血病(例如，急性淋巴细胞白血病(ALL)、急性髓系白血病(AML)、慢性淋巴细胞白血病(CLL)、慢性髓细胞性白血病(CML)、毛细胞性白血病、急性单核细胞白血病(acute monocytic leukemia，AMoL)、慢性粒单核细胞白血病(chronic myelomonocyticleukemia，CMML)、幼年型粒单核细胞白血病(juvenile myelomonocytic leukemia，JMML)或大颗粒淋巴细胞白血病)、淋巴瘤(例如，AIDS相关淋巴瘤、皮肤T细胞淋巴瘤、霍奇金淋巴瘤(例如，经典霍奇金淋巴瘤或结节性淋巴细胞为主的霍奇金淋巴瘤)、蕈样肉芽肿、非霍奇金淋巴瘤(例如，B细胞非霍奇金淋巴瘤(例如，伯基特淋巴瘤(Burkitt lymphoma)、小淋巴细胞淋巴瘤(CLL/SLL)、弥漫性大B细胞淋巴瘤、滤泡性淋巴瘤、免疫母细胞性大细胞淋巴瘤、前体B淋巴母细胞淋巴瘤或套细胞淋巴瘤)或T细胞非霍奇金淋巴瘤(蕈样肉芽肿、间变性大细胞淋巴瘤或前体T淋巴母细胞淋巴瘤)、原发性中枢神经系统淋巴瘤、Sézary综合征、巨球蛋白血症)、慢性骨髓增生性肿瘤、朗格汉斯细胞组织细胞增生症(Langerhans cell histiocytosis)、多发性骨髓瘤/浆细胞肿瘤、骨髓增生异常综合征或骨髓增生异常/骨髓增生性肿瘤。

核酸提取及处理

可使用本领域技术人员已知的多种技术中的任一种从组织样品、活检样品、血液样品或其他体液样品中提取DNA或RNA(参见，例如，国际专利申请公开No.WO 2012/092426的实施例1；Tan，et al.(2009)，“DNA，RNA，and Protein Extraction：The Past and ThePresent”，J.Biomed.Biotech.2009：574398；16LEV血液DNA试剂盒(PromegaCorporation，Madison，WI)的技术文献；和Maxwell 16颊拭子LEV DNA纯化试剂盒技术手册(Promega Literature#TM333，2011年1月1日，Promega Corporation，Madison，WI))。用于RNA分离的方案公开于例如/>16总RNA纯化试剂盒技术公告(PromegaLiterature#TB351，2009年8月，Promega Corporation，Madison，WI)中。

典型的DNA提取过程例如包括(i)收集要从中提取DNA的液体样品、细胞样品或组织样品，(ii)如果需要的话，破坏细胞膜(即细胞裂解)以释放DNA和其他细胞质组分，(iii)用浓盐溶液处理液体样品或裂解样品以沉淀蛋白质、脂质和RNA，然后离心以分离出沉淀的蛋白质、脂质和RNA，以及(iv)从上清液中纯化DNA以去除在细胞膜裂解步骤期间使用的洗涤剂、蛋白质、盐或其他试剂。

细胞膜的破坏可使用多种机械剪切(例如，通过弗氏压碎器(French pressing)或细针)或超声破坏技术来进行。细胞裂解步骤通常包括使用洗涤剂和表面活性剂来溶解细胞膜和核膜的脂质。在一些情况下，裂解步骤还可包括使用蛋白酶来分解蛋白质，和/或使用RNA酶来消化样品中的RNA。

用于DNA纯化的合适技术的一些实例包括但不限于(i)在冰冷的乙醇或异丙醇中沉淀，然后离心(DNA的沉淀可通过提高离子强度来增强，例如通过添加醋酸钠来增强)，(ii)苯酚-氯仿提取，然后离心以将含有核酸的水相与含有变性蛋白质的有机相分离，以及(iii)固相色谱法，其中核酸吸附到固相(例如二氧化硅或其他)取决于缓冲液的pH和盐浓度。

在一些情况下，与DNA结合的细胞蛋白和组蛋白可通过添加蛋白酶或通过用醋酸钠或醋酸铵沉淀蛋白质来去除，或者通过在DNA沉淀步骤之前用苯酚-氯仿混合物提取来去除。

在一些情况下，可使用多种合适的商业DNA提取和纯化试剂盒中的任一种来提取DNA。一些实例包括但不限于来自Qiagen(Germantown，MD)的QIAamp(用于从人样品中分离基因组DNA)和DNAeasy(用于从动物或植物样品中分离基因组DNA)试剂盒或来自Promega(Madison，WI)的和ReliaPrep^TM系列试剂盒。

如上所述，在一些情况下，样品可包含福尔马林固定的(也称为甲醛固定的或多聚甲醛固定的)、石蜡包埋(FFPE)的组织制备物。例如，FFPE样品可以是包埋在基质(例如FFPE块)中的组织样品。从甲醛固定的或多聚甲醛固定的、石蜡包埋(FFPE)的组织中分离核酸(例如DNA)的方法公开于例如Cronin，et al.，(2004)Am J Pathol.164(1)：35-42；Masuda，et al.，(1999)Nucleic Acids Res.27(22)：4436-4443；Specht，et al.，(2001)Am JPathol.158(2)：419-429；the Ambion RecoverAll^TM Total Nucleic Acid IsolationProtocol(Ambion，目录号AM1975，2008年9月)；16FFPE Plus LEV DNA纯化试剂盒技术手册(Promega Literature#TM349，2011年2月)；/>FFPE DNA试剂盒手册(OMEGA bio-tek，Norcross，GA，产品编号D3399-00、D3399-01和D3399-02，2009年6月)；和/>DNA FFPE组织手册(Qiagen，目录号37625，2007年10月)。例如，RecoverAll^TM总核酸分离试剂盒在高温下使用二甲苯来溶解石蜡包埋的样品，并使用玻璃纤维过滤器来捕获核酸。/>16FFPE Plus LEV DNA纯化试剂盒与/>16仪器一起使用，用于从FFPE组织的1至10μm切片纯化基因组DNA。使用二氧化硅包覆的顺磁颗粒(paramagnetic particle，PMP)来纯化DNA，并以低洗脱体积进行洗脱。/>FFPEDNA试剂盒使用旋转柱和缓冲系统来分离基因组DNA。/>DNA FFPE组织试剂盒使用/>DNA Micro技术来纯化基因组和线粒体DNA。

在一些情况下，所公开的方法还可包括确定或获取从样品中提取的核酸的产率值并将所确定的值与参考值进行比较。例如，如果所确定的或获取的值小于参考值，则可以在进行文库构建之前扩增核酸。在一些情况下，所公开的方法还可包括确定或获取样品中核酸片段的大小(或平均大小)的值，并将所确定的或获取的值与参考值进行比较，例如至少100、200、300、400、500、600、700、800、900或1000个碱基对(bps)的大小(或平均大小)。在一些情况下，可响应于该确定来调整或选择本文中所述的一个或更多个参数。

分离之后，核酸通常溶解于弱碱性缓冲液例如Tris-EDTA(TE)缓冲液中，或溶解于超纯水中。在一些情况下，分离的核酸(例如，基因组DNA)可通过使用本领域技术人员已知的多种技术中的任一种进行片段化或剪切。例如，基因组DNA可通过物理剪切方法、酶促切割方法、化学切割方法和本领域技术人员已知的其他方法进行片段化。DNA剪切的方法描述于国际专利申请公开No.WO 2012/092426的实施例4中。在一些情况下，可使用DNA剪切方法的替代方法来避免文库制备期间的连接步骤。

文库制备

在一些情况下，分离自样品的核酸可用于构建文库(例如，如本文中所述的核酸文库)。在一些情况下，使用上述方法中的任一种将核酸片段化，任选地进行链末端损伤的修复，并任选地连接至合成衔接子、引物和/或条码(例如，扩增引物、测序衔接子、流动池衔接子、底物衔接子、样品条码或索引、和/或唯一分子标识符序列)，进行大小选择(例如，通过制备凝胶电泳)和/或扩增(例如，使用PCR、非PCR扩增技术或等温扩增技术)。在一些情况下，在基于杂交的靶序列选择之前，使用片段化和衔接子连接的核酸组，而不进行明确的大小选择或扩增。在一些情况下，通过本领域技术人员已知的多种特异性或非特异性核酸扩增方法中的任一种来扩增核酸。在一些情况下，例如通过全基因组扩增方法例如随机引发链置换扩增来扩增核酸。用于下一代测序的核酸文库制备技术的一些实例描述于例如vanDijk，et al.(2014)，Exp.Cell Research 322：12-20，以及Illumina的基因组DNA样品制备试剂盒中。

在一些情况下，所得核酸文库可包含基因组的全部或基本上全部复杂性。在本上下文中，术语“基本上全部”是指在实践中在操作的初始步骤期间可能存在一些不期望的基因组复杂性损失的可能性。本文中所述的方法在核酸文库包含基因组的一部分的情况下(例如，在通过设计降低基因组的复杂性的情况下)也是有用的。在一些情况下，基因组的任何选定部分可用本文中所述的方法使用。例如，在某些实施方案中，分离整个外显子组或其亚组。在一些情况下，文库可包含至少95％、90％、80％、70％、60％、50％、40％、30％、20％、10％或5％的基因组DNA。在一些情况下，文库可由基因组DNA的cDNA拷贝组成，其包含至少95％、90％、80％、70％、60％、50％、40％、30％、20％、10％或5％的基因组DNA的拷贝。在某些情况下，用于产生核酸文库的核酸量可少于5微克、少于1微克、少于500ng、少于200ng、少于100ng、少于50ng、少于10ng、少于5ng、或少于1ng。

在一些情况下，文库(例如，核酸文库)包含核酸分子的集合。如本文中所述，文库的核酸分子可包含靶核酸分子(例如，肿瘤核酸分子、参考核酸分子和/或对照核酸分子；本文中也分别称为第一、第二和/或第三核酸分子)。文库的核酸分子可来自单个对象或个体。在一些情况下，文库可包含来源于多于一名对象(例如，2、3、4、5、6、7、8、9、10、20、30或更多个对象)的核酸分子。例如，来自不同对象的两个或更多个文库可以组合以形成具有来自多于一个对象的核酸分子的文库(其中来源于每个对象的核酸分子任选地与对应于特定对象的唯一样品条码连接)。在一些情况下，对象是患有癌症或肿瘤或者处于患有癌症或肿瘤风险中的人。

在一些情况下，文库(或其一部分)可包含一个或更多个亚基因组区间。在一些情况下，亚基因组区间可以是单个核苷酸位置，例如该位置处的变体与肿瘤表型(正或负)相关的核苷酸位置。在一些情况下，亚基因组区间包含多于一个核苷酸位置。这样的例子包括长度为至少2、5、10、50、100、150、250或多于250个核苷酸位置的序列。亚基因组区间可包含例如一个或更多个完整基因(或其部分)、一个或更多个外显子或编码序列(或其部分)、一个或更多个内含子(或其部分)、一个或更多个微卫星区域(或其部分)，或其任意组合。亚基因组区间可包含天然存在的核酸分子(例如基因组DNA分子)的片段的全部或部分。例如，亚基因组区间可对应于经受测序反应的基因组DNA片段。在一些情况下，亚基因组区间是来自基因组来源的连续序列。在一些情况下，亚基因组区间包含基因组中不连续的序列，例如cDNA中的亚基因组区间可包含由于剪接而形成的外显子-外显子连接处。在一些情况下，亚基因组区间包含肿瘤核酸分子。在一些情况下，亚基因组区间包含非肿瘤核酸分子。

用于分析的靶向基因座

本文中所述的方法可与如本文中所述的用于评价多个对象区间或对象区间组(例如靶序列)(例如来自基因组基因座的组(例如基因座或其片段))的方法组合使用或作为该方法的一部分使用。

在一些情况下，通过所公开的方法评价的基因组基因座的组包含多个，例如突变形式的基因，其与对细胞分裂、生长或存活的影响相关，或与癌症相关，例如与本文中所述的癌症相关。

在一些情况下，通过所公开的方法评价的基因座的组包含至少1个、至少2个、至少3个、至少4个、至少5个、至少6个、至少7个、至少8个、至少9个、至少10个、至少20个、至少30个、至少40个、至少50个、至少60个、至少70个、至少80个、至少90个、至少100个或多于100个基因座。

在一些情况下，所选择的基因座(本文中也称为靶基因座或靶序列)或其片段可包含含有对象基因组的非编码序列、编码序列、基因内区域或基因间区域的对象区间。例如，对象区间可包括非编码序列或其片段(例如，启动子序列、增强子序列、5′非翻译区(5′UTR)、3′非翻译区(3′UTR)，或其片段)、编码序列或其片段、外显子序列或其片段、内含子序列或其片段。

靶标捕获试剂

本文中所述的方法可包括使核酸文库与多种靶标捕获试剂接触，以便选择和捕获多种特定靶序列(例如，基因序列或其片段)用于分析。在一些情况下，使用靶标捕获试剂(即，可与靶分子结合并因此允许捕获靶分子的分子)来选择待分析的对象区间。例如，靶标捕获试剂可以是诱饵分子，例如核酸分子(例如DNA分子或RNA分子)，其可以与靶分子杂交(即互补)，从而允许捕获靶核酸。在一些情况下，靶标捕获试剂是捕获寡核苷酸(或捕获探针)，靶标捕获试剂例如诱饵分子(或诱饵序列)。在一些情况下，靶核酸是基因组DNA分子、RNA分子、来源于RNA分子的cDNA分子、微卫星DNA序列等。在一些情况下，靶标捕获试剂适合于与靶标进行液相杂交。在一些情况下，靶标捕获试剂适合于与靶标进行固相杂交。在一些情况下，靶标捕获试剂适合于与靶标进行液相杂交和固相杂交二者。靶标捕获试剂的设计和构建更详细地描述于例如国际专利申请公开No.WO 2020/236941中(其全部内容通过引用并入本文)。

本文中所述的方法通过适当选择靶标捕获试剂来选择待测序的靶核酸分子为来自一个或更多个对象的来自样品(例如癌组织样本、液体活检样品等)的大量基因组基因座(例如基因或基因产物(例如mRNA)、微卫星基因座等)提供了优化测序。在一些情况下，靶标捕获试剂可与特定靶基因座(例如特定靶基因座或其片段)杂交。在一些情况下，靶标捕获试剂可与靶基因座的特定组(例如特定基因座的组或其片段)杂交。在一些情况下，可以使用包含靶标特异性和/或组特异性靶标捕获试剂的混合物的多种靶标捕获试剂。

在一些情况下，与核酸文库接触以捕获用于核酸测序的多个靶序列的多个靶标捕获试剂(例如，诱饵组)中，靶标捕获试剂(例如，诱饵分子)的数量大于10、大于50、大于100、大于200、大于300、大于400、大于500、大于600、大于700、大于800、大于900、大于1,000、大于1,250，大于1,500、大于1,750、大于2,000、大于3,000、大于4,000、大于5,000、大于10,000、大于25,000或大于50,000。

在一些情况下，靶标捕获试剂序列的总长度可以为约70个核苷酸至1000个核苷酸。在一种情况下，靶标捕获试剂的长度为约100至300个核苷酸、110至200个核苷酸、或120至170个核苷酸。除了上述那些之外，长度为约70、80、90、100、110、120、130、140、150、160、170、180、190、200、210、220、230、240、250、300、400、500、600、700、800和900个核苷酸的中间体寡核苷酸可用于本文中所述的方法中。在一些实施方案中，可以使用约70、80、90、100、110、120、130、140、150、160、170、180、190、200、210、220或230个碱基的寡核苷酸。

在一些情况下，每个靶标捕获试剂序列可包含：(i)靶标特异性捕获序列(例如，基因座或微卫星基因座特异性互补序列)，(ii)衔接子、引物、条码和/或唯一分子标识符序列，以及(iii)在一端或两端上的通用尾部。如本文中所使用，术语“靶标捕获试剂”可以是指靶标特异性的靶标捕获序列或是指包含靶标特异性的靶标捕获序列的整个靶标捕获试剂寡核苷酸。

在一些情况下，靶标捕获试剂中的靶标特异性捕获序列的长度为约40个核苷酸至1000个核苷酸。在一些情况下，靶标特异性捕获序列的长度为约70个核苷酸至300个核苷酸。在一些情况下，靶标特异性序列的长度为约100个核苷酸至200个核苷酸。在又一些情况下，靶标特异性序列的长度为约120个核苷酸至170个核苷酸，通常长度为120个核苷酸。除上述那些之外的中间体长度也可用于本文中所述的方法中，例如长度为约40、50、60、70、80、90、100、110、120、130、140、150、160、170、180、190、200、210、220、230、240、250、300、400、500、600、700、800和900个核苷酸的靶标特异性序列，以及长度在上述长度之间的靶标特异性序列。

在一些情况下，靶标捕获试剂可被设计成选择含有一个或更多个重排的对象区间，例如含有基因组重排的内含子。在这样的情况下，靶标捕获试剂被设计成掩蔽重复序列以提高选择效率。在重排具有已知接合序列的情况下，可以设计互补的靶标捕获试剂以识别接合序列以提高选择效率。

在一些情况下，所公开的方法可包括使用被设计为捕获两个或更多个不同靶标类别的靶标捕获试剂，每个类别具有不同的靶标捕获试剂设计策略。在一些情况下，本文中公开的基于杂交的捕获方法和靶标捕获试剂组合物可提供靶序列组的捕获和均匀覆盖，同时最小化靶序列组之外的基因组序列的覆盖。在一些情况下，靶序列可包含基因组DNA的整个外显子组或其所选择的亚组。在一些情况下，靶序列可包含例如大的染色体区域(例如整个染色体臂)。本文中公开的方法和组合物提供了不同的靶标捕获试剂，用于实现复杂的靶核酸序列组的不同测序深度和覆盖模式。

通常，DNA分子被用作靶标捕获试剂序列，但也可以使用RNA分子。在一些情况下，DNA分子靶标捕获试剂可以是单链DNA(single stranded DNA，ssDNA)或双链DNA(double-stranded DNA，dsDNA)。在一些情况下，RNA-DNA双链体比DNA-DNA双链体更稳定，从而提供了潜在的更好的核酸捕获。

在一些情况下，所公开的方法包括提供从一个或更多个核酸文库捕获的选择的核酸分子组(例如，文库捕获物(library catch))。例如，该方法可包括：提供一个或多个核酸文库，每个核酸文库包含从来自一个或更多个对象的一个或更多个样品中提取的多种核酸分子(例如，多种靶核酸分子和/或参考核酸分子)；使一个或多个文库(例如，在基于溶液的杂交反应中)与一种、两种、三种、四种、五种或多于五种的多种靶标捕获试剂(例如，寡核苷酸靶标捕获试剂)接触以形成包含多种靶标捕获试剂/核酸分子杂交体的杂交混合物；(例如通过使所述杂交混合物与结合实体接触)从所述杂交混合物中分离多种靶标捕获试剂/核酸分子杂交体，所述结合实体允许所述多种靶标捕获试剂/核酸分子杂交体从杂交混合物中分离，从而提供文库捕获物(例如，来自一个或多个文库的选择的或富集的核酸分子亚组)。

在一些情况下，所公开的方法还可包括(例如，通过进行PCR)扩增文库捕获物。在另一些情况下，不扩增文库捕获物。

在一些情况下，靶标捕获试剂可以是试剂盒的一部分，所述试剂盒可任选地包含说明书、标准品、缓冲液或酶或另一些试剂。

杂交条件

如上所述，本文中公开的方法可包括使文库(例如核酸文库)与多种靶标捕获试剂接触以提供选择的文库靶核酸序列(即文库捕获物)的步骤。接触步骤可在例如基于溶液的杂交中实现。在一些情况下，该方法包括重复杂交步骤进行一轮或更多轮另外的基于溶液的杂交。在一些情况下，该方法还包括使文库捕获物与相同或不同的靶标捕获试剂集合经受一轮或更多轮另外的基于溶液的杂交。

在一些情况下，接触步骤使用固体支持物例如阵列来实现。用于杂交的合适的固体支持物描述于例如Albert，T.J.et al.(2007)Nat.Methods 4(11)：903-5；Hodges，E.etal.(2007)Nat.Genet.39(12)：1522-7；和Okou，D.T.et al.(2007)Nat.Methods 4(11)：907-9中，其内容通过引用整体并入本文。

本领域描述了可适用于本文中方法的杂交方法，例如如国际专利申请公开No.WO2012/092426中所述。用于将靶标捕获试剂与多种靶核酸杂交的方法更详细地描述于例如国际专利申请公开No.WO 2020/236941中，其全部内容通过引用并入本文。

测序方法

本文中公开的方法和系统可与用于对核酸进行测序的方法或系统(例如，下一代测序系统)组合使用或作为其一部分使用，以产生与样品中的亚基因组区间内一个或更多个基因座重叠的多个序列读出，从而确定例如多个基因座处的基因等位基因序列。如本文中所使用，“下一代测序”(或″NGS″)也可称为“大规模平行测序”，并且是指以高通量方式(例如，其中同时对多于10³、10⁴、10⁵或多于10⁵个分子进行测序)确定任一单个核酸分子(例如，如在单个核酸分子测序中)或单个核酸分子的克隆扩增代替物的核苷酸序列的任何测序方法。

下一代测序方法是本领域已知的，并且描述于例如Metzker，M.(2010)NatureBiotechnology Reviews 11：31-46，其通过引用并入本文。适合在实施本文中公开的方法和系统时使用的测序方法的另一些实例描述于例如国际专利申请公开No.WO 2012/092426中。在一些情况下，测序可包括例如全基因组测序(whole genomesequencing，WGS)、全外显子组测序、靶向测序或直接测序。在一些情况下，可使用例如Sanger测序来进行测序。在一些情况下，测序可包括配对末端测序技术，其允许对片段的两端进行测序并生成高质量、可比对的序列数据，用于检测例如基因组重排、重复序列元件、基因融合和新的转录物。

所公开的方法和系统可使用测序平台例如Roche 454、Illumina Solexa、ABI-SOLiD、ION Torrent、Complete Genomics、Pacific Bioscience、Helicos和/或Polonator平台来实施。在一些情况下，测序可包括Illumina MiSeq测序。在一些情况下，测序可包括Illumina HiSeq测序。在一些情况下，测序可包括Illumina NovaSeq测序。用于对从样品提取的核酸中的大量靶基因组基因座进行测序的优化方法更详细地描述于例如国际专利申请公开No.WO2020/236941中，其全部内容通过引用并入本文。

在某些情况下，所公开的方法包括以下步骤中的一个或更多个：(a)从样品中获取包含多个正常和/或肿瘤核酸分子的文库；(b)在允许靶标捕获试剂与靶核酸分子杂交的条件下，使文库同时或顺序与一种、两种、三种、四种、五种或多于五种的多种靶标捕获试剂接触，从而提供选择的捕获的正常和/或肿瘤核酸分子组(即，文库捕获物)；(c)(例如通过使杂交混合物与结合实体接触)从杂交混合物中分离所选择的核酸分子亚组(例如文库捕获物)，所述结合实体允许靶标捕获试剂/核酸分子杂交体从杂交混合物中分离；(d)对文库捕获物进行测序，以从所述文库捕获物中获取与一个或更多个对象区间(例如，一个或更多个靶序列)重叠的多个读出(例如，序列读出)，所述文库捕获物可包含突变(或改变)，例如包含体细胞突变或种系突变的变体序列；(e)使用本文中别处所述的比对方法来比对所述序列读出；和/或(f)从多个序列读出中的一个或更多个序列读出中为对象区间中的核苷酸位置分配核苷酸值(例如，使用例如贝叶斯方法(Bayesian method)或本文中所述的其他方法调用突变)。

在一些情况下，获取一个或更多个对象区间的序列读出可包括对至少1、至少5、至少10、至少20、至少30、至少40、至少50、至少100、至少150、至少200、至少250、至少300、至少350、至少400、至少450、至少500、至少550、至少600、至少650、至少700、至少750、至少800、至少850、至少900、至少950、至少1,000、至少1,250、至少1,500、至少1,750、至少2,000、至少2,250、至少2,500、至少2,750、至少3,000、至少3,500、至少4,000、至少4,500或至少5,000个基因座(例如基因组基因座、基因座、微卫星基因座等)进行测序。在一些情况下，获取一个或更多个对象区间的序列读出可包括对本段中所述范围内任意数量基因座的对象区间(例如至少2,850个基因座)进行测序。

在一些情况下，获取一个或更多个对象区间的序列读出包括用提供以下序列读出长度(或平均序列读出长度)的测序方法对对象区间进行测序：至少20个碱基、至少30个碱基、至少40个碱基、至少50个碱基、至少60个碱基、至少70个碱基、至少80个碱基、至少90个碱基、至少100个碱基、至少120个碱基、至少140个碱基、至少160个碱基、至少180个碱基碱基、至少200个碱基、至少220个碱基、至少240个碱基、至少260个碱基、至少280个碱基、至少300个碱基、至少320个碱基、至少340个碱基、至少360个碱基、至少380个碱基、或至少400个碱基。在一些情况下，获取一个或更多个对象区间的序列读出可包括用提供本段落中描述的范围内的任意数量的碱基的序列读出长度(或平均序列读出长度)(例如，56个碱基的序列读出长度(或平均序列读出长度))的测序方法对对象区间进行测序。

在一些情况下，获取一个或更多个对象区间的序列读出可包括以至少100×或更多的平均覆盖(或深度)进行测序。在一些情况下，获取一个或更多个对象区间的序列读出可包括以至少100×、至少150×、至少200×、至少250×、至少500×、至少750×、至少1,000×、至少1,500×、至少2,000×、至少2,500×、至少3,000×、至少3,500×、至少4,000×、至少4,500×、至少5,000×、至少5,500×或至少6,000×或更多的平均覆盖(或深度)进行测序。在一些情况下，获取一个或更多个对象区间的序列读出可包括以具有本段中描述的值范围内的任意值(例如至少160×)的平均覆盖(或深度)进行测序。

在一些情况下，获取一个或更多个对象区间的读出包括以具有从至少100×到至少6,000×范围内的任意值的平均测序深度对大于约90％、92％、94％、95％、96％、97％、98％或99％的测序基因座进行测序。例如，在一些情况下，获取对象区间的读出包括以至少125×的平均测序深度对至少99％的测序基因座进行测序。作为另一个实例，在一些情况下，获取对象区间的读出包括以至少4,100×的平均测序深度对至少95％的测序基因座进行测序。

在一些情况下，文库中核酸种类的相对丰度可通过计算测序实验产生的数据中其同源序列出现的相对数量(例如，给定同源序列的序列读出的数量)来估计。

在一些情况下，所公开的方法和系统提供了如本文中所述的对象区间组(例如，基因座)的核苷酸序列。在某些情况下，提供序列而不使用包含匹配的正常对照(例如，野生型对照)和/或匹配的肿瘤对照(例如，原发性与转移性)的方法。

在一些情况下，本文中使用的测序深度水平(例如，测序深度的X倍水平)是指在检测和去除重复读出(例如，PCR重复读出)之后获得的读出(例如，独特读出)的数量。在另一些情况下，评价重复读出，例如以支持拷贝数改变(CNA)的检测。

比对

比对是将读出与位置(例如基因组位置或基因座)进行匹配的过程。在一些情况下，NGS读出可以与已知的参考序列(例如，野生型序列)进行比对。在一些情况下，NGS读出可以从头组装。NGS读出的序列比对方法描述于例如Trapnell，C.and Salzberg，S.L.Nature Biotech.，2009，27：455-457中。从头序列组装的一些实例描述于例如WarrenR.，et al.，Bioinformatics，2007，23：500-501；Butler，J.et al.，Genome Res.，2008，18：810-820；和Zerbino，D.R.and Birney，E.，Genome Res.，2008，18：821-829中。序列比对的优化在本领域中有所描述，例如如国际专利申请公开No.WO 2012/092426中所阐述的。序列比对方法的另外的描述在例如国际专利申请公开No.WO 2020/236941中提供，其全部内容通过引用并入本文。

错位(Misalignment)(例如，来自短读出的碱基对放置在基因组中不正确的位置)，(例如由于实际癌症突变周围的序列背景(例如，重复序列的存在)而导致的读出错位可导致突变检测的灵敏度降低)可导致突变检测的灵敏度降低，因为替代等位基因的读出可会偏离替代等位基因读出的直方图峰值。可能导致错位的序列背景的另一些实例包括短串联重复序列、散在重复序列、低复杂性区域、插入-缺失(插失(indel))和旁系同源物。如果有问题的序列背景出现在不存在实际突变的情况下，则错位可通过将实际参考基因组碱基序列的读出放置在错误的位置来引入“突变”等位基因的赝象读出(artifactual read)。由于多基因分析的突变调用算法即使对低丰度突变也应该敏感，因此序列错位可提高假阳性发现率和/或降低特异性。

在一些情况下，本文中公开的方法和系统可整合多种单独调整的比对方法或算法的使用以优化测序方法中的碱基调用性能，特别是在依赖于大量不同基因组座处的大量不同的遗传事件的大规模平行测序的方法中。在一些情况下，所公开的方法和系统可包括使用一种或更多种全局比对算法。在一些情况下，所公开的方法和系统可包括使用一种或更多种局部比对算法。可以使用的比对算法的一些实例包括但不限于：伯劳斯-惠勒比对(Burrows-Wheeler Alignment，BWA)软件包(参见例如Li，et al.(2009)、“Fast andAccurate Short Read Alignment with Burrows-Wheeler Transform”，Bioinformatics25：1754-60；Li，et al.(2010)、Fast and Accurate Long-Read Alignment withBurrows-Wheeler Transform”，Bioinformatics epub.PMID：20080505)、史密斯-沃特曼算法(参见，例如Smith，et al.(1981)，″Identification of Common MolecularSubsequences″，J.Molecular Biology 147(1)：195-197)、条带式史密斯-沃特曼算法(参见，例如，Farrar(2007)、“Striped Smith-Waterman Speeds Database Searches SixTimes Over Other SIMD Implementations”，Bioinformatics 23(2)：156-161)、内德勒曼-温施算法(Needleman，et al.(1970)″A General Method Applicable to the Searchfor Similarities in the Amino Acid Sequence of Two Proteins″，J.MolecularBiology 48(3)：443-53)，或其任意组合。

在一些情况下，本文中公开的方法和系统还可包括使用序列组装算法，例如Arachne序列组装算法(参见例如Batzoglou，et al.(2002)，“ARACHNE：A Whole-GenomeShotgun Assembler”，Genome Res.12：177-189)。

在一些情况下，用于分析序列读出的比对方法没有针对不同基因组基因座处的不同变体(例如，点突变、插入、缺失等)的检测来单独定制或调整。在一些情况下，使用不同的比对方法来分析单独定制或调整的读出以检测在不同基因组基因座处检测到的不同变体的至少一个亚组。在一些情况下，使用不同的比对方法来分析单独定制或调整的读出以检测不同基因组基因座处的每个不同变体。在一些情况下，调整可以是以下一项或更多项的函数(function)：(i)被测序的遗传基因座(例如，基因座、微卫星基因座或其他对象区间)，(ii)与样品相关的肿瘤类型，(iii)被测序的变体，或(iv)样品或对象的特征。选择或使用针对待测序的多个特定对象区间单独调整的比对条件使速度、灵敏度和特异性优化。当对相对大量的不同对象区间的读出比对进行优化时，该方法特别有效。在一些情况下，该方法包括使用针对重排优化的比对方法以及针对与重排不相关的对象区间优化的其他比对方法的组合。

在一些情况下，本文中公开的方法还包括选择或使用用于分析(例如比对)序列读出的比对方法，其中所述比对方法是以下一项或更多项的函数、响应于以下一项或更多项而选择、或针对以下一项或更多项而优化：(i)肿瘤类型，例如样品中的肿瘤类型；(ii)被测序的对象区间的位置(例如，基因座)；(iii)被测序的对象区间中的变体类型(例如，点突变、插入、缺失、替换、拷贝数变异(copy number variation，CNV)、重排或融合)；(iv)被分析的位点(例如，核苷酸位置)；(v)样品的类型(例如，本文中所述的样品)；和/或(vi)被评价的对象区间中或附近的相邻序列(例如，根据由于例如在对象区间中或附近存在重复序列而导致对象区间错位的其预期倾向)。

在一些情况下，本文中公开的方法允许快速且有效地比对麻烦的读出，例如具有重排的读出。因此，在对象区间的读出包含具有重排(例如易位)的核苷酸位置的一些情况下，该方法可包括使用适当调整的比对方法，并且该方法包括：(i)选择重排参考序列用于与读出进行比对，其中所述重排参考序列与重排进行比对(在一些情况下，参考序列与基因组重排不完全相同)；(ii)将读出与所述重排参考序列进行比较，例如比对。

在一些情况下，可使用替代方法来比对麻烦的读出。当对相对大量的不同对象区间的读出比对进行优化时，这些方法特别有效。举例来说，分析样品的方法可包括：(i)使用第一组参数(例如，使用第一映射算法，或通过与第一参考序列比较)进行读出的比较(例如，比对比较)，并确定所述读出是否满足第一比对标准(例如，读出可以与所述第一参考序列比对，例如，具有少于具体数量的错配)；(ii)如果所述读出未能满足第一比对标准，则使用第二组参数进行第二比对比较(例如，使用第二映射算法，或通过与第二参考序列比较)；以及(iii)任选地，确定所述读出是否满足所述第二标准(例如，读出可以与所述第二参考序列比对，例如，具有少于具体数量的错配)，其中所述第二组参数包含使用，例如所述第二参考序列，与所述第一组参数相比，所述第二组参数更有可能导致与变体(例如，重排、插入、缺失或易位)的读出的比对。

在一些情况下，所公开的方法中的序列读出的比对可以与本文中别处所述的突变调用方法组合。如本文中所讨论的，检测实际突变的灵敏度降低可通过评价被分析的基因或基因组基因座(例如基因座)中的预期突变位点周围的比对质量(手动或以自动方式)来解决。在一些情况下，待评价的位点可以从人基因组(例如，HG19人参考基因组)或癌症突变(例如，COSMIC)的数据库中获得。被鉴定为有问题的区域可通过使用选择在相关序列背景中提供更好的性能的算法来补救，例如通过使用较慢但更精确的比对算法(例如史密斯-沃特曼比对)进行比对优化(或重新比对)。在通用比对算法无法补救问题的情况下，可以通过以下来创建定制比对方法，例如调整包含替换的可能性高的基因的最大差异错配罚分参数；基于某些肿瘤类型中常见的特定突变类型(例如黑色素瘤中的C→T)来调整特定的错配罚分参数；或者基于某些样品类型中常见的特定突变类型(例如FFPE中常见的替换)来调整特定的错配罚分参数。

通过手动或自动检验测序数据中的所有突变调用可以评估由于错位而导致的评价对象区间的特异性降低(假阳性率提高)。那些被发现容易由于错位而产生虚假突变调用的区域可以进行如上所述的比对补救。在找不到可行的算法补救的情况下，可以对来自问题区域的“突变”进行分类或从靶基因座的组中筛选出来。

突变调用

碱基调用是指测序装置的原始输出，例如寡核苷酸分子中确定的核苷酸序列。突变调用是指对于被测序的给定核苷酸位置选择核苷酸值(例如A、G、T或C)的过程。通常，位置的序列读出(或碱基调用)将提供多于一个值，例如一些读出将指示T以及一些将指示G。突变调用是将正确核苷酸值(例如，这些值中的一个)分配给序列的过程。尽管其被称为“突变”调用，但其可应用于将核苷酸值分配给任何核苷酸位置，例如对应于突变体等位基因、野生型等位基因、尚未表征为突变体或野生型的等位基因的位置，或不以可变性为特征的位置。

在一些情况下，所公开的方法可包括使用定制的或调整的突变调用算法或其参数来优化应用于测序数据时的性能，特别是在依赖于对样品(例如，来自患有癌症的对象的样品)中大量不同基因组基因座(例如，基因座、微卫星区域等)处的大量不同遗传事件的大规模平行测序的方法中。突变调用的优化在本领域中有所描述，例如如国际专利申请公开No.WO 2012/092426中所阐述的。

用于突变调用的方法可包括以下的一种或更多种：基于参考序列中每个位置处的信息进行独立调用(例如，检验序列读出；检验碱基调用和质量评分；计算观察到的碱基的概率和给定潜在基因型的质量评分；以及分配基因型(例如，使用贝叶斯规则))；去除假阳性(例如，使用深度阈值以拒绝读取深度远低于或高于预期的SNP；局部重新比对以去除由于小插失而导致的假阳性)；并进行连锁不平衡(1inkage disequilibrium，LD)/基于插补的分析以完善调用。

用于计算与特定基因型和位置相关的基因型可能性的等式描述于例如Li，H.andDurbin，R.Bioinformatics，2010；26(5)：589-95中。在评价来自该癌症类型的样品时，可以使用某种癌症类型中特定突变的先验期望。这样的可能性可来源于癌症突变的公共数据库，例如癌症体细胞突变目录(Catalogue of Somatic Mutation in Cancer，COSMIC)、HGMD(人类基因突变数据库)、SNP联盟、乳腺癌突变数据库(Breast Cancer Mutation DataBase，BIC)和乳腺癌基因数据库(Breast Cancer Gene Database，BCGD)。

基于LD/插补的分析的一些实例描述于例如Browning，B.L.and Yu，Z.Am.J.Hum.Genet.2009，85(6)：847-61。低覆盖SNP调用方法的一些实例描述于例如Li，Y.，et al.，Annu.Rev.Genomics Hum.Genet.2009，10：387-406中。

在比对之后，可使用突变调用方法(例如，贝叶斯突变调用方法)来进行替换的检测，该突变调用方法应用于每个对象区间中的每个碱基，例如待评价的基因或其他基因座的外显子，其中观察到替代等位基因的存在。该方法将在存在突变的情况下观察读出数据的概率与在仅存在碱基调用错误的情况下观察读出数据的概率进行比较。如果这种比较足够有力地支持突变的存在，则可以称为突变。

贝叶斯突变检测方法的优点是，突变存在的概率与单独碱基调用错误的概率的比较可通过该位点处存在突变的先验期望来加权。如果在给定癌症类型的频繁突变位点处观察到替代等位基因的一些读出，则即使突变证据的数量未达到通常的阈值，也可以确信地调用(confidently call)突变的存在。然后这种灵活性可用于提高对于甚至更罕见突变/更低纯度样品的检测灵敏度，或者使测试对读出覆盖中的降低更稳健。基因组中随机碱基对在癌症中发生突变的可能性为约1e-6。在例如典型的多基因癌症基因组组中，在许多位点处发生特定突变的可能性可能要高出几个数量级。这些可能性可来源于癌症突变的公共数据库(例如，COSMIC)。

插失调用(Indel Calling)是通过插入或缺失在测序数据中查找与参考序列不同的碱基的过程，通常包括相关的置信度评分或统计证据度量。插失调用的方法可包括以下步骤：鉴定候选插失、通过局部重新比对计算基因型可能性、以及进行基于LD的基因型推断和调用。通常，使用贝叶斯方法来获得潜在的插失候选者，并随后在贝叶斯框架中将这些候选者与参考序列一起进行测试。

生成候选插失的算法描述于例如McKenna，A.，et al.，Genome Res.2010；20(9)：1297-303；Ye，K.，et al.，Bioinformatics，2009；25(21)：2865-71；Lunter，G.，andGoodson，M.，Genome Res.2011；21(6)：936-9和Li，H.，et al.(2009)，Bioinformatics 25(16)：2078-9中。

用于生成插失调用和个体水平基因型可能性的方法包括例如Dindel算法(Albers，C.A.，et al.，Genome Res.2011；21(6)：961-73)。例如，贝叶斯EM算法可用于分析读出，进行初始插失调用，并为每个候选插失生成基因型可能性，随后使用例如QCALL(LeS.Q.and Durbin R.Genome Res.2011；21(6)：952-60)进行基因型插补。可以基于插失的大小或位置来调整(例如，增加或减少)参数，例如观察插失的先验期望。

已经开发出一些方法来解决癌症DNA分析中50％或100％等位基因频率的有限偏差。(参见，例如SNVMix-Bioinformatics.2010年3月15日；26(6)：730-736)。然而，本文中公开的方法允许考虑以1％至100％的频率(或等位基因分数)(即，0.01至1.0的等位基因分数)存在突变等位基因的可能性，并且尤其是低于50％的水平。这种方法对于检测例如天然(多克隆)肿瘤DNA的低纯度FFPE样品中的突变尤其重要。

在一些情况下，用于分析序列读出的突变调用方法并未针对不同基因组基因座处的不同突变的检测进行单独定制或微调。在一些情况下，使用不同的突变调用方法，这些方法针对在不同基因组基因座处检测到的不同突变的至少一个亚组进行单独定制或微调。在一些情况下，使用不同的突变调用方法，所述方法针对在每个不同基因组基因座处检测到的每个不同突变进行单独定制或微调。定制或调整可基于本文中所述的一种或更多种因素，例如样品中的癌症类型、待测序的对象区间所位于的基因或基因座、或待测序的变体。这种针对待测序的多个对象区间单独定制或微调的突变调用方法的选择或使用允许优化突变调用的速度、灵敏度和特异性。

在一些情况下，使用独特的突变调用方法为X个独特的对象区间中的每一个中的核苷酸位置分配核苷酸值，并且X为至少2、至少3、至少4、至少5、至少10、至少15、至少20、至少30、至少40、至少50、至少60、至少70、至少80、至少90、至少100、至少200、至少300、至少400、至少500、至少1000、至少1500、至少2000、至少2500、至少3000、至少3500、至少4000、至少4500、至少5000或更大。调用方法可以不同，并因此是独特的，例如通过依赖于不同的贝叶斯先验值。

在一些情况下，分配所述核苷酸值是值的函数，该值是或代表观察在肿瘤类型中的所述核苷酸位置处显示变体(例如突变)的读出的先验(例如文献)期望。

在一些情况下，该方法包括为至少10、20、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900或1,000个核苷酸位置分配核苷酸值(例如，调用突变)，其中每个分配是独特值(相对于其他分配的值)的函数，其是或代表观察在肿瘤类型中的所述核苷酸位置处显示变体(例如突变)的读出的先验(例如文献)期望。

在一些情况下，分配所述核苷酸值是值组的函数，其表示如果变体以指定频率(例如，1％、5％、10％等)存在于样品中和/或如果变体不存在(例如，仅由于碱基调用错误而在读出中观察到)，观察在所述核苷酸位置处显示所述变体的读出的概率。

在一些情况下，本文中所述的突变调用方法可包括以下：(a)对于每个所述X个对象区间中的核苷酸位置获取：(i)第一值，其是或代表观察在X型肿瘤中的所述核苷酸位置处显示变体(例如突变)的读出的先验(例如文献)期望；以及(ii)第二值组，其代表如果变体以一定频率(例如，1％、5％、10％等)存在于样品中和/或如果变体不存在(例如，仅由于碱基调用错误而在读出中观察到)，观察在所述核苷酸位置处显示所述变体的读出的概率；以及(b)响应于所述值，通过使用第一值(例如，计算突变存在的后验概率)对第二组中的值之间的比较进行加权(例如通过本文中所述的贝叶斯方法)，从所述读出中为每个所述核苷酸位置分配核苷酸值(例如，调用突变)，从而分析所述样品。

突变调用方法的另外的描述在例如国际专利申请公开No.WO 2020/236941中提供，其全部内容通过引用并入本文。

用于自动CNA调用的系统

本文中还公开了设计为实施所公开的方法的任一种的系统，用于自动检测和调用来自对象的样品中的一个或更多个基因座中的CNA。该系统可包含例如一个或更多个处理器，以及与一个或更多个处理器通信地耦合并被配置为存储指令的存储器单元，当由一个或更多个处理器执行时，所述指令使系统：在一个或更多个处理器处接收来自对象的样品中一个或更多个亚基因组区间内的一个或更多个基因座的覆盖率数据、等位基因分数数据、分割数据和拷贝数模型数据；使用一个或更多个处理器，基于分割数据中鉴定的相应区段的拷贝数和样品的倍性，确定一个或更多个基因座中的基因座的扩增；使用一个或更多个处理器，基于分割数据中鉴定的相应区段的拷贝数来检测一个或更多个基因座中基因座的缺失；使用一个或更多个处理器合并一个或更多个基因座的基因座的任何重复的扩增和缺失调用；以及基于所确定的一个或更多个基因座的扩增和检测到的缺失来调用该一个或更多个基因座的拷贝数改变(CNA)。

在一些情况下，所公开的系统还可包含测序仪，例如下一代测序仪(也称为大规模平行测序仪)。下一代(或大规模平行)测序平台的一些实例包括但不限于Roche 454、Illumina Solexa、ABI-SOLiD、ION Torrent或Pacific Bioscience测序平台。

在一些情况下，所公开的系统可用于自动检测和调用如本文中所述的多种样品(例如，来源于对象的组织样品、活检样品、血液学样品或液体活检样品)中的任一种中的CNA。

在一些情况下，对其测序数据进行处理以确定拷贝数改变的多个基因座可包含至少1、2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100或多于10个基因座。

在一些情况下，使用下一代测序技术(也称为大规模平行测序技术)来获取核酸序列数据，所述下一代测序技术的读出长度少于400个碱基、少于300个碱基、少于200个碱基、少于150个碱基、少于100个碱基、少于90个碱基、少于80个碱基、少于70个碱基、少于60个碱基、少于50个碱基、少于40个碱基或少于30个碱基。

在一些情况下，如本文中别处所述，确定一个或更多个基因座中拷贝数改变以用于选择、启动、调整或终止对样品所来源的对象(例如患者)的癌症治疗。

在一些情况下，所公开的系统还可包含样品处理和文库制备工作站、微板处理机器人、流体分配系统、温度控制模块、环境控制室、另外的数据存储模块、数据通信模块(例如WiFi、内联网或互联网通信硬件和相关软件)、显示模块、一个或更多个本地和/或基于云的软件包(例如仪器/系统控制软件包、测序数据分析软件包)等，或其任意组合。在一些情况下，系统可以包含如本文中别处所述的计算机系统或计算机网络或者是计算机系统或计算机网络的一部分。

计算机系统和网络

图6示出了根据一个实施方案的计算设备或系统的实例。设备600可以是与网络连接的主机计算机。设备600可以是客户端计算机或服务器。如在图6中所示，设备600可以是任何合适类型的基于微处理器的设备，例如个人计算机、工作站、服务器或手持计算设备(便携式电子设备)，例如电话或平板电脑。该设备可包含例如一个或更多个处理器610、输入设备620、输出设备630、存储器或存储设备640、通信设备660和核酸测序仪670。驻留在存储器或存储设备640中的软件650可包含例如操作系统以及用于执行本文中所述的方法的软件。输入设备620和输出设备630可通常对应于本文中所述的那些，并且可以与计算机连接或集成。

输入设备620可以是提供输入的任何合适的设备，例如触摸屏、键盘或小键盘(keypad)、鼠标或语音识别设备。输出设备630可以是提供输出的任何合适的设备，例如触摸屏、触觉设备或扬声器。

存储器640可以是提供存储的任何合适的设备(例如电存储器、磁存储器或光学存储器，包含RAM(易失性或非易失性)、高速缓存、硬盘驱动器或可移动存储盘)。通信设备660可包含能够通过网络发送和接收信号的任何合适的设备，例如网络接口芯片或设备。计算机的组件可以以任何合适的方式连接，例如通过有线介质(例如，物理系统总线680、以太网连接或任何其他有线传输技术)或无线地(例如，或任何其他无线技术)。

可作为可执行指令存储在存储器640中并由处理器610执行的软件模块650可包含例如操作系统和/或体现本公开内容方法的功能的程序(例如，如在本文中所述的设备中体现的)。

软件模块650还可以在任何非暂态计算机可读存储介质内存储和/或传输，以供通过指令执行系统、装置或设备(例如本文中所述的那些)使用或与其结合使用，所述软件模块可以从指令执行系统、装置或设备获取与该软件相关的指令并执行该指令。在本公开内容的上下文中，计算机可读存储介质可以是任何这样的介质(例如存储器640)，所述介质可包含或存储供指令执行系统、装置或设备使用或与其结合使用的程序。计算机可读存储介质的一些实例可包括存储器单元如硬盘驱动器、闪存驱动器以及作为单个功能单元操作的分布式模块。此外，本文中所述的多种过程可以体现为被配置为根据上述实施方案和技术进行操作的模块。此外，虽然可以单独地示出和/或描述程序，但是本领域技术人员将理解，以上程序可以是其他程序内的例程或模块。

软件模块650还可以在任何传输介质中传播，以供指令执行系统、装置或设备(例如上述那些)使用或与其结合使用，所述软件模块可以从指令执行系统、装置或设备获取与该软件相关的指令并执行该指令。在本公开内容的上下文中，传输介质可以是任何可传递、传播或传输程序以供指令执行系统、装置或设备使用或与其结合使用的介质。传输可读介质可包括但不限于电子、磁、光学、电磁或红外有线或无线的传播介质。

设备600可以连接到网络(例如，如图7所示和/或下文所述的网络704)，其可以是任何合适类型的互连通信系统。网络可以实施任何合适的通信方案且可以由任何合适的安全协议保护。网络可包含可实施网络信号的传输和接收的任何合适布置的网络链路，例如无线网络连接、T1或T3链路、有线网络、DSL或电话线路。

设备600可使用任何操作系统来实施，例如适合于在网络上运行的操作系统。软件模块650可以用任何合适的编程语言(例如C、C++、Java或Python)编写。在多个实施方案中，体现本公开内容的功能的应用软件可以以不同的配置(例如以客户端/服务器布置或通过网络浏览器)来部署为例如基于网络的应用或网络服务。在一些实施方案中，操作系统由一个或更多个处理器执行，处理器例如处理器610。

设备600还可包含测序仪670，其可以是任何合适的核酸测序仪器。

图7示出了根据一个实施方案的计算系统的实例。在系统700中，设备600(例如，如上所述和图6中所示)连接到网络704，网络704也连接到设备706。在一些实施方案中，设备706是测序仪。示例性测序仪可包括但不限于Roche/454的基因组测序仪(GS)FLX系统，Illumina/Solexa的基因组分析仪(GA)，Illumina的HiSeq 2500、HiSeq 3000、HiSeq 4000和NovaSeq 6000测序系统，Life/APG的支持寡核苷酸连接检测(SOLiD)系统，Polonator的G.007系统，Helicos BioSciences的HeliScope基因测序系统或Pacific Biosciences的PacBio RS系统。

设备600和706可例如通过网络704(例如局域网(Local Area Network，LAN)、虚拟专用网(Virtual Private Network，VPN)或因特网)使用合适的通信接口进行通信。在一些实施方案中，网络704可以是例如因特网、内联网、虚拟专用网、云网络、有线网络或无线网络。设备600和706可以部分或全部地通过无线或硬接线通信，例如以太网、IEEE 802.11b无线等进行通信。另外，设备600和706可例如使用合适的通信接口通过第二网络例如移动/蜂窝网络进行通信。设备600与706之间的通信还可包含多种服务器(例如邮件服务器、移动服务器、媒体服务器、电话服务器等)或与其通信。在一些实施方案中，设备600和706可以直接通信(代替或补充通过网络704的通信)，例如通过无线或硬接线通信，例如以太网、IEEE802.11b无线等。在一些实施方案中，设备600和706通过通信708进行通信，这可以是直接连接或可以通过网络(例如，网络704)发生。

设备600和706中的一个或全部通常包含逻辑(例如，http网络服务器逻辑)或被编程为格式化数据，从本地或远程数据库或其他数据和内容源访问，用于根据本文中所述的多种实例通过网络704提供和/或接收信息。

示例性实施方案

本文中所述方法和系统的示例性实施方案包括：

1.方法，其包括：

提供从来自对象的样品获得的多个核酸分子；

将一个或更多个衔接子连接到来自所述多个核酸分子的一个或更多个核酸分子上；

对来自所述多个核酸分子的一个或更多个经连接的核酸分子进行扩增；

从所扩增的核酸分子捕获经扩增的核酸分子；

通过测序仪对所捕获的核酸分子进行测序以获得代表所捕获的核酸分子的多个序列读出，其中所述多个测序读出中的一个或更多个与所述样品中一个或更多个亚基因组区间内的一个或更多个基因座重叠；

在一个或更多个处理器处接收所述多个序列读出的序列读出数据；以及基于所述序列读出数据：

使用所述一个或更多个处理器，确定所述样品的倍性、所述一个或更多个亚基因组区间内的一个或更多个基因座的覆盖率数据、等位基因分数数据、分割数据和拷贝数模型；

使用所述一个或更多个处理器，基于所述分割数据鉴定多个区段；

使用所述一个或更多个处理器，基于至少所述覆盖率数据、所述等位基因分数数据、所述分割数据和所述拷贝数模型确定所述多个区段的拷贝数；

使用所述一个或更多个处理器，基于所述多个区段中的相应区段的拷贝数检测所述一个或更多个基因座中的基因座的扩增或缺失的存在；以及

使用所述一个或更多个处理器，基于检测到的所述一个或更多个基因座的扩增和缺失调用所述一个或更多个基因座的拷贝数改变(CNA)。

2.条款1所述的方法，其还包括合并针对所述一个或更多个基因座中的基因座检测到的任何重复扩增和缺失。

3.条款1或条款2所述的方法，其中所述拷贝数模型基于所述覆盖率数据和等位基因分数数据来预测所述一个或更多个基因座的拷贝数。

4.条款1至3中任一项所述的方法，其中所述覆盖率数据还包含与所述一个或更多个基因座相关的单核苷酸多态性(SNP)和内含子的覆盖率数据。

5.条款1至4中任一项所述的方法，其中所述拷贝数模型还预测所述样品的样品纯度和倍性。

6.条款1至5中任一项所述的方法，其中所述拷贝数模型还输出所述分割数据。

7.条款1至6中任一项所述的方法，其中当所述相应区段的拷贝数大于或等于所述样品的倍性时，检测到扩增。

8.条款1至7中任一项所述的方法，其中缺失的检测包括鉴定相应区段中的一个或更多个基因座的纯合缺失。

9.条款1至8中任一项所述的方法，其中缺失的检测包括鉴定相应区段中的一个或更多个基因座的杂合缺失。

10.条款1至9中任一项所述的方法，其中缺失的检测包括鉴定相应区段中的一个或更多个基因座的部分缺失。

11.条款110中任一项所述的方法，其中所述对象被怀疑患有或被确定患有疾病。

12.条款11所述的方法，其中所述疾病是癌症。

13.条款112中任一项所述的方法，其中所述方法用于常规测试。

14.条款113中任一项所述的方法，其中所述方法用于产前测试。

15.条款114中任一项所述的方法，其还包括从所述对象收集所述样品。

16.条款115中任一项所述的方法，其中所述样品包含组织活检样品、液体活检样品或正常对照。

17.条款16所述的方法，其中所述样品是组织活检样品并且包含骨髓。

18.条款16所述的方法，其中所述样品是液体活检样品并且包含血液、血浆、脑脊液、痰、粪便、尿液或唾液。

19.条款16所述的方法，其中所述液体活检样品并且包含循环肿瘤细胞(CTC)。

20.条款16所述的方法，其中所述样品是液体活检样品并且包含无细胞DNA(cfDNA)、循环肿瘤DNA(ctDNA)，或其任意组合。

21.条款1至20中任一项所述的方法，其中所述多个核酸分子包含肿瘤核酸分子与非肿瘤核酸分子的混合物。

22.条款21所述的方法，其中所述肿瘤核酸分子来源于异质组织活检样品的肿瘤部分，并且所述非肿瘤核酸分子来源于所述异质组织活检样品的正常部分。

23.条款21所述的方法，其中所述样品包含液体活检样品，并且其中所述肿瘤核酸分子来源于所述液体活检样品的循环肿瘤DNA(ctDNA)部分，并且所述非肿瘤核酸分子来源于所述液体活检样品的非肿瘤无细胞DNA(cfDNA)部分。

24.条款1至23中任一项所述的方法，其中所述一个或更多个衔接子包含扩增引物、流动池衔接子序列、底物衔接子序列或样品索引序列。

25.条款1至24中任一项所述的方法，其中所捕获的核酸分子通过与一个或更多个诱饵分子杂交而从所扩增的核酸分子捕获。

26.条款25所述的方法，其中所述一个或更多个诱饵分子包含一个或更多个核酸分子，每个核酸分子包含与所捕获的核酸分子的区域互补的区域。

27.条款1至26中任一项所述的方法，其中对核酸分子进行扩增包括进行聚合酶链反应(PCR)扩增技术、非PCR扩增技术或等温扩增技术。

28.条款1至27中任一项所述的方法，其中所述测序包括使用大规模平行测序(MPS)技术、全基因组测序(WGS)、全外显子组测序、靶向测序、直接测序或Sanger测序技术。

29.条款28所述的方法，其中所述测序包括大规模平行测序，并且所述大规模平行测序技术包括下一代测序(NGS)。

30.条款29所述的方法，其中所述下一代测序(NGS)包括配对末端测序。

31.条款1至30中任一项所述的方法，其中所述测序仪包括下一代测序仪。

32.条款1至31中任一项所述的方法，其还包括由所述一个或更多个处理器生成指示所调用的拷贝数改变的报告。

33.条款32所述的方法，其还包括将所述报告传输至健康护理提供者。

34.条款33所述的方法，其中所述报告经由计算机网络或对等连接传输。

35.用于自动调用拷贝数改变的方法，其包括：

在一个或更多个处理器处接收与来自对象的样品中一个或更多个亚基因组区间内的一个或更多个基因座重叠的多个序列读出的序列读出数据，以及基于所述序列读出数据：

36.条款35所述的方法，其还包括合并针对所述一个或更多个基因座中的基因座检测到的任何重复扩增和缺失。

37.条款35或条款36所述的方法，其还包括生成包含所述一个或更多个基因座的所调用的拷贝数改变的报告。

38.条款35至37中任一项所述的方法，其还包括基于所述一个或更多个基因座的所调用的拷贝数改变生成所述对象的基因组谱。

39.条款35至38中任一项所述的方法，其中所述覆盖率数据通过以下确定：将与所述样品和对照样品中一个或更多个亚基因组区间内的一个或更多个基因座重叠的多个序列读出与参考基因组进行比对，以及确定与所述样品和所述对照样品中所述一个或更多个亚基因组区间内的一个或更多个基因座中的每一个重叠的序列读出的数目。

40.条款39所述的方法，其中所述对照样品是配对的正常样品、过程匹配的对照样品、或正常对照样品组。

41.条款35至40中任一项所述的方法，其中所述等位基因分数数据通过以下确定：将与所述样品中一个或更多个亚基因组区间内的一个或更多个基因座重叠的多个序列读出与参考基因组进行比对，检测存在于所述一个或更多个基因座中的基因座处的等位基因的数目，以及确定存在于所述基因座处的至少一个等位基因的等位基因分数。

42.条款35至41中任一项所述的方法，其中所述分隔数据通过以下产生：

将与所述样品中一个或更多个亚基因组区间内的一个或更多个基因座重叠的多个序列读出与参考基因组进行比对，以及

使用修剪精确线性时间(PELT)方法处理经比对的序列读出数据、覆盖率数据和等位基因分数数据，以确定说明经比对的序列读出数据所需的区段的数目，其中每个区段具有相同的拷贝数。

43.条款35至42中任一项所述的方法，其中所述拷贝数模型基于所述覆盖率数据和等位基因分数数据来预测所述一个或更多个基因座的拷贝数。

44.条款43所述的方法，其中所述覆盖率数据还包含与所述一个或更多个基因座相关的单核苷酸多态性(SNP)和内含子的覆盖率数据。

45.条款43或条款44所述的方法，其中所述拷贝数模型还预测所述样品的样品纯度和倍性。

46.条款43至45中任一项所述的方法，其中所述拷贝数模型还输出所述分割数据。

47.条款35至46中任一项所述的方法，其中所述样品的倍性具有1至8范围内的值。

48.条款35至47中任一项所述的方法，其中当所述相应区段的拷贝数大于或等于所述样品的倍性时，检测到扩增。

49.条款48所述的方法，其中当所述相应片段的拷贝数大于或等于所述样品的倍性加第一预定值时，检测到扩增。

50.条款49所述的方法，其中所述第一预定值为2至500范围内的值。

51.条款49或条款50所述的方法，其中所述第一预定值为2至10范围内的值。

52.条款48所述的方法，其中当所述相应区段的拷贝数大于或等于所述样品的倍性加第二预定值并且所述基因座是第一预定义基因座组的成员时，检测到扩增。

53.条款52所述的方法，其中所述第二预定值为0至500范围内的值。

54.条款52或条款53所述的方法，其中所述第二预定值为2至10范围内的值。

55.条款52至54中任一项所述的方法，其中所述第一预定义基因座组包含一个或更多个可成药基因靶基因座、预后基因座、癌基因基因座，或其任意组合。

56.条款55所述的方法，其中所述第一预定义基因座组包含AR和ERBB2基因座。

57.条款35至56中任一项所述的方法，其中缺失的检测包括鉴定相应区段中的一个或更多个基因座的纯合缺失。

58.条款57所述的方法，其中纯合缺失通过确定给定基因座的总拷贝数来检测，所述给定基因座的总拷贝数等于所述基因座处的第一等位基因和第二等位基因的拷贝数的总和。

59.条款58所述的方法，其中所述第一等位基因是主要等位基因并且所述第二等位基因是次要等位基因。

60.条款58或条款59所述的方法，其中如果给定基因座的总拷贝数等于第三预定值，则调用纯合缺失。

61.根据条款60所述的方法，其中所述第三预定值为约零。

62.条款35至61中任一项所述的方法，其中缺失的检测包括鉴定相应区段中的一个或更多个基因座的杂合缺失。

63.条款62所述的方法，其中如果给定基因座处的第一等位基因的拷贝数等于第四预定值，并且所述给定基因座处的第二等位基因的拷贝数不等于所述第四预定值，则调用杂合缺失。

64.条款63所述的方法，其中所述第四预定值为约零。

65.条款63或条款64所述的方法，其中所述第一等位基因是主要等位基因并且所述第二等位基因是次要等位基因。

66.条款35至65中任一项所述的方法，其中缺失的检测包括鉴定相应区段中的一个或更多个基因座的部分缺失。

67.条款66所述的方法，其中如果相邻基因座、单核苷酸多态性(SNP)和内含子的log2比率(L2R)与所述基因座的log2比率显著不同，并且给定基因座的log2比率与非相邻基因座、单核苷酸多态性(SNP)和内含子的L2R分布显著不同，则调用所述给定基因座的部分缺失。

68.条款35至67中任一项所述的方法，其还包括在调用所述一个或更多个基因座的拷贝数改变之前执行质量控制程序。

69.条款68所述的方法，其中执行所述质量控制程序以评估所述序列读出数据的质量。

70.条款68或条款69所述的方法，其中执行所述质量控制程序以评估拷贝数模型的成功收敛。

71.条款68至70中任一项所述的方法，其中执行所述质量控制程序以评估所述一个或更多个基因座的CNA调用的可靠性。

72.条款35至71中任一项所述的方法，其中所调用的CNA用于在对象中诊断疾病或确认疾病的诊断。

73.条款72所述的方法，其中所述疾病是癌症。

74.条款72或条款73所述的方法，其还包括基于所调用的CNA选择施用于所述对象的癌症治疗。

75.条款73至74中任一项所述的方法，其还包括基于所调用的CNA确定施用于所述对象的癌症治疗的有效量。

76.条款74或条款75所述的方法，其还包括基于所调用的CNA选择施用于所述对象的癌症治疗。

77.条款74至76中任一项所述的方法，其中所述癌症治疗包含化学治疗、放射治疗、免疫治疗、靶向治疗或手术。

78.条款74至77中任一项所述的方法，其中所述癌症是B细胞癌(多发性骨髓瘤)、黑素瘤、乳腺癌、肺癌、支气管癌、结直肠癌、前列腺癌、胰腺癌、胃癌、卵巢癌、膀胱癌、脑癌、中枢神经系统癌、周围神经系统癌、食管癌、宫颈癌、子宫癌、子宫内膜癌、口腔癌、咽癌、肝癌、肾癌、睾丸癌、胆道癌、小肠癌、阑尾癌、唾液腺癌、甲状腺癌、肾上腺癌、骨肉瘤、软骨肉瘤、血液学组织癌、腺癌、炎性肌成纤维细胞瘤、胃肠道间质瘤(GIST)、结肠癌、多发性骨髓瘤(MM)、骨髓增生异常综合征(MDS)、骨髓增殖性病症(MPD)、急性淋巴细胞白血病(ALL)、急性髓细胞白血病(AML)、慢性髓细胞白血病(CML)、慢性淋巴细胞白血病(CLL)、真性红细胞增多症、霍奇金淋巴瘤、非霍奇金淋巴瘤(NHL)、软组织肉瘤、纤维肉瘤、黏液肉瘤、脂肪肉瘤、成骨肉瘤、脊索瘤、血管肉瘤、内皮肉瘤、淋巴管肉瘤、淋巴管内皮肉瘤、滑膜瘤、间皮瘤、尤因肿瘤、平滑肌肉瘤、横纹肌肉瘤、鳞状细胞癌、基底细胞癌、腺癌、汗腺癌、皮脂腺癌、乳头状癌、乳头状腺癌、髓样癌、支气管源性癌、肾细胞癌、肝癌、胆管癌、绒毛膜癌、精原细胞瘤、胚胎癌、维尔姆斯瘤、膀胱癌、上皮癌、神经胶质瘤、星形细胞瘤、髓母细胞瘤、颅咽管瘤、室管膜瘤、松果体瘤、血管母细胞瘤、听神经瘤、少突胶质细胞瘤、脑膜瘤、神经母细胞瘤、视网膜母细胞瘤、滤泡性淋巴瘤、弥漫大B细胞淋巴瘤、套细胞淋巴瘤、肝细胞癌、甲状腺癌、胃癌、头颈癌、小细胞癌、原发性血小板增多症、原因不明性髓样化生、高嗜酸性粒细胞增多综合征、系统性肥大细胞增多症、常见高嗜酸性粒细胞增多症、慢性嗜酸性粒细胞白血病、神经内分泌癌、或类癌瘤。

79.条款35至78中任一项所述的方法，其中所述一个或更多个基因座包含10至20个基因座、10至40个基因座、10至60个基因座、10至80个基因座、10至100个基因座、10至150个基因座、10至200个基因座、10至250个基因座、10至300个基因座、10至350个基因座、10至400个基因座、10至450个基因座、10至500个基因座、20至40个基因座、20至60个基因座、20至80个基因座、20至100个基因座、20至150个基因座、20至200个基因座、20至250个基因座、20至300个基因座、20至350个基因座、20至400个基因座、20至500个基因座、40至60个基因座、40至80个基因座、40至100个基因座、40至150个基因座、40至200个基因座、40至250个基因座、40至300个基因座、40至350个基因座、40至400个基因座、40至500个基因座、60至80个基因座、60至100个基因座、60至150个基因座、60至200个基因座、60至250个基因座、60至300个基因座、60至350个基因座、60至400个基因座、60至500个基因座、80至100个基因座、80至150个基因座、80至200个基因座、80至250个基因座、80至300个基因座、80至350个基因座、80至400个基因座、80至500个基因座、100至150个基因座、100至200个基因座、100至250个基因座、100至300个基因座、100至350个基因座、100至400个基因座、100至500个基因座、150至200个基因座、150至250个基因座、150至300个基因座、150至350个基因座、150至400个基因座、150至500个基因座、200至250个基因座、200至300个基因座、200至350个基因座、200至400个基因座、200至500个基因座、250至300个基因座、250至350个基因座、250至400个基因座、250至500个基因座、300至350个基因座、300至400个基因座、300至500个基因座、350至400个基因座、350至500个基因座或400至500个基因座。

80.用于诊断疾病的方法，所述方法包括：

基于对来自对象的样品中一个或更多个亚基因组区间内的一个或更多个基因座的拷贝数改变(CNA)的检测，诊断所述对象患有所述疾病，其中所检测到的CNA是根据条款35至75中任一项所述的方法确定的。

81.选择癌症治疗的方法，所述方法包括：

响应于检测来自对象的样品中一个或更多个亚基因组区间内的一个或更多个基因座的拷贝数改变(CNA)，为所述对象选择癌症治疗，其中所检测到的CNA是根据条款35至79中任一项所述的方法确定的。

82.在对象中治疗癌症的方法，其包括：

响应于检测来自对象的样品中一个或更多个亚基因组区间内的一个或更多个基因座的拷贝数改变(CNA)，向所述对象施用有效量的癌症治疗，其中所检测到的CNA是根据条款35至81中任一项所述的方法确定的。

83.用于在对象中监测肿瘤进展或复发的方法，所述方法包括：

根据条款35至81中任一项所述的方法，检测在第一时间点从所述对象获得的第一样品中一个或更多个亚基因组区间内的一个或更多个基因座的拷贝数改变(CNA)；

检测在第二时间点从所述对象获得的第二样品中一个或更多个亚基因组区间内的一个或更多个基因座的拷贝数改变(CNA)；以及将在所述第一样品中检测到的CNA与在所述第二样品中检测到的CNA进行比较，从而监测所述肿瘤进展或复发。

84.条款83所述的方法，其中根据条款35至81中任一项所述的方法确定所述第二样品中CNA的检测。

85.条款83或条款84所述的方法，其还包括响应于所述肿瘤进展来调整抗癌治疗。

86.条款83至85中任一项所述的方法，其还包括响应于所述肿瘤进展来调整所述抗癌治疗的剂量或选择不同的抗癌治疗。

87.条款86所述的方法，其还包括向所述对象施用经调整的抗癌治疗。

88.条款83至87中任一项所述的方法，其中所述第一时间点是在向所述对象施用抗癌治疗之前，并且其中所述第二时间点是在向所述对象施用所述抗癌治疗之后。

89.条款83至88中任一项所述的方法，其中所述对象患有癌症、处于患有癌症的风险中、正在针对癌症进行常规测试、或被怀疑患有癌症。

90.条款83至89中任一项所述的方法，其中所述癌症是实体瘤。

91.条款83至89中任一项所述的方法，其中所述癌症是血液学癌症。

92.条款85至91中任一项所述的方法，其中所述抗癌治疗包含化学治疗、放射治疗、免疫治疗、靶向治疗或手术。

93.条款35至79中任一项所述的方法，其还包括确定所述一个或更多个亚基因组区间内的一个或更多个基因座的所调用的CNA，并且应用所调用的CNA作为与所述样品相关的诊断值。

94.条款35至79中任一项所述的方法，其还包括基于所述一个或更多个基因座的所调用的CNA生成所述对象的基因组谱。

95.条款94所述的方法，其中所述对象的基因组谱还包含来自以下的结果：全面基因组谱分析(CGP)测试、基因表达谱分析测试、癌症热点组测试、DNA甲基化测试、DNA片段化测试、RNA片段化测试，或其任意组合。

96.条款94或条款95所述的方法，其中所述对象的基因组谱还包含来自基于核酸测序的测试的结果。

97.条款94至96中任一项所述的方法，其还包括基于所生成的基因组谱来选择抗癌剂、向所述对象施用抗癌剂或施加抗癌治疗。

98.条款35至79中任一项所述的方法，其中所述样品中一个或更多个亚基因组区间内的一个或更多个基因座的CNA的检测用于为所述对象做出建议的治疗决定。

99.条款35至79中任一项所述的方法，其中所述样品中一个或更多个亚基因组区间内的一个或更多个基因座的CNA的检测用于向所述对象施加或施用治疗。

100.系统，其包含：

一个或更多个处理器；和

与所述一个或更多个处理器通信耦合并被配置为存储指令的存储器，当所述指令由所述一个或更多个处理器执行时，使得所述系统：

接收与来自对象的样品中一个或更多个亚基因组区间内一个或更多个基因座重叠的多个序列读出的序列读出数据，以及基于所述序列读出数据：

确定所述样品的倍性、所述一个或更多个亚基因组区间内的一个或更多个基因座的覆盖率数据、等位基因分数数据、分割数据和拷贝数模型；

基于所述分割数据鉴定多个区段；

基于至少所述覆盖率数据、所述等位基因分数数据、所述分割数据和所述拷贝数模型确定所述多个区段的拷贝数；

基于所述多个区段中的相应区段的拷贝数检测所述一个或更多个基因座中的基因座的扩增或缺失的存在；以及

基于检测到的所述一个或更多个基因座的扩增和缺失，调用所述一个或更多个基因座的拷贝数改变(CNA)。

101.存储一个或更多个程序的非暂态计算机可读存储介质，所述一个或更多个程序包含指令，所述指令在由系统的一个或更多个处理器执行时使得所述系统：

确定所述样品的倍性、来自对象的样品中一个或更多个亚基因组区间内的一个或更多个基因座的覆盖率数据、等位基因分数数据、分割数据和拷贝数模型；

基于所述分割数据鉴定多个区段；

基于所述多个区段中的相应区段的拷贝数，检测所述一个或更多个基因座中的基因座的扩增或缺失的存在；以及

从前述内容应当理解，虽然已经示出和描述了所公开的方法和系统的一些具体实施方式，但可对其进行多种修改并且在本文中是可预期的。也并不旨在通过说明书内提供的一些具体实施来限制本发明。尽管已参考前述说明书描述了本发明，但本文中优选实施方案的描述和举例说明并不意味着以限制性意义来解释。此外，应当理解，本发明的所有方面不限于本文中阐述的具体描述、配置或相对比例，其取决于多种条件和变量。本发明实施方案的形式和细节上的多种修改对于本领域技术人员而言将是明显的。因此可预期的是，本发明还应涵盖任何这样的修改、变化或等同方案。

Claims

1.用于自动调用拷贝数改变的方法，其包括：

2.权利要求1所述的方法，其还包括合并针对所述一个或更多个基因座中的基因座检测到的任何重复扩增和缺失。

3.权利要求1所述的方法，其还包括生成包含所述一个或更多个基因座的所调用的拷贝数改变的报告。

4.权利要求1所述的方法，其还包括基于所述一个或更多个基因座的所调用的拷贝数改变生成所述对象的基因组谱。

5.权利要求1所述的方法，其中所述覆盖率数据通过以下确定：将与所述样品和对照样品中一个或更多个亚基因组区间内的一个或更多个基因座重叠的多个序列读出与参考基因组进行比对，以及确定与所述样品和所述对照样品中所述一个或更多个亚基因组区间内的一个或更多个基因座中的每一个重叠的序列读出的数目。

6.权利要求5所述的方法，其中所述对照样品是配对的正常样品、过程匹配的对照样品、或正常对照样品组。

7.权利要求1所述的方法，其中所述等位基因分数数据通过以下确定：将与所述样品中一个或更多个亚基因组区间内的一个或更多个基因座重叠的多个序列读出与参考基因组进行比对，检测存在于所述一个或更多个基因座中的基因座处的等位基因的数目，以及确定存在于所述基因座处的至少一个等位基因的等位基因分数。

8.权利要求1所述的方法，其中所述分割数据通过以下产生：

9.权利要求1所述的方法，其中所述拷贝数模型基于所述覆盖率数据和等位基因分数数据来预测所述一个或更多个基因座的拷贝数。

10.权利要求9所述的方法，其中所述覆盖率数据还包含与所述一个或更多个基因座相关的单核苷酸多态性(SNP)和内含子的覆盖率数据。

11.权利要求9所述的方法，其中所述拷贝数模型还预测所述样品的样品纯度和倍性。

12.权利要求9所述的方法，其中所述拷贝数模型还输出所述分割数据。

13.权利要求1所述的方法，其中所述样品的倍性具有1至8范围内的值。

14.权利要求1所述的方法，其中当所述相应区段的拷贝数大于或等于所述样品的倍性时，检测到扩增。

15.权利要求14所述的方法，其中当所述相应区段的拷贝数大于或等于所述样品的倍性加第一预定值时，检测到扩增。

16.权利要求15所述的方法，其中所述第一预定值为2至500范围内的值。

17.权利要求15所述的方法，其中所述第一预定值为2至10范围内的值。

18.权利要求14所述的方法，其中当所述相应区段的拷贝数大于或等于所述样品的倍性加第二预定值并且所述基因座是第一预定义基因座组的成员时，检测到扩增。

19.权利要求18所述的方法，其中所述第二预定值为0至500范围内的值。

20.权利要求18所述的方法，其中所述第二预定值为2至10范围内的值。

21.权利要求18所述的方法，其中所述第一预定义基因座组包含一个或更多个可成药基因靶基因座、预后基因座、癌基因基因座，或其任意组合。

22.权利要求21所述的方法，其中所述第一预定义基因座组包含AR和ERBB2基因座。

23.权利要求1所述的方法，其中缺失的检测包括鉴定相应区段中的一个或更多个基因座的纯合缺失。

24.权利要求23所述的方法，其中纯合缺失通过确定给定基因座的总拷贝数来检测，所述给定基因座的总拷贝数等于所述基因座处的第一等位基因和第二等位基因的拷贝数的总和。

25.权利要求24所述的方法，其中所述第一等位基因是主要等位基因并且所述第二等位基因是次要等位基因。

26.权利要求24所述的方法，其中如果给定基因座的总拷贝数等于第三预定值，则调用纯合缺失。

27.权利要求26所述的方法，其中所述第三预定值为约零。

28.权利要求1所述的方法，其中缺失的检测包括鉴定相应区段中的一个或更多个基因座的杂合缺失。

29.权利要求28所述的方法，其中如果给定基因座处的第一等位基因的拷贝数等于第四预定值，并且所述给定基因座处的第二等位基因的拷贝数不等于所述第四预定值，则调用杂合缺失。

30.权利要求29所述的方法，其中所述第四预定值为约零。

31.权利要求29所述的方法，其中所述第一等位基因是主要等位基因并且所述第二等位基因是次要等位基因。

32.权利要求1所述的方法，其中缺失的检测包括鉴定相应区段中的一个或更多个基因座的部分缺失。

33.权利要求32所述的方法，其中如果相邻基因座、单核苷酸多态性(SNP)和内含子的log2比率(L2R)与所述基因座的log2比率显著不同，并且给定基因座的log2比率与非相邻基因座、单核苷酸多态性(SNP)和内含子的L2R分布显著不同，则调用所述给定基因座的部分缺失。

34.权利要求1所述的方法，其还包括在调用所述一个或更多个基因座的拷贝数改变之前执行质量控制程序。

35.权利要求34所述的方法，其中执行所述质量控制程序以评估所述序列读出数据的质量。

36.权利要求34所述的方法，其中执行所述质量控制程序以评估拷贝数模型的成功收敛。

37.权利要求34所述的方法，其中执行所述质量控制程序以评估所述一个或更多个基因座的CNA调用的可靠性。

38.权利要求1所述的方法，其中所调用的CNA用于在所述对象中诊断疾病或确认疾病的诊断。

39.权利要求38所述的方法，其中所述疾病是癌症。