CN116601714A

CN116601714A - 使用非错误传播定相技术和等位基因平衡的组合改进cnv检测

Info

Publication number: CN116601714A
Application number: CN202180084302.XA
Authority: CN
Inventors: A·库马尔; M·拉比诺维茨
Original assignee: Maiomi Co
Current assignee: Maiomi Co
Priority date: 2020-10-30
Filing date: 2021-10-29
Publication date: 2023-08-15
Also published as: US20230410942A1; WO2022094310A1; JP2023548113A; EP4238096A1

Abstract

本文公开了如下方法，其使用非错误传播定相技术与通过更常规的错误传播方法获得的测序数据的组合以改进基因组的定相和校正等位基因平衡信号，从而能够允许改进对染色体区段的倍性状态的确定。本文进一步公开了组合使用等位基因平衡和读取深度来改进倍性状态确定的方法。本文描述的技术能够以微创方式用于确定胚胎或胎儿的倍性状态以及鉴定肿瘤DNA中的染色体不稳定性。

Description

使用非错误传播定相技术和等位基因平衡的组合改进CNV 检测

相关申请的交叉引用

本申请要求2020年10月30日提交的美国临时申请号63/107,464的权益，将其通过引用以其整体并入本文。

背景技术

拷贝数变异(CNV)可以作为疾病和疾病进展的重要指标。CNV已被确定为基因组结构变异的主要原因，所述基因组结构变异涉及长度通常在1kb至20Mb范围内的序列的重复和缺失。染色体区段或整个染色体的缺失和重复与多种病症(如对疾病的易感性或抗性)有关。然而，识别CNV的方法仍然具有挑战性，并且由于多个问题而变得复杂。在一些情况下，正常组织和异常组织(包含一个或多个CNV)混合在一起，产生了阻碍对一个或多个CNV进行检测的噪声。此外，可用的测序数据可能具有有限的动态范围。此外，由于重采样偏差引起的不均匀扩增可能导致变异等位基因平衡偏斜。

因此，需要改进的方法以更准确地检测染色体区段或整个染色体(包括CNV)的缺失和重复。优选地，这些方法可用于更准确地诊断疾病或增加的疾病风险，如癌症或妊娠胎儿中的CNV。

发明内容

根据本发明的一个方面，本文公开了一种校正染色体区段的等位基因平衡信号的方法。所述方法涉及获得参考遗传密码，所述参考遗传密码可以是至少部分定相的，并且具有至少两个相位集。每个相位集具有一个或多个目的变异。所述方法还涉及从对遗传物质样品进行的测序获得所述一个或多个目的变异的等位基因平衡信号，以及获得使用非错误传播技术测序的多个读段。每个读段涵盖所述一个或多个目的变异中的至少一个。然后，基于所述多个读段将所述两个相位集的相位比对确定为同相或异相，以及通过基于所确定的所述两个相位集的相位比对确认、校正或提供至少一个目的变异的定相来确定真实等位基因平衡信号。

所述非错误传播技术可以涉及构象捕获、单细胞模板链测序或染色体分离(例如，通过激光捕获显微切割或核型)。所述方法可能需要执行所述非错误传播技术以获得所述多个读段。所述方法可能需要对所述遗传物质样品进行测序以获得所述等位基因平衡信号。

所述等位基因平衡信号和所述多个读段可以源自同一遗传物质样品。所述样品可以是体液样品(例如，血液样品、唾液样品)或组织活检样品。所述等位基因平衡信号和所述多个读段可以源自相同的细胞群体。所述等位基因平衡信号可以源自无细胞DNA，并且所述多个读段源自细胞DNA。所述细胞DNA可以来自体液(例如，血液或唾液)中发现的细胞。

所述参考遗传密码可以源自用于生成等位基因平衡信号的测序。所述参考遗传密码可以至少部分地源自对受试者中正常组织的测序，其中为所述受试者获得所述等位基因平衡信号；源自对所述受试者中的生殖系组织的测序；或源自对来自所述受试者的一个或多个遗传亲属的遗传物质的测序。所述一个或多个亲属可以是所述受试者的母亲和/或父亲。所述参考遗传密码可以至少部分地源自对所述一个或多个遗传亲属的生殖系测序。

所述参考遗传密码可以至少部分地源自对所述受试者的全基因组鸟枪测序。所述等位基因平衡信号可以源自所述全基因组鸟枪测序。在任一种情况下，可以对体液样品(例如，血液样品或唾液样品)中的无细胞DNA进行全基因组鸟枪测序。非错误传播技术可能需要单细胞测序。所述方法可能还需要收集从中获得所述等位基因平衡信号的遗传物质样品和/或收集从中获得所述多个读段的遗传物质样品。

校正等位基因平衡数据可能需要校正已经至少部分定相的参考遗传密码中的转换错误。所述等位基因平衡信号可以是在约、至少约或不大于约50,000、100,000、200,000、300,000、400,000、500,000、750,000、1,000,000、50,000,000或100,000,000bp的区域内在多个分箱变异上取平均值得到的。所述等位基因平衡信号可以是在一个或多个单体型块上取平均值得到的。可以通过稀释池测序确定所述一个或多个单体型块。所述等位基因平衡信号可以源自用于确定所述一个或多个单体型块的相同测序。可以针对最小读取深度(例如，5、10、15、20或25个读段的最小读取深度)过滤所述等位基因平衡信号。

所述两个相位集可以是所述参考遗传密码内的相邻相位集。例如，每个所述相邻相位集可以包含这样的目的变异。其与另一个相邻相位集中的目的变异相距不超过约1,000、5,000、10,000、50,000、100,000、500,0000、1,000,000、5,000,000、10,000,000、50,000,000、100,000,000或250,000,000bp。可以针对包含来自所述两个相位集中的每一个的至少2、3、4或5个目的变异的读段过滤所述多个读段。

具体地，所述非错误传播技术可能需要染色体构象捕获。所述染色体构象捕获技术可以是Hi-C。基于所述多个读段确定所述相位比对可能需要确定大多数读段关于所述两个相位集之间的假定定相比对是一致还是不一致，所述假定定相比对可以基于对所述参考遗传密码的至少部分定相。基于多个读段确定相位比对可能需要确定或估计从所述多个读段中观察到的所述两个相位集之间一致性或不一致性的程度是偶然结果的概率。所述概率可以是二项式概率，任选地假设观察到的片段是一致或不一致的机会相等。

所述方法可能还需要使用校正的等位基因平衡信号来确定染色体区段的倍性状态。例如，确定所述倍性状态可以是判定拷贝数变异(CNV)。

根据本发明的另一方面，本文公开了一种确定染色体区段的倍性状态的方法。所述方法涉及获得所述染色体区段内第一组一个或多个变异的读取深度信号；获得所述染色体区段内第二组一个或多个变异的等位基因平衡信号；以及使用所述读取深度信号与所述等位基因平衡信号的组合来确定所述染色体区段的倍性状态。

确定所述染色体区段的倍性状态可能需要确定所述染色体区段内是否存在CNV。获得所述读取深度信号可能需要获得相对于读段总数归一化的映射到所述第一组内的至少一个变异的测序读段的数量。所述读取深度信号和/或所述等位基因平衡信号可以是在约、至少约或不大于约50,000、100,000、200,000、300,000、400,000、500,000、750,000、1,000,000、50,000,000或100,000,000bp的区域内在多个分箱变异上取平均值得到的。所述读取深度信号和/或等位基因平衡信号可以是在一个或多个单体型块上取平均值得到的。可以通过稀释池测序确定所述一个或多个单体型块。所述读取深度信号和所述等位基因平衡信号可以是在同一分箱区域上取平均值得到的。

使用读取深度信号与等位基因平衡信号的组合可能需要仅当所述读取深度信号超过读取深度阈值并且所述等位基因平衡信号超过等位基因平衡阈值时，或者当所述读取深度信号没有超过所述读取深度阈值并且所述等位基因平衡信号没有超过所述等位基因平衡阈值时，作出肯定或否定的确定。使用读取深度信号与等位基因平衡信号的组合可能需要将所述读取深度信号和所述等位基因平衡信号组合成单个组合信号。将所述读取深度信号与所述等位基因平衡信号组合成单个组合信号可以涉及将所述信号相乘或将所述信号相加。所述组合信号可以是在约、至少约或不大于约50,000、100,000、200,000、300,000、400,000、500,000、750,000、1,000,000、50,000,000或100,000,000bp的区域内在多个分箱变异上取平均值得到的。所述组合信号可以是在一个或多个单体型块上取平均值得到的，所述一个或多个单体型可以通过稀释池测序来确定。所述组合信号可以是在多个箱元上取平均值得到的，所述读取深度信号和/或所述等位基因平衡信号是在这些箱元上取平均值得到的。

所述第一组一个或多个变异可以仅由1个变异组成。所述第一组一个或多个变异可以具有至少2、3、4、5、10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900或1,000个变异。所述第二组一个或多个变异仅由1个变异组成。所述第二组一个或多个变异可以具有至少2、3、4、5、10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900或1,000个变异。所述第一组一个或多个变异可以与所述第二组一个或多个变异相同。

获得所述读取深度信号和/或获得所述等位基因平衡信号可能需要进行测序。所述读取深度信号和等位基因平衡信号可以源自相同的测序数据。可以针对最小读取深度(例如，5、10、15、20或25个读段的最小读取深度)过滤所述读取深度信号和/或所述等位基因平衡信号。

所述方法可能需要计算基于所述读取深度信号和/或所述等位基因平衡信号准确确定倍性状态的单独概率，或者计算基于所述读取深度信号和所述等位基因平衡信号准确确定倍性状态的联合概率。例如，所述概率可以测量以下一种的概率：真阳性、假阳性、真阴性和假阴性。以下至少一个可以被确定为真：假阳性的联合概率小于假阳性的两个单独概率；假阴性的联合概率小于假阴性的两个单独概率；真阳性的联合概率大于真阳性的两个单独概率；或者真阴性的联合概率大于真阴性的两个单独概率。

所述读取深度信号可以抵消第一基线信号和/或所述等位基因平衡信号可以抵消第二基线信号。每个基线信号可以基于具有已知倍性状态的第二染色体区段的平均信号。所述第二染色体区段可以与正在确定其倍性状态的染色体区段在同一染色体内。所述读取深度信号和/或所述等位基因平衡信号可以相对于所述信号内的噪声测量进行归一化。所述噪声测量可以是在正在确定其倍性状态的染色体区段上、在具有已知倍性状态的第二染色体区段上、在具有与第二染色体区段的倍性状态不同的已知目的倍性状态的第三染色体区段上、或在整个染色体上信号的标准偏差或方差。所述读取深度信号的方差和所述等位基因平衡信号的方差可以在彼此的100、90、80、70、60、50、40、30、20、10、9、8、7、6、5、4、3、2、1.9、1.8、1.7、1.6、1.5、1.4、1.3、1.2或1.1倍内。使用所述读取深度信号与所述等位基因平衡信号的组合可以导致假阳性率和/或假阴性率相对于单独使用一个或两个所述信号获得的假阳性率和/或假阴性率降低至少约2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100、150、200、250或500倍。

使用所述读取深度信号与所述等位基因平衡信号的组合可以涉及选择读取深度阈值和等位基因平衡阈值。所述信号阈值可以各自计算为在多个已知展现出目的倍性状态(例如，非整倍性)的变异上取平均值的相应信号的平均值的一半。使用所述读取深度信号与所述等位基因平衡信号的组合可以涉及选择组合信号阈值。所述组合信号阈值可以计算为在多个已知展现出目的倍性状态(例如，非整倍性)的变异上取平均值的组合信号平均值的一半。

所述方法可以导致检测到一条或多条染色体的非整倍性。所述方法可以导致检测到所分析的所有染色体的整倍性。所述方法可以导致检测到染色体区段的添加和/或缺失。所述方法导致鉴定出CNV。

获得所述等位基因平衡信号可能需要通过执行本文其他地方描述的上述方法中的任一种来校正原始等位基因平衡信号。

根据本发明的另一方面，上述方法中的任一种都可能需要获得指示倍性状态的信号(例如，所述等位基因平衡信号或读取深度信号)，所述信号源自包含对于所述染色体区段具有不同拷贝数的细胞群体的样品。所述细胞群体中的一些细胞可能具有非整倍性，而其他细胞可能没有。所述信号可以源自包含一个或多个肿瘤细胞的样品。所述样品还可以包含非肿瘤细胞。

根据本发明的另一方面，上述方法中的任一种都可能需要获得源自无细胞DNA的指示倍性状态的信号(例如，所述等位基因平衡信号或读取深度信号)。无细胞DNA可以是无细胞胎儿DNA(cffDNA)或循环肿瘤DNA(ctDNA)。

根据本发明的另一方面，上述方法中的任一种都可能需要获得来自胚胎或胎儿的指示倍性状态的信号(例如，等位基因平衡信号或读取深度信号)。所述胚胎可以是存在于体外的胚胎，例如像，在将胚胎植入子宫之前。

根据本发明的另一方面，本文公开了一种检测肿瘤DNA中染色体不稳定性的方法。所述方法涉及根据上述方法中的任一种来确定遗传物质样品中的一个或多个染色体区段的倍性状态。所述遗传物质样品至少部分源自来源于已知或疑似是肿瘤细胞的一个或多个细胞的DNA。鉴定所述一个或多个染色体区段的非整倍性状态用于指示至少一些肿瘤细胞的染色体不稳定性。

所述样品可以来自被诊断或疑似患有癌症的受试者。所述样品可以含有循环肿瘤DNA。对从中获得遗传物质的受试者的正常组织(例如，生殖系组织)或肿瘤组织的测序可以用于建立参考遗传密码。所述方法可能还需要基于是否指示染色体不稳定性来处理所述一个或多个细胞或治疗从中获得针对癌症的所述遗传物质的受试者。所述治疗/处理可以涉及如果指示染色体不稳定，则向所述一个或多个细胞或所述受试者施用聚ADP核糖聚合酶(PARP)抑制剂和/或铂基化疗药物。

根据本发明的另一方面，本文公开了一种检测受试者中从头拷贝数变异(CNV)的方法。所述方法涉及根据上述方法中的任一种确定染色体区段的倍性状态。所述受试者的父母的所述染色体区段是整倍体。通过进行所述方法，可以在受试者的所述染色体区段中鉴定出从头非整倍体(例如，CNV)。

倍性状态的确定可能需要将倍性状态与从对所述受试者的一个或多个遗传亲属进行的测序得出的参考遗传密码进行比较。所述一个或多个遗传亲属可以是所述受试者的母亲和/或父亲。根据上述方法中的任一种，所述测序可以用非错误传播技术进行以提供多个读段。所述测序可以是对细胞DNA进行的。所述方法可能还需要确定所述受试者的母亲或父亲是否是非整倍性的来源。

所述受试者可以是胚胎。所述方法可能需要获得指示倍性状态的信号(例如，所述等位基因平衡信号或读取深度信号)，所述信号源自胚胎活检物、囊胚腔液或细胞培养基(所述培养基中的无细胞DNA)。所述方法可能还需要基于非整倍性的不存在或存在来选择胚胎。所述胚胎可以是从多个胚胎中选择的。所选的胚胎可以用于体外受精(IVF)，可以丢弃或可以冷冻。

所述受试者可以是胎儿。所述方法可能需要获得源自无细胞胎儿DNA(cffDNA)的指示倍性状态的信号(例如，所述等位基因平衡信号或读取深度信号)。所述方法可能需要基于所鉴定的非整倍性(例如，CNV)的不存在或存在来治疗所述胎儿和/或所述母亲。所述治疗可能需要对所述胎儿进行另外的测试，例如像核型分析。所述治疗可能需要终止妊娠。所述治疗可能需要对所述胎儿施用针对与检测到的非整倍性(例如，CNV)的存在相关的疾病的产前治疗。

根据本发明的另一方面，本文公开了一种筛查受试者的疾病的方法。所述方法涉及确定是否存在与所述疾病相关的一个或多个遗传变异。所述一个或多个遗传变异包括通过对一个或多个其他受试者进行用于确定倍性状态的上述方法中的任一种鉴定的非整倍性(例如，CNV)和/或与所述非整倍性存在于相同的单体型块中的SNP。已知所述SNP可以与所述疾病相关。

所述CNV和SNP可以处于连锁不平衡。确定是否存在与所述疾病相关的所述一个或多个遗传变异可以涉及对所述受试者进行测序。可以靶向包含所述一个或多个遗传变异的基因组的一部分以进行测序(例如，经由微阵列)。所述方法可能需要至少部分地基于所述一个或多个遗传变异来计算所述疾病的多基因风险得分(PRS)。所述方法可能还需要至少部分地基于所述一个或多个遗传变异的存在或不存在或PRS来诊断受试者的疾病，所述PRS至少部分地基于所述一个或多个遗传变异。所述方法可能需要基于所述一个或多个遗传变异的存在或不存在来治疗受试者。

根据本发明的另一方面，本文公开了一种在受试者中对生殖系镶嵌变异定相的方法。所述方法涉及获得具有至少两个相位集的参考遗传密码。每个相位集具有一个或多个目的变异。所述参考遗传密码可以至少部分定相。所述方法还涉及获得使用非错误传播技术测序的多个读段。每个读段包含所述一个或多个目的变异中的至少一个。基于所述多个读段将所述两个相位集的相位比对确定为同相或异相，以及基于所确定的所述两个相位集的相位比对来鉴定包含展现出非整倍性(例如，CNV)的染色体区段的单体型。

所述受试者可能被诊断或疑似患有与所述非整倍性相关的遗传疾病或病症。所述受试者可能已被诊断患有或可能疑似患有努南综合征或RASopathy。所述方法可能还需要针对所鉴定的单体型筛选来自所述受试者的配子。所述方法可能还需要选择不具有所鉴定的单体型的配子进行体外受精。所述方法可能需要在植入前基因测试期间筛选胚胎中的单体型。所述方法可能需要基于所述非整倍性的不存在或存在来选择胚胎。所述胚胎可以是从多个胚胎中选择的。所述方法可能需要在体外受精(IVF)中使用所选的胚胎，丢弃所选的胚胎或冷冻所选的胚胎。所述非整倍性可以通过进行用于确定倍性状态的上述方法中的任一种方法来鉴定。

附图说明

图1描绘了大约在核苷酸位置30.2Mb与44.3Mb之间具有扩增的人21号染色体的模拟等位基因平衡数据。

图2描绘了在单体型块上取平均值时的模拟等位基因平衡数据。箭头描绘了输入的定相基因型数据中转换错误的大致位置，这导致如在染色体中实际模拟的转换错误的下游出现单体性而不是三体性。

图3描绘了在单体型块的300Kb窗口上取平均值时的模拟等位基因平衡数据，其在图的下部在检测到非整倍性的染色体区域上被描绘。

图4描绘了从中模拟等位基因平衡数据的遗传样品的Hi-C数据的总结。

图5描绘了校正转换错误后的真实等位基因平衡信号。

图6A-图6B描绘了对于包括染色体混合物的场景的所模拟的真实等位基因平衡信号，所述染色体混合物包含正常二体区域和异常三体区域。图6A显示了对于单独测量的信号，并且图6B显示在单体型块上取平均值时的信号。

图7示意性地说明了作为分布在两个不同信号X₁和X₂上的呈正态分布的二体测量结果群体和三体测量结果群体(阴影)，其中m₁和m₂是指三体群体(染色体的三体区域)的平均测量结果。

图8A-图8B描绘了具有模拟扩增的染色体区域的读取深度数据。图8A描绘了每个索引位置的原始深度信号，并且图8B描绘了显示各种分箱读取深度的测量结果的比例的直方图。

图9A-图9C描绘了具有模拟扩增的染色体区域的等位基因平衡数据。图9A描绘了每个索引位置的原始等位基因平衡信号，并且图9B描绘了显示A等位基因的各种分箱比例的测量结果的频率的直方图。图9C进一步描绘了直方图，其中测量结果是在50个相邻SNP上取平均值得到的。

图10描绘了在位置30Mb与37Mb之间的模拟扩增(三体性)上的读取深度信号，抵消二体性读取深度信号，并针对三体性读取深度信号的噪声(标准偏差)进行归一化。

图11描绘了在位置30Mb与37Mb之间的模拟扩增(三体性)上的等位基因平衡信号，抵消二体性等位基因平衡信号，并针对三体性等位基因平衡信号的噪声(标准偏差)进行归一化。

图12描绘了通过加法来组合抵消和归一化的读取深度信号和等位基因平衡信号。

具体实施方式

本文公开了通过应用本质上非错误传播的核苷酸测序方法对目的遗传密码的一个或多个区域(例如，目的基因组)、特别是可能含有由先前的错误传播定相技术引入的转换错误的区域定相进行改进的倍性状态确定的方法。经由非错误传播方法在两个或更多个目的变异之间确定的相位比对可以与目的遗传密码的现有相位信息相结合。在一些情况下，所确定的相位比对可以用于校正被错误地定相(例如，来自引入转换错误的定相技术)的一个或多个目的变异的定相。在一些情况下，所确定的相位比对可以用于确认一个或多个变异的假定定相是否为真实定相。在一些情况下，所确定的相位比对可以用于提供丢失的相位信息。至少部分地由非错误传播方法确定的目的遗传密码的一部分的定相信息可以用于(重新)分析等位基因平衡信号。通过使用非错误传播定相方法获得的真实等位基因平衡信号可以用于进行改进的倍性状态确定，如CNV判定。在特定实现中，改进的定相比对可以用于确定指示等位基因平衡相对于参考单体型偏移的等位基因平衡信号是否对应于目的遗传密码内的缺失或扩增。

本文还公开了通过使用等位基因平衡信号与读取深度信号的组合进行改进的倍性状态确定的方法。此类信号提供正交信息，其可以提高信噪比并降低假阳性和/或假阴性判定的概率。当等位基因平衡信号通过非错误传播定相方法进行校正以提供真实等位基因平衡信号时，组合使用可能特别强大。

定相和转换错误

当变异位置相对于其相邻变异被错误地定相时，会发生转换错误。如本文所用，“变异”可以指两个或更多个同源染色体序列之间的任何差异，包括单核苷酸多态性(SNP)。除非上下文另有说明，否则如本文所用，变异并不意味着在较大的群体中具有足够低的频率。定相准确度可以通过计算发生的转换错误数除以转换错误的机会数来测量，称为“转换错误率”。转换错误可被分类为长转换错误、点转换错误或未确定的转换错误。长转换表现为大规模伪重组事件，其中长转换周围没有其他局部转换(例如，在三个连续的杂合位点内没有其他转换)。点转换是小规模转换错误，其表现为两个相邻的转换错误(例如，三个连续杂合位点内的两个转换，一对转换计为点转换)。其余转换被认为是不确定的(例如，在小的定相块中只有两个位点定相，因此转换错误不能被分类为长或点)。长转换对依赖于基因座定相的基因组分析特别不利，因为转换错误在基因组的较大部分上传播(例如，接点转换(joint switch)下游远处基因座的定相不受接点转换错误的影响，因为接点转换中的第二个转换错误将接点转换下游的核苷酸恢复到其原始/适当定相)。特别地，与真实单体型相比，长转换错误可以表现为推断的单体型中的诱导和错误重组事件。使用相位集的一个重要限制是存在长转换错误。特别地，这些错误直接影响检测小(例如，小于约1Mb)缺失或扩增的灵敏度。与孤立的定相错误事件形成对照，转换错误可直接影响所有下游基因座相对于上游基因座和/或所有上游基因座相对于下游基因座的关系。具有低多态性或SNV密度的基因组区域在定相时特别容易发生转换错误。

与分子定相方法相比，基于群体的定相方法的转换错误率通常更高，所述方法依赖于从群体的统计分析中计算推断相位。然而，分子定相方法也可能容易受到转换错误的影响。例如，许多分子定相方法可能依赖于从短读段计算构建合成的长读段，这依赖于关于短读段与基因组比对的统计信息推断。例如，基于稀释池测序的单体型分型依赖于每个给定分区的低摩尔浓度分子，以降低分区中一个DNA分子与另一个具有重叠序列的可能性。这种假设允许导出至少一些单体型，但在进行长距离定相(例如，整个染色体的定相)时可能会引入转换错误。为了找到最可能的相位比对，可以对远距离变异的相位对准进行一些假设，这可能允许引入转换错误。

直接依赖于完整染色体中两个或更多个基因座的接近定位以对这些基因座处的一个或多个变异相对于彼此进行定相的定相方法通常不容易受转换错误影响，因为相位比对是由直接将一个变异与另一个联系起来的实验信息确定的，而不基于与对更远的变异的定相相关的推断。因此，即使使用这种方法产生了定相错误，该错误也不一定会传播到其他更远的基因座(例如，下游基因座)。因此，这种“非错误传播”方法为易受转换错误影响的基于群体的定相方法和分子定相方法提供了正交定相方法。

通常非错误传播的方法和错误传播的方法在本领域是熟知的。非错误传播方法的例子包括但不限于染色体构象捕获(例如，Hi-C)，特别是对于邻近(例如，相邻)相位集；单细胞模板链测序；和染色体测序(例如，通过核型分析或激光捕获显微切割获得)。应当理解，其中根据用于进行测序的实验设置的性质，可以假定读段来自同一染色体同源物的测序技术(即，可以在实验上集中于或限于单个染色体同源物的测序方法)是非错误传播方法。除非定相集中于足够局部区域内(例如，在约50kb内)的相位集，使得两个相位集可以在单个读段中被捕获，否则通常容易受错误传播(错误-传播)影响的方法包括但不限于基于对亲本精子和/或极体进行测序；稀释池测序；群体参考组；和长读测序(例如，纳米孔测序)的方法。

根据本发明的一些方面，可以对DNA的靶向区域使用非错误传播方法，以提供靶向区域的准确定相。从非错误传播方法得到的定相信息可以与从错误传播方法得到的定相信息相结合。例如，从非错误传播方法得到的定相信息可用于识别和校正假定定相比对中的转换错误(例如，从错误传播方法得到的定相)和/或确认假定定相比对为真实比对。从非错误传播方法得到的定相信息可用于提供假定定相比对中丢失的相位信息(例如，从错误传播方法得到的定相)。

倍性状态

染色体或染色体区段的倍性状态可以被广泛地表征为整倍体(具有正常拷贝数)或非整倍体(具有异常拷贝数)。存在于一个或多个基因座的遗传物质的量可用于确定遗传样品的倍性状态。例如，非整倍性可能包括不平衡易位、单亲二体或其他总体染色体异常，包括拷贝数变异(CNV)。

拷贝数变异

CNV是指单个染色体之间在基因组部分中通常重复的重复序列数量上的变化。整个人类基因组的约三分之二可能由重复序列组成，并且4.8％-9.5％的人类基因组可以被归类为CNV。已知CNV至少在某种程度上可以预测疾病表型。CNV可能影响短重复序列(例如，二核苷酸或三核苷酸重复序列)或长重复序列(例如，全基因重复序列)的数量，并且通常由重复或缺失事件引入。根据受影响序列的长度，CNV通常被分配到两个主要类别中的一个。第一类别包括拷贝数多态性(CNP)，这在一般群体中常见，总发生频率大于1％。CNP通常很小(大多数长度小于10kb)，并且它们通常富含编码药物解毒和免疫中重要蛋白质的基因。这些CNP的子集在拷贝数方面变化很大。因此，对于一组特定的基因，不同的人类染色体可以具有广泛的拷贝数(例如，2、3、4、5等)。与免疫应答基因相关的CNP最近与复杂遗传疾病的易感性有关，包括银屑病、克罗恩病和肾小球肾炎。

第二类CNV包括相对罕见的变异，它们比CNP长得多，大小为长度数十万个碱基对到超过100万个碱基对。在一些情况下，这些CNV可能是在产生特定个体的精子或卵子产生过程中产生的，或者它们可能在一个家庭中只遗传了几代。这些大型和罕见的结构变异在智力迟钝、发育迟缓、精神分裂症和自闭症的受试者中不成比例地观察到。它们在这些受试者中的出现引发了猜测，即大型和罕见的CNV在神经认知疾病中可能比其他形式的遗传突变(包括单核苷酸替代)更重要。

癌细胞中的基因拷贝数可以改变。例如，Chr1p的重复在乳腺癌中很常见，EGFR拷贝数在非小细胞肺癌中可能高于正常值。癌症是导致死亡的主要原因之一；因此，癌症的早期诊断和治疗很重要，因为它可以改进患者的结果(例如通过增加缓解的概率和缓解的持续时间)。早期诊断还可以使患者接受较少或更少的剧烈治疗替代方案。目前许多破坏癌细胞的治疗也会影响正常细胞，导致各种可能的副作用，例如恶心、呕吐、血细胞计数低、感染风险增加、脱发和粘膜溃疡。因此，癌症的早期检测是合乎需要的，因为它可以减少消除癌症所需的治疗量和/或次数(例如化疗药物或放射)。

拷贝数变异也与严重的精神和身体障碍以及特发性学习障碍有关。使用无细胞DNA(cfDNA)的非侵入性产前检测(NIPT)可用于检测异常，例如胎儿三体13、18和21、三倍性和性染色体非整倍性。亚染色体微缺失也可能导致严重的精神和身体障碍，由于其尺寸较小，检测起来更具挑战性。其中8种微缺失综合征的总发病率超过1/1000，几乎与胎儿常染色体三体一样常见。此外，较高拷贝数的CCL3L1与较低的HIV感染易感性有关，而低拷贝数的FCGR3B(CD16细胞表面免疫球蛋白受体)可增加对系统性红斑狼疮和类似炎症性自身免疫性疾病的易感性。

倍性状态的确定

本发明的各个方面涉及确定或判定受试者、细胞或细胞群体或其他遗传物质来源关于染色体或染色体区段的倍性状态(例如，判定CNV)。如本文所用，染色体区段可以指染色体序列的任何长度或部分，其可被表征为具有拷贝数，包括整个染色体。受试者可以指任何具有基因组的生物体，优选二倍体基因组。优选地，受试者可以是哺乳动物。根据各个方面，受试者是人。倍性状态的确定可以包括确定非整倍性的起源(即确定哪个染色体同源物包括非整倍性)。例如，起源可以被鉴定为起源于母系遗传或父系遗传的染色体。

染色体或染色体区段的倍性状态可以根据参考遗传密码来确定。参考遗传密码可以对应于受试者的整个基因组、受试者的一条或多条整个染色体或受试者的一个或多个染色体区段(在相同或不同的染色体上)。参考遗传密码可以直接或间接地从根据文中公开的方法分析其遗传物质的受试者获得。例如，参考遗传密码可以源自对来自受试者的正常遗传物质(例如，正常细胞或非癌细胞)的测序。正常遗传物质可以是已知为整倍体或具有先前鉴定的已知性质的非整倍性的遗传物质。参考遗传密码可以从受试者的体细胞和/或生殖系细胞测序中获得。在一些情况下，参考遗传密码可以通过根据本领域已知的方法从正在分析其遗传物质的受试者的一个或多个父母或其他遗传亲属的测序中重建遗传密码来获得，特别是如果受试者是胚胎或胎儿。参见例如，Kumar等人2021年4月8日公布的WO2021/067417，其全部内容通过引用并入本文。构建参考遗传密码可能涉及对一个或多个遗传亲属的体细胞组织和/或生殖系组织进行采样。构建参考遗传密码可能涉及对受试者(例如，胚胎或胎儿)进行采样，即使仅获得稀疏的遗传信息。构建参考遗传密码可能涉及对从受试者获得的细胞进行测序。构建参考遗传密码可能涉及对无细胞DNA(cfDNA)进行测序，例如通过在受试者血液内，在细胞培养基内(在胚胎的情况下)或在受试者母亲血液(在胎儿的情况下)内采样DNA片段。在一些实现中，受试者的基因组，或至少受试者正常细胞的基因组，作为参考遗传密码，可以与其进行比较以确定倍性状态(例如，异常细胞，如肿瘤细胞)。在一些实现中，受试者的预期基因组(即由从受试者父母遗传的特定染色体组成的基因组，没有倍性状态的任何从头变化，例如从头扩增或缺失事件)作为参考遗传密码，可以与其进行比较以确定受试者中倍性状态的从头变化。

参考遗传密码可能不定相。优选地，参考遗传密码完全定相或至少部分定相。参考遗传密码可以通过本领域已知的任何方法进行定相，例如错误传播定相方法。例如，遗传密码可以通过涉及参考群体组的计算技术来定相。遗传密码可以通过分子技术进行定相，例如稀释池测序。参见例如，Choi等人,PLoS Genet.2018年4月5日；14(4):e1007308(doi:10.1371/journal.pgen.1007308)。遗传密码可以通过对受试者和/或受试者的一个或多个遗传亲属(例如，母亲和父亲)的生殖系细胞进行测序来定相。参见例如，Kumar等人2021年4月8日公布的WO 2021/067417，其全部内容通过引用并入本文。

单体型是一种染色体同源物或另一种特有的基因组变异的连续定相块。根据各个方面，单体型块可以是先验构建的，使得在实施本文描述的本发明方法之前，在单体型块内具有正确定相的确定性或至少足够高的置信度。例如，单体型块可以由稀释池测序或长读测序构建，其中存在转换错误不存在单体型块内的确定性或高置信度。获得目的遗传密码的先验定相信息可能包括获得一个或多个单体型块。在各种实现中，本文描述的一个或多个信号可以在单体型块上或在单体型块的较小区域或分区上取平均值得到的。

非错误传播定相方法

在各种实现中，将非错误传播定相方法与错误传播定相方法相结合可能是有利的。非错误传播定相技术可以为更传统的错误传播技术提供正交信息源。与非错误传播方法相比，错误传播定相方法(例如，本文其他地方描述的基于群体的定相和分子定相方法)可以提供更快、更便宜和/或更方便的方法来获得大规模序列和/或定相信息。非错误传播方法可以为遗传密码的靶向区域提供更准确的定相信息，从而允许更好地确定倍性状态(例如，提高在该靶向区域内判定CNV的能力)。

可以从非错误传播技术中获得的相位比对可以以靶向方式使用。根据所采用的方法，靶向的相位校正可能集中于遗传密码的特定区域，从而节省资源并允许更有效地实施一种或多种非错误传播方法。例如，与从至少部分定相的基因组中鉴定的潜在转换错误相关的特定相位集的定相可用于校正这些真实集的定相。相位比对可用于重新分析基因组、目的染色体或目的染色体区段的整个定相比对。定相可用于为特定变异或染色体区段提供丢失的相位信息。可以使用相位比对和先验定相数据(例如，从错误传播方法获得)组合来以计算方式重新计算相位比对。将来自本文所述方法的定相比对与现有相位信息结合的方法在本领域是熟知的。根据本发明的某些方面，非错误传播技术可以与传统错误传播技术结合使用，以提供基于获得的更准确的定相信息重建整个基因组的改进方法。非错误传播技术还可以允许解释基因组内变异的功能。

如本文所述，被理解为非错误传播的各种定相方法在本领域是熟知的。文中描述了可以以非错误传播方式使用的此类技术的具体但非限制性例子。

染色体构象捕获(3C)

染色体构象捕获(3C)技术是用于分析细胞中染色质的空间组织的分子生物学方法。3C方法通常量化三维空间中邻近的基因组基因座之间的相互作用数量，所述基因座包括线性基因组序列中可能被许多核苷酸隔开的基因座(例如，可能相距太远而无法通过短读和/或长读测序一起捕获的基因座)。例如，这种相互作用可能来自生物学功能，例如启动子-增强子相互作用，或来自随机聚合物环，其中染色质的无方向物理运动导致基因座碰撞。相互作用频率可以直接进行分析，或它们可以转换为距离，这可以促进重建三维结构。不同的基于3C的方法在可能被探询的全基因组相互作用方面可能具有不同的范围。对通过3C产生的物质的深度测序可以用于产生全基因组相互作用图。

在3C方法中，细胞核中交联染色质中DNA的消化和随后的重新连接允许检测DNA序列之间的空间接近度。某些3C技术可能基于高通量测序技术。在标准的基于3C的方案中，染色质通常与甲醛交联。然后，通常使用限制性内切酶将交联的染色质片段化，使得基因组通常约每256bp或每4096bp被切割一次。然后，原位连接确保接触和交联的染色质片段之间的优先连接。染色质被消化，使得交联被逆转，从而导致携带根据空间接近度连接在一起的改组基因组片段的线性和/或环状DNA串联体。

3C技术可能包括经典3C、4C、5C、Hi-C和ChIA-PET方法。经典3C通常被称为“一对一”方法，其使用PCR来扩增和定量特定靶向的连接接头。4C通常被称为“一对全”方法，其类似于经典的3C技术，不同的是进行第二轮消化和连接以产生小的DNA环。然后，设计成特定锚定序列的引物可用于反向PCR，以扩增与锚定序列形成连接产物的所有接触序列，但现代方法可能避免了扩增的需要。然后可以通过任何合适的手段对接触序列进行排序。5C通常被称为“多对多”方法，其将与目的片段互补的引物与3C连接产物杂交然后连接，以在一定程度上产生目的连接的碳拷贝。然后使用与原始引物尾部互补的通用PCR原代来扩增目的连接产物，这些连接产物可以通过任何合适的手段进行测序。Hi-C通常被称为“全对全”方法，其使用限制性内切酶，从而留下充满生物素标记核苷酸的突出端。在平端连接后，剪切连接产物以减小片段大小，并使用链霉亲和素来拉下含生物素的片段以创建富集文库，然后通常通过NGS技术对其进行测序。Hi-C呈现整个基因组中片段之间的成对相互作用频率矩阵。可以通过使用更高的限制性位点密度和/或通过增加测序深度来提高分辨率，其中x²多对的测序通常导致分辨率的x倍提高。特别是对于Hi-C，对应于单独目的变异的测量结果可能是稀疏的，但是由于在染色体各处的测量结果在很大程度上是一致的，因此当总体使用时，它们可以改进在染色体上的定相。ChIA-PET是Hi-C与染色质免疫沉淀(ChIP)的组合。使用特定抗体来在生物素化和连接片段末端之前拉下与目的染色质蛋白结合的连接接头。本领域已知的其他染色体构象捕获技术包括拴系构象捕获(TCC)、DNA酶Hi-C或Micro-C、靶向染色质捕获(T2C)、捕获Hi-C(Chi-C)、HiCap和捕获-C。可以进行用于进行染色体构象捕获的各种方法，例如以下所述：Denker等人,Genes Dev.2016年6月15日；30(12):1357-82(doi:10.1101/gad.281964.116)；de Wit等人,Genes Dev.2012年1月1日；26(1):11-24(doi:10.1101/gad.179804.111)；McCord等人,Mol Cell.2020年2月20日；77(4):688–708(doi:10.1016/j.molcel.2019.12.021)；或Belton等人,Methods.2012年11月；58(3):268-76(doi:10.1016/j.ymeth.2012.05.001)，其中每一个均通过引用以其整体并入本文。

染色体构象捕获技术可用于以非错误传播的方式对基因组进行定相。由于基于其固有的空间接近度，同一染色体同源物上的基因座连接在一起的概率比两条同源染色体上的基因座连接在一起的概率大得多，因此可以假设3C技术产生的连接片段的总体分布将包括来自同一染色体同源物的变异相对于来自两个或更多个不同同源物的变异的优势。此外，变异或相位集彼此越接近，效果就越明显。因此，染色体构象捕获技术(如Hi-C)可用于比对两个相位，特别是两个相邻的相位集，而不必担心引入转换错误。

可以分析从染色体构象捕获方法获得的片段(连接产物)的分布，以确定分布是否支持两个相位集同相或异相。可以对片段进行过滤，以选择包含来自每个相位集的至少一个变异的那些片段。片段可以被分组为对应于支持相同单体型判定的不同变异集的亚组，但每个片段可能不包括相同的变异。在一些实现中，片段可能仅过滤那些包含来自一个或两个相位集的每个变异的片段。每个相位集可以被分配推定相位或单体型，从而存在推定相位比对。如果没有进行先验相位确定，则可以随机分配相位比对。所选的片段和/或亚组可以被表征为关于推定相位比对是一致的或不一致的。例如，如果在片段内检测到的所有变异都来自相同的推定单体型，则该片段可能被认为与推定相位比对一致，否则该片段可能被认为不一致。鉴于片段包括来自同一单体型或染色体同源物的变异的概率高得多，特别是对于接近的变异，片段/亚组的分布可能预计严重偏向于一致或不一致片段的优势。一致片段/亚组的优势表明推定相位比对是正确的，而不一致片段的优势表明推定相位比对是不正确的。偏斜量可以通过计算偶然观察到偏斜的概率来量化。例如，可以计算二项式概率用于偶然观察到测量分布的概率，其中每个测量具有一致的或不一致的固定概率。固定概率可以设置为50％的下限，表明相位集的连接是完全随机的。可替代地，来自同一单体型的相位集在同一片段中的固定概率可以设置得更高(例如60％、70％、75％、80％、90％、95％、99％、99.9％等)，以解释从空间接近度预期的更高概率。较高的固定概率对于较少数量的测量可能更有用，而较低的固定概率对于较多数量的测量可能就足够了。如果存在观察到的分布不仅仅是偶然结果的高置信度(例如，关于95％置信区间，测量结果是统计学上显著的)，则相位集可以基于染色体构象数据准确比对。

单细胞模板链测序

单细胞模板链测序(Strand-seq)是一种单细胞测序技术，其通过将序列分析限制为DNA复制期间使用的DNA模板链来解析细胞内的单独同源物。所述方法通过以下方式而依赖于DNA的方向性(以其5′–3′方向区分)：在单轮细胞分裂期间在胸苷类似物中培养细胞以标记新生的DNA链，然后可以选择性地将其从分析中去除。每个单细胞文库被多路复用以进行池化和测序，并将所得的序列数据比对，映射到参考基因组的负链或正链，为细胞中的每条染色体分配模板链状态。参见例如，Porubsky等人,Genome Res.2016年11月；26(11):1565-1574(doi:10.1101/gr.209841.116)；Sanders等人,Nat Protoc.2017年6月；12(6):1151-1176(doi:10.1038/nprot.2017.029)，其中每一个均通过引用以其整体并入本文。因为测序可以局限于单链，所以所述技术可以用作本文描述的非错误传播方法。

染色体分离

任何在测序前从另一种染色体同源物中物理分离一种染色体同源物的技术都可以被认为是一种非错误传播定相方法，因为序列读段可能都被假定源自同一同源物。例如通过核型或激光捕获显微切割获得的染色体测序可用于本文描述的非错误传播技术。参见例如，Kang等人,Cytogenet Genome Res.2017；152(4):204-212(doi:10.1159/000481790)，将其通过引用以其整体并入本文。

测序方法

除非上下文另有规定，否则DNA测序的各种方法是本领域熟知的，并且可用于实现本文描述的方法。DNA测序可包括例如Sanger测序(链终止测序)。DNA测序可以包括使用下一代测序(NGS)或第二代测序技术，其典型特征是高度可扩展，允许一次对整个基因组进行测序。NGS技术通常允许一次对多个片段进行测序，从而在自动化过程中进行“大规模并行”测序。DNA测序可以包括第三代测序技术(例如，纳米孔测序或SMRT测序)，其通常允许获得比通过第二代测序技术获得的更长的读段。在可行的情况下，测序可以包括配对末端测序，其中DNA片段的两端都进行测序，这可以提高将读段与更长测序比对的能力。DNA测序可以包括合成/连接测序(例如，测序)、单分子实时(SMRT)测序(例如，/>测序)、纳米孔测序(例如，OXFORD/>测序)、离子半导体测序(Ion Torrent测序)、组合探针锚定合成测序、焦磷酸测序等。

鸟枪测序是指对基因组或大型遗传样品中的随机DNA链进行测序的方法。DNA被随机分解成许多小区段，这些区段被测序(例如，使用链终止方法)以获得读段。通过进行几轮这种片段化和测序，可以获得靶DNA的多个重叠读段。然后，计算算法使用不同读段的重叠端以将随机区段的读段组合成连续序列。鸟枪测序可用于全基因组测序。任何合适形式的测序(包括本文描述的那些)都可用于鉴定受试者中的变异(例如，SNP)，其随后可用作测量指示包含该变异的染色体区段的倍性状态的遗传信号的基础，如本文其他地方所述。根据本发明的某些方面，分级测序可用于全基因组测序。

数据收集

通过本文所述方法进行分析的遗传物质可以从各种来源获得，包括体细胞(例如，白细胞、来自组织活检物的细胞)、生殖细胞(例如，精子、卵子、极体)和无细胞DNA。可以直接从正在分析基因组的受试者和/或受试者的遗传亲属(例如，母亲和/或父亲)收集遗传物质。根据各种实现，指示倍性状态的遗传信号(例如等位基因平衡信号或读取深度信号)可以从直接源自受试者的无细胞DNA(cfDNA)中获得。无细胞DNA是在细胞外(例如，在血液中自由循环的或在培养细胞的细胞培养基中)发现的DNA，如为体外受精(IVF)生长的胚胎。

本文描述的方法的各种实现可涉及获得无细胞DNA和/或对其进行测序。无细胞DNA可以包含无细胞胎儿DNA(cffDNA)。无细胞DNA可以包含循环肿瘤DNA(ctDNA)。无细胞DNA可以提供相对丰富的遗传物质来源，这些遗传物质可以从非侵入性或微创程序获得，例如对细胞培养基取样或从受试者抽取血液。无细胞DNA可以为无细胞DNA来源的受试者的全基因组测序提供充足的遗传信息。参见例如，Kitzman等人,Sci Transl Med.2012年6月6日；4(137):137ra76(doi:10.1126/scitranslmed.3004323)。例如，无细胞DNA的鸟枪测序可用于对受试者的一条或多条染色体进行测序。来自受试者的遗传物质可能具有遗传特征一致的细胞或遗传特征不同的细胞(例如，正常细胞和肿瘤细胞)。在一些情况下，受试者的基因组可以基于直接从受试者获得的遗传物质的测序和一个或多个遗传亲属的测序来重建。参见例如，Kumar等人2021年4月8日公布的WO 2021/067417，其全部内容通过引用并入本文。

无细胞胎儿DNA(cffDNA)是在母体血液中自由循环的胎儿DNA。因此，cffDNA可以从例如通过静脉穿刺采样的母体血液中获得。cffDNA分析是一种孕妇可定购的非侵入性产前诊断方法。cffDNA源自胎盘滋养层。当胎盘微粒脱落到母体血液循环中时，胎儿DNA就被片段化。由于长度约200bp的cffDNA片段明显小于母体DNA片段，因此可以将它们与母体DNA片段区分开来。母体血液中约11％-13.4％的无细胞DNA是cffDNA，尽管孕妇之间的量差异很大。cffDNA通常在妊娠五到七周后变得可检测到，并且随着妊娠的进展，量会增加。分娩后，母体血液中cffDNA的数量迅速减少，通常在分娩后约2小时不再能够检测到。与其他技术相比，cffDNA分析可以提供胎儿状况的更早期诊断。cffDNA可以例如通过大规模平行鸟枪测序(MPSS)、靶向大规模平行测序(t-MPS)和SNP测定进行分析。

ctDNA是血液中与细胞无关的肿瘤来源的片段DNA。由于ctDNA可能反映整个肿瘤基因组，因此其潜在的临床应用受到了关注。可以在不同的时间点进行抽血形式的“液体活检”，以监测整个治疗方案中的肿瘤进展。ctDNA直接源自肿瘤或循环肿瘤细胞(CTC)，这些细胞是从原发性肿瘤脱落并进入血液或淋巴系统的活的完整肿瘤细胞。ctDNA释放的确切机制尚不清楚。推测参与ctDNA释放的生物学过程包括垂死细胞的凋亡和坏死，或活肿瘤细胞的活性释放。对人类(健康和癌症患者)和异种移植小鼠的研究表明，片段化cfDNA的大小主要为166bp长，这对应于包裹在核小体和接头周围的DNA长度。这种长度的片段化可能表明细胞凋亡DNA片段化，表明细胞凋亡可能是ctDNA释放的主要方法。cfDNA的片段化在癌症患者的血浆中发生改变。在健康组织中，浸润吞噬细胞负责清除凋亡或坏死细胞碎片，其中包括cfDNA。健康患者中的cfDNA仅以低水平存在，但随着肿瘤大小增加，可以检测到癌症患者中更高水平的ctDNA。这可能是由于免疫细胞对肿瘤部位的浸润效率低下，从而降低了ctDNA从血液中的有效清除率。从同一患者的原发性肿瘤中提取的ctDNA和DNA的突变的比较已经揭示存在相同的与癌症相关的遗传变化，从而有可能分析ctDNA以分析肿瘤细胞的遗传组成。因此，ctDNA可用于早期癌症检测和治疗随访监测。

根据本发明的各个方面，本文其他地方描述的非错误传播定相技术是在细胞DNA(不是无细胞DNA)上进行的，使得完整的染色体被分离或有效地分离以提供准确定相(例如，校正任何转换错误)。在一些实现中，可以在一个或多个细胞上进行单细胞测序以获得本文所述的数据。使用非错误传播定相技术获得的遗传数据可能足以或可能不足以独立构建受试者的基因组或独立提供足够的参考基因组。从常规测序技术(例如，全基因组鸟枪测序，例如在无细胞DNA上)获得的遗传数据与错误传播定相方法组合可能有利于提供遗传信息的深度和/或范围。从非错误传播定相方法(可以在细胞DNA上进行)获得的遗传数据可能有利于提供各种相位集的更准确定相，特别是接近或相邻相位集。因此，将这些正交信息源一起使用可能是有利的。

根据本发明的一些方面，细胞DNA的测序可以在血细胞(例如，白细胞)或通过非侵入性或微创技术收集的其他细胞(例如，在唾液中发现的细胞)上进行。因此，无细胞DNA和细胞DNA的测序可以完全通过非侵入性或微创程序(如通过血液采集)进行。无细胞DNA和细胞DNA可以从相同或不同的样品(例如，体液样品如血液样品或唾液样品)中分离出来。例如，无细胞DNA可以包含ctDNA，并且细胞DNA可以包含白细胞DNA(除白血病情况外，其应提供正常的遗传物质)。

根据本发明的一些方面，细胞DNA测序可以涉及根据本领域充分理解的方法从胎儿或胚胎中分离一个或多个细胞。这些方法通常需要可能会对胚胎或胎儿造成风险的侵入性技术。根据本发明的优选方面，用于非错误传播定相方法的细胞DNA可以使用非侵入性或微创技术获得，例如抽血或精子采集。尽管在胚胎或胎儿的情况下，可能无法在受试者自身的细胞上进行非侵入性或微创技术用于测序细胞DNA，但可以在胎儿的遗传亲属(例如，母亲和/或父亲)上进行细胞DNA测序。由于非错误传播定相可能仅用于提供相位集的准确定相，而不必用于独立构建参考遗传密码和/或生成指示倍性状态的信号，因此可以从一个或多个遗传亲属的基因组的真实定相推导出受试者基因组的真实定相，这些遗传亲属遗传了至少一些与受试者相同的单体型。因此，本文描述的方法可以对通过完全非侵入性或微创方法获得的遗传物质进行，包括当受试者是胚胎或胎儿时。

指示倍性状态的遗传信号

如本文所用，“信号”可以指一个或多个测量结果，其可以提供关于所探询的遗传样品的遗传组成的信息。测量结果可以是原始测量结果或例如从一个或多个原始测量结果的数学分析得出的经过处理的测量结果。信号可以从测序数据中获得。信号可以是例如等位基因平衡信号或读取深度信号，如本文其他地方所述。信号可以对应于沿连续或离散数谱的值。信号可能指示一个特定基因座处的遗传信息。信号可以从在多个基因座上测量的信号中平均。

遗传基因座是染色体上的特定固定位置。基因座鉴定特定基因和遗传标记物的染色体位置。如本文所用，目的基因座可以指被分析的遗传物质内的基因座，其一个或多个测量结果可以映射到所述基因座，以得出指示遗传物质的遗传组成的信号。目的变异可以指在遗传物质内两个或更多个染色体同源物之间目的基因座的遗传组成存在差异的目的基因座。SNP可能是目的变异。如本文所用，“相位集”可以指一个或多个目的相邻变异的集合，其与另一个相位集的相位比对可以根据本文描述的方法确定。在一些情况下，相位集可以对应于单体型块或大于单体型块的染色体区域(例如，两个或更多个相邻的单体型块)。例如，相位集可以包含2、5、10、50、100、500、1,000、5,000或更多个变异。在一些情况下，相位集可以由单个变异组成。比对的两个相位集可以具有或可以不具有相同数量的目的变异。确定一个相位集与另一个相位集的相位比对可能包括确定这两个相位集是同相的(即，每个相位集内目的变异属于同一染色体同源物)或这两个相位集是异相的(即，第一相位集内目的变异与第二相位集内目的变异不属于同一染色体同源物)。

根据一些具体方面，相位集可以是相邻相位集。例如，第一相位集可能具有与相邻相位集中目的变异相距不超过约1,000、5,000、10,000、50,000、100,000、500,0000、1,000,000、5,000,000、10,000,000、50,000,000、100,000,000或250,000,000bp的目的变异。相邻相位集可以被定义以包含潜在转换错误任一侧的目的变异。潜在转换错误可能被鉴定为可能发生在两个单体型块之间。根据一些具体方面，一个或多个信号表明染色体区段之间从整倍体区段向非整倍体区段或反之亦然转移的位点可能被鉴定为潜在转换错误。根据一些具体方面，一个或多个信号表明拷贝数相对于相邻区段的变化的位点可能被鉴定为潜在转移错误。根据一些具体方面，一个或多个信号表明不同非整倍体状态的染色体区段之间转移(例如，从三体到单体或反之亦然)的位点可能被鉴定为潜在转换错误。

等位基因平衡(与等位基因平衡、等位基因分数或等位基因的分数同义)是指一组测序数据中涵盖支持变异的变异位置的读段的比例。例如，如果将100个读段映射到特定变异的基因座，其中25个支持所述变异并且75个不支持，则所述变异的等位基因平衡为0.25。可以针对最小读取深度过滤杂合基因座以包含在等位基因平衡数据中。一个变异相对于另一个变异的相对比例可能表明遗传样品中不同染色体同源物之间基因座拷贝数的差异。例如，将基于参考遗传密码预期的拷贝数与检测到的数量进行比较可以指示例如，在其中一个染色体同源物上是否发生了扩增或缺失事件(例如，在遗传样品来源的全部或至少部分细胞中)。基于等位基因对单体型或染色体同源物的分配，在多个变异上测量的等位基因平衡信号可以提供单体型或染色体平衡的信号。由于等位基因平衡因此变得依赖于变异的定相(即，相对高或低比例的等位基因支持高或低比例的染色体同源物取决于其定相)，因此等位基因平衡信号可能会因定相错误而改变，例如转换错误。因此，相位校正可以直接转化为等位基因平衡校正，使得通过校正相位比对获得真实等位基因平衡信号。除非上下文另有规定，否则如本文所用，“校正”相位比对或等位基因平衡信号可用于指将相位确定与先验或以其他方式假定的相位确定进行比较，无论不正确的相位是否实际被鉴定和改变或是否提供丢失的相位信息(例如，“校正错误”)。

读取深度是指在一次或多次测序运行过程中映射到给定基因座的测序读段数量。读取深度信号(或深度信号)可以在读段总数上进行归一化。读取深度可以用各种不同的方式表示，包括但不限于由测序仪映射到特定基因座的读段绝对数量或映射到该基因座的读取的百分比或比例。因此，例如在高度平行的DNA测序仪中，例如ILLUMINA 例如产生100万个克隆的序列，对一个基因座测序3,000次导致该基因座的读取深度为3,000个读段。该基因座处的读段比例为3,000除以100万个总读段，即总读段的0.3％。一般来说，一个基因座的读取深度越大，所述基因座的等位基因平衡信号就越接近原始遗传样品中的真实等位基因平衡。可以针对最小读取深度过滤基因座，以包含在读取深度数据中。特定变异的读取深度，特别是相对于读取总数进行归一化时，可能指示该变异与其他变异相比的相对拷贝数。将变异的相对拷贝数与已知拷贝数的一个或多个基准(例如来自参考遗传密码)进行比较可以指示例如，在其中一个染色体同源物上是否发生了扩增或缺失事件(例如，在遗传样品来源的全部或至少部分细胞中)。

噪声可能通过多种机制引入信号中，包括例如，由于采样、GC偏差和/或变异在基因组中的不均匀分布导致的随机事件，以及任何拷贝数异常。本文所述的信号通常可以在多个相邻基因座上取平均值得到的。例如，所述多个相邻基因座可以包括2、3、4、5、10、15、20、25、30、40、50、100、500、1,000、5,000或更多个基因座。基因座的选择可能取决于它们在目的区域内的密度。例如，所述多个相邻基因座可以包括至少约50,000、100,000、200,000、300,000、400,000、500,000、750,000、1,000,000、50,000,000或100,000,000bp区域内的所有基因座。所述多个相邻基因座可以包括不大于约50,000、100,000、200,000、300,000、400,000、500,000、750,000、1,000,000、50,000,000或100,000,000bp的区域内的所有基因座。可以选择相邻基因座的范围，使得假定基因座位于同一染色体上。因此，每个基因座的等位基因平衡或读取深度的真实信号应该是相同的，除非选择中的仅一些基因座存在非整倍性。因此，在相邻基因座上取平均值可以降低本文描述的信号中的噪声。将等位基因平衡和读取深度组合

根据本发明的各个方面，等位基因平衡信号和读取深度信号可以组合使用以确定倍性状态。等位基因平衡和读取深度可以各自单独指示倍性状态确定，如本文其他部分所述。然而，由于来自这些信号的噪声至少在某种程度上是独立的，等位基因平衡中的噪声与重叠询问位点的特定DNA分子的测序数量的变化有关，以及读取深度中的噪声与重叠探询位点的DNA分子的测序总数的变化有关，因此这些信号可以提供彼此正交的信息源，从而提高信噪比并允许更准确的倍性状态确定。在存在中间读段数量的情况(其中读段足以使得可以足够精细地确定基因座处的等位基因平衡，但不足以使得读取深度信号变成决定性的)下，所述组合可能特别有用。等位基因平衡信号可以通过非错误传播定相方法进行校正，以根据本文其他地方描述的方法提供真实等位基因平衡信号。

信号可以根据各种方式组合使用，如本领域所理解的。例如，可以通过多元逻辑回归、对数线性建模、神经网络分析、n-of-m分析(如果满足总共“m”个标准中的至少“n”个标准，则表示非整倍性)、决策树分析、随机森林分析、规则集、贝叶斯方法、神经网络方法、乘法、加法等将信号组合在一起使用。将信号一起使用的一些方法可能包括通过数学运算将两个信号组合成单个复合信号。例如，信号可以相乘或相加。在各种实现中，一个或两个信号可以乘以标量。例如，信号可以相对于噪声的一个或多个测量进行归一化，例如在信号中测量的标准偏差或方差(例如，在测量信号的多个染色体位置中和/或在多次分析运行中)。

对于每个信号和/或信号组合，可以选择信号的一个或多个阈值水平或值作为截止值，以区分基因座或染色体区段的不同拷贝数。例如，可以选择阈值来区分以三体存在的基因座(所述基因座的三个拷贝)与以二体存在的基因座(所述基因座的两个拷贝)，和/或可以选择阈值来区分以单体存在的基因座(所述基因座的一个拷贝)与以二体存在的基因座。信号可以抵消不同拷贝数，例如整倍体拷贝数的信号(例如，平均信号值)或相对于其以其他方式归一化。例如，信号可以被配置为使得0水平指示整倍体倍性状态，并且与其的足够偏差指示非整倍体倍性状态。可以选择不同的阈值来指示不同拷贝数。

单独和/或组合使用信号的特征可以是信号能够正确区分具有不同拷贝数的两个群体(例如整倍体群体和非整倍体群体)的概率。例如，可以将概率表征为使用信号阈值正确鉴定应将变异分配给哪个群体的概率。概率的特征可以是真阳性、假阳性、真阴性和/或假阴性的概率。基于单独信号的概率是单独概率。基于组合使用两个信号的概率是联合概率。例如，真阳性非整倍体呼叫的概率是基于组合使用两个信号的阳性判定标准将非整倍体准确鉴定为非整倍体的概率。组合使用等位基因平衡信号和读取深度信号通常可以提供相对于单独概率更高的真阳性和/或真阴性的联合概率和/或提供相对于单独概率更低的假阳性和/或假阴性的联合概率，如本文其他地方所示。

阈值充分区分两个群体(例如，整倍性与非整倍性)的能力可以使用本领域已知的接收者操作特征(ROC)分析来建立。ROC曲线下的面积可以提供使用信号来区分两个群体的质量的度量，而与特定阈值无关。为了绘制ROC曲线，随着决策阈值连续变化确定真阳性率(TPR)和假阳性率(FPR)。区分两个群体的完美测试的ROC曲线下面积为1.0；随机测试的面积为0.5。优选地，一个或多个信号提供的ROC曲线面积大于0.5、优选至少0.6、更优选0.7、仍更优选0.75、甚至更优选至少0.8、仍甚至更优选至少0.9、以及最优选至少0.95。

可以选择特定阈值以提供可接受水平的灵敏度(真阳性率)和特异性(真阴性率)。例如，可以选择阈值，使得假阳性率近似等于假阴性率。例如，当抵消整倍性(或不是非整倍性状态)的平均信号水平时，可以假定这样的阈值是非整倍性(或特定非整倍性状态)的平均信号水平的一半。根据某些方面，可以选择阈值以提供大于0.5、优选至少0.6、更优选至少0.7、仍更优选至少0.8、甚至更优选至少0.9、以及最优选至少0.95的特异性。根据某些方面，可以选择阈值以提供大于0.5、优选至少0.6、更优选至少0.7、仍更优选至少0.8、甚至更优选至少0.9、以及最优选至少0.95的灵敏度。根据某些方面，可以选择阈值以提供不同于1、优选至少约2或更大或约0.5或更小、更优选至少约3或更大或约0.33或更小、仍更优选至少约4或更大或约0.25或更小、甚至更优选至少约5或更大或约0.2或更小、以及最优选至少约10或更大或约0.1或更小的比值比。

可以独立于阈值所区分的两个群体中的一个的测量结果来选择特定阈值。例如，用于区分非整倍体变异和整倍体变异的阈值可以设置为整倍体群体的特定百分位数，例如，第60、70、80、90、95、99百分位数等(假定非整倍体信号应大于整倍体信号)，其可以基于可接受水平的假阳性来建立。可替代地，阈值可以设置为非整倍体群体的特定百分位数，例如，第1、5、10、20、30、40百分位数等(假定非整倍体信号应大于整倍体信号)，其可以基于可接受水平的假阴性来建立。在一些情况下，如果有更多数据可用于表征整倍体群体，则可以使用整倍体信号来建立阈值。

本文描述的群体(population)可以是任何测量结果群体。优选地，群体可以是从对同一遗传物质的同一测序实验中获得的测量结果群体。这样定义群体可以使群体内的噪音最小化。此类群体可以包括对共享相同倍性状态的不同基因座的测量结果。然而，群体可以被定义为指代或包括来自对同一遗传物质样品的不同测序实验、对同一遗传物质的不同样品的不同测序实验和/或对不同遗传物质(例如，不同基因组)的不同测序实验的测量结果。

在各种实现中，可以从要鉴定潜在非整倍体的相同测序数据建立基线信号。例如，基线信号(例如，平均信号值)可以基于已知或确认为整倍体的一个或多个染色体区段的信号测量来建立。正在被询问以鉴定潜在非整倍体的染色体的其他区段的信号可能会被该基线信号抵消，如本文其他地方所述。这样做可以允许更容易地比较不同信号类型。

根据一些方面，可以假定群体具有正态分布。因此，群体的特征可以从群体的平均信号值以及任选地群体内的噪声或方差/标准偏差的测量通过计算建立。可以假定两个群体(例如，整倍体群体和非整倍体群体)具有大致相同的方差/标准偏差，这可以简化群体的理论表征，如本文其他地方所述。特别是当从同一测序实验(例如，在染色体的不同区段上)确定两个群体时，可以假定每个信号内的噪声基本上相同。

根据一些实现，等位基因平衡信号和读取深度信号可以从同一测序实验中获得。换句话说，可以将来自单个实验的读段映射到参考遗传密码内的变异，并且映射到同一变异的不同等位基因的相对读取数可用于获得等位基因平衡信号，而映射到特定变异的读取总数(任选地，相对于实验的读取总数进行归一化)可用于获得读取深度信号。在各种应用中，这两种信号都将从无细胞DNA测序中获得，如本文其他地方所述。根据其他实现，等位基因平衡信号和读取深度信号可以从不同的测序实验中获得。不同的测序实验可以在同一遗传物质样品或不同遗传物质样品上进行。当使用不同样品时，遗传物质可以从同一来源(例如，无细胞DNA)或从不同来源(例如，无细胞DNA与细胞DNA或不同细胞类型)获得。在从细胞DNA获得等位基因平衡信号和/或读取深度信号的情况下，遗传物质的来源(特定样品和/或细胞类型)可能与用于任何非错误传播定相的来源相同，如本文其他地方所述，或者可能不同。

应用

对遗传物质样品(例如，基因组)进行倍性状态确定的各种潜在应用是可能的。本文描述了如何使用这种确定来推动后续决策和/或进一步分析或治疗的几个具体但非限制性例子。

具有染色体不稳定性的肿瘤的遗传分析

肿瘤细胞的基因组不稳定性通常与患者结果差和对靶向癌症治疗的抗性有关。响应于致癌物的环境暴露和/或随机细胞事件而积累的遗传和表观遗传病变通常导致肿瘤抑制基因失活，这些基因在维持细胞周期、DNA复制和DNA修复中起关键作用。细胞DNA修复机制的损失或抑制通常会导致突变负担增加和基因组不稳定。CNV在许多类型的癌症类型中普遍存在，并可能导致癌基因的获得和/或与疾病进展和治疗反应或抗性相关的肿瘤抑制因子的损失。基因组不稳定性与亚克隆异质性有关，并且经常在不同病变之间、在同一肿瘤内以及甚至在同一实体活检部位内的实体瘤中观察到。这种肿瘤细胞异质性会使围绕单个分子靶标设计的治疗干预复杂化。全基因组CNV分析可用于表征基因组不稳定性，然而，由于样品可用性以及周围组织污染或肿瘤异质性产生的噪音，因此对大块肿瘤或活检物中基因组不稳定性的评估可能会复杂。与基因组不稳定性增加相关的肿瘤已被证明对特定类型的治疗有反应，包括例如基于铂的化疗和PARP抑制剂。参见例如，Greene等人,PLoSOne.2016Nov 16；11(11):e0165089(doi:10.1371/journal.pone.0165089)，其通过引用以其整体并入本文。

聚ADP核糖聚合酶(PARP)是几乎所有真核细胞中发现的核酶，其催化ADP核糖单元从烟酰胺腺嘌呤二核苷酸(NAD+)转移到核受体蛋白，并负责形成蛋白质结合的线性和支链同源ADP核糖聚合物。可以通过暴露于化疗、电离辐射、氧自由基或一氧化氮(NO)后的DNA链断裂诱导PARP的激活和由此形成的聚(ADP核糖)。几种形式的癌症比常规细胞更依赖于PARP，这使得PARP成为癌症治疗的有吸引力的靶标，与特定的癌症适应症无关。此外，由于PARP与响应于由放疗或化疗引起的DNA损伤的DNA链断裂的修复有关，因此它可能导致通常对各种类型的癌症疗法产生的抗性。因此，抑制PARP可能会延缓细胞内DNA修复并增强癌症治疗的抗肿瘤作用。事实上，体外和体内数据显示，许多PARP抑制剂增强了电离辐射或细胞毒性药物(如DNA甲基化剂)的作用。PARP酶家族是广泛的，并且已知PARP的竞争性抑制剂。批准的PARP抑制剂包括奥拉帕尼(AstraZeneca)；鲁卡帕尼(/>ClovisOncology)；尼拉帕尼(/>Tesaro)；和他拉唑帕尼(/>Pfizer)。其他正在研究的PARP抑制剂包括维利帕尼(ABT-888，AbbVie)；帕米帕利(BGB-290)(BeiGene,Inc.)；CEP9722(Cephalon)；E7016(Eisai)；和3-氨基苯甲酰胺。

基于铂的化疗药物(抗肿瘤药物，非正式地称为“platins”)是铂的配位复合物，包括顺铂、奥沙利铂和卡铂，以及几种正在开发的建议药物。基于铂的化疗药物导致DNA交联为单加合物、链间交联、链内交联或DNA蛋白交联，从而抑制DNA修复和/或DNA合成。

适用于展现出染色体不稳定性的癌症的其他形式的治疗是本领域所理解的。因此，本文描述的方法可以涉及鉴定患有癌症的受试者中的遗传特征，所述遗传特征指示染色体不稳定性；并且因此适用于靶向遗传机制的治疗剂类别(例如，抑制DNA修复，使得可以更有效地靶向受损的DNA)。这些治疗剂可能对特定类型的癌症是不可知的。因此，本文描述的方法可以在特定癌症诊断和/或组织活检之前或同时对被诊断患有或疑似患有癌症的受试者进行。有利地，本文描述的方法可以基于完全从非侵入性或微创程序(如抽血)收集的遗传物质来进行。本文描述的遗传分析可以与基于同时收集的相同或不同生物样品的其他常规分析和/或癌症诊断或评估同时进行。

根据本发明的具体方面，可以从收集自受试者的遗传物质样品中获得等位基因平衡信号和/或读取深度信号(例如，组合使用)。可以从包含或疑似包含ctDNA的无细胞DNA中获得所述信号。可以从细胞DNA，例如肿瘤组织中获得所述信号。如果使用等位基因平衡信号，则可以通过使用非错误传播定相技术校正等位基因平衡信号来确定真实信号，如本文其他地方所述。非错误传播定相技术可以在细胞DNA上进行。可以从血细胞(例如白细胞)中获得细胞DNA。根据其中从细胞DNA获得一个或多个指示倍性状态的信号并对细胞DNA进行非错误传播定相的一些方面，对于两者可以使用相同的细胞DNA来源。在一些实现中，用于获得倍性状态的遗传信号的无细胞DNA和用于进行非错误传播定相的细胞DNA获自相同的生物样品(例如，抽血)。可以从一个或多个信号进行倍性状态确定，以评价所评估的DNA(例如，无细胞DNA)的倍性状态。可以关于参考遗传密码(例如，正常细胞遗传密码)进行所述确定，如本文其他地方所述。可以确定一个或多个染色体区段的倍性状态。对一个或多个展现出CNV的染色体区段的检测可以用于鉴定基因组中展示出染色体不稳定性的一个或多个区域。这些区域的鉴定可以用于指示肿瘤的存在，所述肿瘤对使用利用染色体不稳定性的治疗剂进行的治疗(如使用PARP抑制剂和/或基于铂的化疗药物治疗)是敏感的。根据一些方面，倍性状态确定用于治疗受试者(例如，通过在体内施用治疗)。根据本发明的一些方面，倍性状态确定用于体外处理一个或多个细胞。所述一个或多个细胞可以包含癌细胞。所述细胞可能是从患有或疑似患有癌症的受试者培养的(例如，从肿瘤活检物中生长)。所述细胞可以包含来自癌细胞系的细胞(例如，人工诱导以复制癌症)。所述细胞可以包含正常细胞和癌细胞的混合物。

从头或遗传CNV检测

本文描述的方法可以用于检测受试者的倍性状态(例如CNV)的变化。根据本发明的一些方面，可以从收集自受试者的遗传物质样品中获得等位基因平衡信号和/或读取深度信号(例如，组合使用)。所述一个或多个信号可以从无细胞DNA中获得。所述一个或多个信号可以从细胞DNA中获得。如果使用等位基因平衡信号，则可以通过使用非错误传播定相技术校正等位基因平衡信号来确定真实信号，如本文其他地方所述。非错误传播定相技术可以在细胞DNA上进行。根据其中从细胞DNA获得一个或多个指示倍性状态的信号并对细胞DNA进行非错误传播定相的一些方面，对于两者可以使用相同的细胞DNA来源。细胞DNA可以从血细胞(例如白细胞)或通过非侵入性或微创技术收集的其他细胞中获得。在一些实现中，用于获得倍性状态的遗传信号的无细胞DNA和用于进行非错误传播定相的细胞DNA获自相同的生物样品(例如，抽血)。可以从一个或多个信号进行倍性状态确定，以评价所评估的DNA的倍性状态。等位基因平衡和/或读取深度(例如，组合使用)可用于鉴定同一基因座处变异之间的拷贝数差异，表明染色体同源物中一个的非整倍性。

本文描述的方法可用于检测倍性状态的遗传变化(即受试者染色体中的一条的一个或多个基因座处的倍性状态变化，其中每个染色体同源物的倍性状态遗传自父母)或倍性状态的从头变化(即受试者染色体中的一条的倍性状态相对于遗传染色体同源物或单体型的亲本的相应染色体同源物或单体型中的倍性状态的变化)。遗传单体型可用于提供参考遗传密码，相对于该参考遗传密码，可以比较受试者中检测到的倍性状态。如果非整倍性存在于父母任一方的遗传密码中，则可以确定非整倍性是遗传的。如果非整倍性不存在于父母任一方的遗传密码中，则非整倍性可以称为从头变化。

根据本发明的一些方面，确定具有非整倍性状态的单体型的父母起源。例如，基于变异的定相和母系/父系拷贝数的先验概率，可以进行这种确定。可以对父母一方(起源父母)或双方进行另外的测序以确认该确定。例如，可以对父母进行全基因组测序(例如，鸟枪测序)，这可允许确认起源父母中的相应拷贝数。

根据本发明的具体方面，受试者可以是胚胎或胎儿。如本文所用，“胚胎”可以指通过有性生殖产生的细胞有机体，包括受精卵、桑椹胚和胚细胞，直至胚胎成为胎儿的发育阶段。胚胎可能存在于体外(例如，用于IVF)或子宫内。如本文所用，“胎儿”可以指通过有性生殖产生并存在于子宫内的未出生后代，从未出生后代不再被表征为胚胎的发育阶段开始。因此，受试者可以被认为是胚胎或从单细胞阶段到胎儿出生的胎儿。在人类中，后代通常被认为是受孕后约8周的胎儿。本领域充分理解，可以从胚胎或胎儿中有效地获得哪些类型的遗传物质，以及这样做的技术和与之相关的任何固有风险。

胎儿胚胎的倍性状态的确定(包括从头变化的判定)通常可以如本文其他地方所述进行(例如，对于出生的孩子或成人个体)。然而，对未出生的受试者进行从头检测可能会带来一些挑战。例如，用于进行非错误传播定相的细胞DNA可能不那么容易获得。例如，取决于发育的阶段，收集体液样品(如含有循环血细胞的血液样品)可能是不切实际或不可能的。此外，通常从胚胎或胎儿收集细胞物质可能会对受试者的生存能力或健康造成风险(例如，自然流产)。根据一些方面，可以从胚胎或胎儿的活检物中获得细胞DNA，如本领域所知。在对胚胎或胎儿进行倍性状态确定的优选实现中，可以对从一个或多个遗传亲属(例如母亲和/或父亲)收集的样品进行非错误传播定相。细胞DNA可以例如从体液(例如，血液)样品或从一个或多个遗传亲属获得的其他组织类型中获得，并用于校正参考遗传密码的定相，如本文其他地方所述。可以根据需要从一个或多个遗传亲属中收集无细胞DNA。在一些实现中，参考遗传密码可以至少部分地基于对一个或多个遗传亲属的测序(例如，全基因组鸟枪测序)来构建，如本领域已知的。参见例如，Kitzman等人,Sci Transl Med.2012年6月6日；4(137):137ra76(doi:10.1126/scitranslmed.3004323)。例如，对遗传亲属基因组的分析可以鉴定变异，以便在受试者中进行后续分析。可以收集来自胚胎或胎儿受试者的无细胞DNA用于根据本领域已知的任何合适方法进行分析。例如，cffDNA可以在充分发育程度上从携带受试者胎儿或受试者胚胎的母亲的血液中收集。无细胞DNA可以从胚胎的囊胚腔液或用于培养IVF胚胎的细胞培养基中收集，如本领域所知。胎儿或胚胎的无细胞DNA可以至少部分地用于确定受试者的基因组(例如，通过全基因组鸟枪测序)和/或建立用于倍性状态判定的参考遗传密码。参见例如，Kitzman等人,Sci Transl Med.2012年6月6日；4(137):137ra76(doi:10.1126/scitranslmed.3004323)。无细胞DNA的测序可以至少部分地用于定相受试者的基因组或参考遗传密码(例如，通过本领域已知的分子技术)。一个或多个遗传亲属和/或群体参考组的序列可以与无细胞DNA的测序结合使用，以提供至少部分定相的基因组(在通过非错误传播定相技术对定相进行任何校正之前)。从胚胎或胎儿受试者收集的无细胞DNA可用于产生等位基因频率信号和/或读取深度信号，如本文其他地方所述，从中可以进行倍性状态判定。可以使用对受试者的一个或多个遗传亲属的细胞DNA进行的非错误传播定相技术来校正等位基因频率信号。

非整倍性(例如，CNV或整个染色体异常)与疾病之间的特定关联的例子在本领域是熟知的。根据本发明的一些方面，倍性状态的确定可用于告知IVF的决策。本文描述的方法可以在单个胚胎或多个胚胎(例如，用于植入的多个候选胚胎)上进行。倍性状态的确定可以用于选择一个或多个胚胎进行植入和/或选择一个或多个胚胎以丢掉/丢弃。倍性状态的确定可以用于选择一个或多个胚胎进行冷冻(在选择胚胎用于可能的未来植入的情况下，或者在胚胎不是植入的首要候选但不希望被丢弃的情况下)。例如，可以至少部分地基于对染色体或染色体区段的非整倍体状态的检测(例如，鉴定CNV，特别是与疾病具有已知关联的CNV)来确定胚胎的疾病风险。在一些实现中，可以选择不具有鉴定的非整倍性(例如CNV)的胚胎进行植入或冷冻。在一些实现中，胚胎可以完全或至少部分基于非整倍性的鉴定(例如，通过CNV的数量和/或特定CNV的存在)进行排序。根据本文描述的方法确定倍性状态可以单独使用或与现有的植入前基因检测(PGT)方法结合使用，如本领域熟知的。

根据本发明的一些方面，倍性状态的确定可用于告知妊娠决策，特别是当受试者是胎儿时。例如，是否继续或终止妊娠的决策可以基于倍性状态的确定(例如，非整倍性的鉴定)，其方式与有关IVF的决策相同，如本文其他地方所述。根据本文描述的方法确定倍性状态可以单独使用或与现有的产前诊断方法结合使用，如本领域熟知的。

根据本发明的某些方面，倍性状态的确定可用于告知另外的测试和/或诊断方法的信息。例如，在鉴定非整倍性后，可以定购另外的PGD或产前诊断测试。在一些情况下，另外的测试可能特异于一种或多种与检测到的非整倍性相关的疾病。在一些情况下，可能会对受试者进行更具侵入性的程序，特别是如果受试者是胚胎或胎儿。例如，可以直接对胚胎或胎儿进行组织活检，以便对细胞物质进行细胞DNA测序或其他诊断。可以对受试者进行核型分析。在一些实现中，另外的测试可以与倍性状态的确定基本同时进行(在大致相同的发育水平上)。在一些实现中，可以按延迟的时间表进行另外的测试，从而允许发生另外的发育(例如，从胚胎发育到胎儿和/或通过IVF植入胚胎之后的发育)。在一些实现中，基于受试者是胚胎和/或胎儿时进行的倍性状态确定，可以对出生的受试者(例如，婴儿或儿童受试者)进行另外的测试。

根据本发明的某些方面，倍性状态的确定可用于告知受试者治疗决策。例如，在鉴定出非整倍性时，受试者可以接受与非整倍性相关的疾病或病症的治疗。治疗可以包括适合受试者发育阶段的任何治疗。例如，可以对胚胎进行基因编辑和/或可以向胎儿(或携带胎儿的母亲)施用产前治疗。在一些实现中，可以按延迟的时间表进行治疗，从而允许发生另外的发育(例如，从胚胎发育到胎儿和/或通过IVF植入胚胎之后的发育)。在一些实现中，基于受试者是胚胎和/或胎儿时进行的倍性状态确定，可以对出生的受试者(例如，婴儿或儿童受试者)进行治疗。非整倍性的早期检测(例如，在子宫内)可能允许对婴儿和儿童进行早期治疗，这可能会改进结果。

疾病诊断

除了本文其他地方描述的基于非整倍性(例如CNV)与疾病的已知关联的诊断之外，本文描述的方法可用于鉴定非整倍性与疾病之间的新关联。通过在具有特定疾病或疾病倾向的受试者群体中鉴定相同的非整倍性，可以建立非整倍性与疾病之间的关联。

使用通过一个或多个罕见的非整倍体变异的非错误传播定相确定的相位和鉴定已知与疾病相关的相邻SNP(例如，在同一单体型块内或在通过本文描述的方法确定为同相比对的两个相位集内)，可用于阐明SNP的功能，特别是与疾病有关。罕见变异和鉴定的SNP可能被确定为连锁不平衡。通过增加该SNP相对于其他相邻SNP(例如，与鉴定的SNP处于连锁不平衡)对疾病风险的贡献(例如，在多基因风险得分(PRS)中)，罕见变异可以有效地与鉴定的SNP相关联。因此，罕见变异与更常见SNP的联系可以提高更常见SNP的预测能力，因为它与疾病的易感性有关。

在鉴定出与疾病相关的非整倍性变异后，可以在其他受试者中进行测序，用于确定疾病易感性的诊断目的。测序可以被靶向以捕获非整倍性变异。可以进行测序以靶向相邻的SNP，例如那些被确定为与非整倍体变异处于连锁不平衡的SNP，如本文其他地方所述(例如，通过微阵列)。可以进行测序以靶向非整倍性变异(例如罕见变异)和SNP(例如，常见SNP)。

疾病的诊断可以至少部分地基于一个或多个非整倍体变异的存在或不存在和/或至少部分地基于被确定为与一个或多个非整倍体变异处于连锁不平衡的一个或多个SNP。诊断可以例如基于PRS进行，如本领域熟知的。可以基于本文描述的任何诊断方法告知疾病的治疗。例如，可以对受试者治疗(包括预防性治疗)受试者已被诊断患有或至少具有增加的患有或发展倾向的疾病。诊断和治疗可以结合本领域所理解的其他临床因素和变量进行。

定相生殖系镶嵌变异

本文描述的方法可用于鉴定具有非整倍体变异的受影响个体中的单体型。出于IVF的目的，可以对受影响个体的配子进行筛选(例如，避免携带鉴定的单体型的配子)。

根据本发明的某些方面，使用非错误传播定相技术可以用于对受影响个体的生殖系镶嵌变异进行定相。例如，这些受影响个体可能包括患有努南综合征或RASopathy的个体。如本文其他地方所述，该定相信息可用于告知关于IVF的决策。例如，定相信息可用于确定在使用IVF和PGT的下一代中避免哪种单体型。

根据本发明的某些方面，可以使用长定相读段以包括通过如下方式预测胚胎基因组中的罕见变异：将罕见变异与两个父母中的每一个的共同变异(例如，SNP)联系起来，然后在确定胚胎中遗传了哪个SNP之后随后推断胚胎中该罕见变异的遗传。

实施例

实施例1.

从定相基因组生成对应于特定单体型的合成读段数据集，以模拟人21号染色体上的染色体失衡(扩增)。简而言之，根据Samadian等人,PLoS Comput Biol.2018年3月28日；14(3):e1006080(doi:10.1371/journal.pcbi.1006080)(将其全部内容通过引用并入本文)中描述的方法，将遗传样品NA12878的核苷酸位置30227447-44327015的读段添加到使用10X 合成长读法(/>产品)生成的数据中。该软件的输入包括定相VCF文件(其包括约37Mb位置的相移错误)以及测序文件(bam)。然后将其中200,000个读段添加到从1000Genomes库获得的一组标准鸟枪读段中。对于样品NA12878基于PlatinumGenomes变异集预测为“0|1”的位置被分配为“A”单体型，并且预测为“1|0”的位置被分配为“B”单体型。参见例如，Eberle等人,Genome Res.2017年1月；27(1):157-164(doi:10.1101/gr.210500.116)，将其全部内容通过引用并入本文。针对深度>5个读段或深度>20个读段过滤位置。基于输入的定相VCF文件的定相，每个位置被分配给“A”等位基因或“B”等位基因。图1显示了基于染色体的合成读段数据集的以A等位基因比例表示的对于杂合位点(SNP)的等位基因平衡。

为了提高等位基因平衡信号的信噪比，对通过稀释池测序确定的同一单体型上的连续SNP进行分箱，并在分箱区域上对等位基因平衡信号取平均值，如图2所示。在图3中，等位基因平衡信号是在单体型块的300Kb窗口上取平均值得到的。从图2和图3中的平均等位基因平衡信号可以看出，显现出存在两种不同的非整倍性-可能是A单体型、具体地是三体性从约30Mb位置到37Mb位置的染色体扩增，紧接着是A单体型、具体地是单体性从约37Mb位置到44Mb位置的染色体缺失。通过非整倍性区域的稀释池测序确定的单体型块如图3底部所示。

从staging.4dnucleome.org/filesprocessed/4DNFIY9YBG6I/下载从样品NA12878的Hi-C实验获得的数据。Hi-C数据能够用于鉴定定相vcf中的转换错误，然后校正等位基因平衡数据，以便准确地判定非整倍性，如下所述。由于参考是hg38，因此vcf文件被映射到hg38。来自HapCut2程序的“extractHAIRS”工具用于生成支持相位块的各种组合的证据片段，如Edge等人,Genome Res.2017年5月；27(5):801–812(doi:10.1101/gr.213462.116)所述，将其全部内容通过引用并入本文。

使用Hi-C数据评价两个相位集的相位比对。一个相位集被定义为约存在于30Mb-37 Mb位置上的SNP集，第二个相位集被定义为21号染色体上从约37Mb位置开始的其余SNP。含有信息性读段(重叠两个或更多个杂合变异)的Hi-C片段被组装成稀疏亚组，其中变异在整个亚组中是自相一致的。那些至少部分重叠两个相位集的亚组(即，具有来自两个相位集中的每一个的至少一个SNP的亚组)进一步从Hi-C数据中过滤并对其进行评价，如图4所示，并且重叠的亚组被确定为完全一致(即没有发散的单体型判定，如“00”、“000”、“0000”等)或不一致(即具有至少一个发散的单体型判定，例如“01”、“011”、“0111”等)。将亚组的总数(包括完全一致和不一致片段的分布)制成表格。如图4所示，共有20个亚组，其中与稀释池测序相比时有19个不一致，并且有1个与稀释池序列一致。片段数是指每个亚组中的片段读段数，其中每个片段具有至少两个支持单体型判定的SNP，但不一定是亚组中的每个SNP。为了评价观察到的一致和不一致测量结果的分布，假设获得一致测量结果和不一致测量结果的可能性相等，使用二项式分布计算观察到的分布纯属偶然发生的概率。二项式概率非常低，小于0.01％几率，偏斜分布纯属偶然发生。因此，确定重叠两个相位集的Hi-C测量结果主要是不一致的，因为两个相位集之间的假定相位比对实际上是不正确或未对齐的。假设第一相位集的定相(约在30Mb-37Mb位置上)是正确的并且由于在两个相位集之间引入的转换错误的性质导致第二相位集的定相(从37Mb开始)是不正确的，第二相位集的相位被反转，并且在单体型块的300Kb窗口上取平均值得出的真实等位基因平衡信号如图5所示进行校正。真实等位基因平衡信号显示约在位置30Mb至44Mb上的14Mb非整倍性，这在理论上可以对应于单体型A的扩增或单体型B的缺失。

实施例2.

复制实施例1的模拟数据集，但对应于21号染色体中非整倍性(单体型A的扩增)的读段被下采样到约9％的测量细胞，其中约91％的细胞在同一染色体区段上显示整倍体。图6A显示了杂合基因座(SNP)染色体30.3Mb-37Mb部分的原始等位基因平衡信号。此范围内的等位基因平衡信号的平均值为0.5232，并且标准偏差为0.1141。图6B显示了通过稀释池测序确定的在单体型块的300Kb窗口上取平均值的相同等位基因平衡信号。如图6B所示，通过9％非整倍体细胞引入的等位基因平衡偏移更容易辨别，并且由于分箱，标准偏差已降至0.0258。因此，这个实施例证明了即使在低等位基因分数下也具有判定扩增的能力。

实施例3.

在本实施例中，假设二体性(D)测量结果群体和三体性测量结果群体具有正态分布，其对于读取深度信号X₁具有相等的标准偏差，如图7所示。三体性群体的平均值抵消二体性群体的平均值，使得二体性群体的有效平均值为0，并且三体性群体的平均值具有m1的有效平均值。因此，给定读取深度信号X₁的二体性或三体性的概率可以定义如下：

以及

假设二体性的总概率等于三体性的总概率(即)。阈值t1被设置为m1/2的X₁水平，高于该阈值的读取深度信号X₁被认为指示三体性，其中三体性的概率等于同一X₁信号的二体性概率(即/>)。因此，可以求解上述方程，以表明在t1下：

然后使用X₁从累积分布函数计算对应于假阳性(即错误地将二体性表征为三体性)的信号X₁的概率，如下所示：

根据下表1所示的判定方案计算模拟了如下方法：通过一起使用两个信号(X₁读取深度信号和正交信号X₂(例如等位基因平衡信号))进行二体性/三体性判定：

表1.

如上所述，对信号X₁的分布所做的假设与对信号X₂的分布所做的假设相同。根据表1基于使用两种分布判定假阳性的概率和未能进行任何判定的概率如下在表2中确定，其中“normcdf”是正态累积分布函数(例如，在中)：

表2.

假设m₁＝6且m₂＝6/sqrt(3)，概率值计算如下：P_FPX1＝0.0013；P_FPX2＝0.0416；和P_FPX1X2＝0.000056。

实施例4.

假设二体性(D)测量结果群体和三体性测量结果群体具有与实施例3相同的分布。通过将两个信号X₁和X₂数学组合为单个乘积(X₁*X₂或“X₁X₂”)来进行二体性/三体性判定的方法计算如下：

以及

再次假设二体性的总概率等于三体性的总概率(即，)，那么在阈值t下：

P(D|X₁X₂)＝P(X₁|D)P(X₂|D)，和

然后对联合概率函数进行积分以评价假阳性率，如下所示：

其中可以进一步阐明为：

2X₁m₁+2X₂m₂＞m₁ ²+m₂ ²。

然后将X₂求解如下：

因此，假阳性率被确定为：

/>

然后，可以使用以下代码凭经验计算假阳性率，其中“总和”是不同信号平均值m₁和m₂的假阳性率：

使用与实施例3相同的信号平均值进行模拟。在这里，“总和”对应于在将信号平均值m1和稍弱的信号平均值m2组合的这个联合概率情景中观察到假阳性的概率。假阳性的概率被确定为：P(假阳性)＝总和＝0.00026，而单独概率(在实施例3中评价)被确定为更高：P_FPX1＝0.0013和P_FPX2＝0.0416。

模拟表明，相对于单独使用任一个信号，将两个单独信号组合(其中一个信号的方差是另一个的3倍)可以将假阳性率降低至少5倍。

实施例5.

以与实施例1类似的方式，创建DNA的合成非整倍体混合物，从21号染色体上的30.3Mb位置开始扩增。图8A显示了31Mb与37Mb之间位置的读取深度信号，并且图8B描绘了31Mb与37Mb之间位置的分箱读取深度测量结果的直方图。同样，图9A显示了31Mb与37Mb之间位置的等位基因平衡信号，并且图9B描绘了31Mb与37Mb之间位置的分箱等位基因平衡测量结果的直方图。图9C显示了分箱等位基因平衡测量结果的直方图，其中测量结果是在50个相邻SNP上取平均值得到的。

平均信噪比是根据汇总数据计算得出的，如2014年3月25日发布的Rabinowitz等人的美国专利号8,682,592中所述，其全部内容通过引用并入本文。如在实施例3和4的理论模拟中所描述的，用于指示三体性的阈值信号值被选择为在读取深度和等位基因平衡的平均二倍体信号与平均三倍体信号之间的一半，近似于如实施例3和4中判定假阴性的概率等于判定假阳性的概率的情况，但可以选择其他阈值。通过计算在20Mb与30.3Mb之间的位置上的平均测量结果来确定二倍性的平均信号，并且通过计算在30.3Mb与37Mb之间的位置上的平均测量结果来确定三倍性的平均信号。因此，对于读取深度和等位基因平衡信号，阈值分别被确定为每个位置31.5个读段和58％A(0.58)。

通过从每个位置的信号值中减去相应的阈值，然后通过除以在扩增区域上测量的标准偏差针对噪声水平归一化，从而生成对于在扩增的约2500次测量结果/位置上的读取深度信号和等位基因平衡信号的信噪比图。图10显示了读取深度信号的信噪比图，并且图11显示了等位基因平衡信号的信噪比图。图12显示了将读取深度和等位基因平衡的信噪比值相加得到的组合信号。图12所示的组合信号的平均值和标准偏差分别计算为0.4940和0.11。

虽然本发明已经足够详细地描述和举例说明，以供本领域技术人员制造和使用，但在不脱离本发明的精神和范围的情况下，各种替代、修改和改进应该是清楚的。本文提供的实施例代表优选方面，是示例性的，并且不旨在限制本发明的范围。本领域技术人员应想到其中的修改和其他用途。这些修改涵盖在本发明的精神内并且由权利要求的范围限定。

对于本领域技术人员来说清楚的是，可以在不脱离本发明的范围和精神的情况下对本文公开的发明进行不同的替换和修改。本发明的各个方面将被理解为可组合，除非在物理上不可能或上下文另外指示。

说明书中提到的所有专利和出版物都表明了本发明所属领域的普通技术人员的水平。所有专利和出版物都通过引用并入本文，并入程度如同确切且单独地指示每个单独出版物都通过引用并入一般。

可以在不存在本文没有明确公开的任一种要素或多种要素、任何一种限制或多种限制的情况下适当地实践本文说明性描述的本发明。因此，例如，在本文的每种情况下，术语“包含”，“基本上由……组成”和“由……组成”中的任一个可以用其他两个术语中的任一个替代。采用的术语和表达被用作描述性而非限制性的术语，并且在使用此类术语和表达时并非意图排除所示和所述特征或其部分的任何等效物，而是认为在要求保护的本发明的范围内可以进行各种修改。因此，应当理解地是，虽然本发明已通过优选方面和任选特征明确公开，但本文公开的概念的修饰和变更可以由本领域的技术人员采取，并且这样的修饰和变更被认为是在所附权利要求所定义的本发明的范围内。

Claims

1.一种校正染色体区段的等位基因平衡信号的方法，所述方法包括：

获得包含两个相位集的参考遗传密码，每个相位集具有一个或多个目的变异，任选地其中所述参考遗传密码是至少部分定相的；

从对遗传物质样品进行的测序获得所述一个或多个目的变异的等位基因平衡信号；

获得使用非错误传播技术测序的多个读段，其中每个读段包含所述一个或多个目的变异中的至少一个；

基于所述多个读段将所述两个相位集的相位比对确定为同相或异相；以及

通过基于所确定的所述两个相位集的相位比对确认、校正或提供至少一个目的变异的定相来确定真实等位基因平衡信号。

2.根据权利要求1所述的方法，其中所述非错误传播技术包括染色体构象捕获、单细胞模板链测序或染色体分离(例如，经由激光捕获显微切割或核型)。

3.根据权利要求1或2所述的方法，所述方法还包括执行所述非错误传播技术以获得所述多个读段。

4.根据前述权利要求中任一项所述的方法，其中获得所述等位基因平衡信号包括对所述遗传物质样品进行测序。

5.根据前述权利要求中任一项所述的方法，其中所述等位基因平衡信号和所述多个读段源自相同的遗传物质样品，任选地其中所述样品是体液样品(例如，血液样品、唾液样品)或组织活检样品，进一步任选地其中所述等位基因平衡信号和所述多个读段源自相同的细胞群体。

6.根据前述权利要求中任一项所述的方法，其中所述等位基因平衡信号源自无细胞DNA，并且所述多个读段源自细胞DNA，任选地其中所述细胞DNA来自体液(例如，血液或唾液)中发现的细胞。

7.根据前述权利要求中任一项所述的方法，其中所述参考遗传密码源自用于生成所述等位基因平衡信号的测序。

8.根据前述权利要求中任一项所述的方法，其中所述参考遗传密码至少部分地源自对受试者中正常组织的测序，其中为所述受试者获得所述等位基因平衡信号。

9.根据前述权利要求中任一项所述的方法，其中所述参考遗传密码至少部分地源自对受试者中生殖系组织的测序，其中为所述受试者获得所述等位基因平衡信号。

10.根据前述权利要求中任一项所述的方法，其中所述参考遗传密码至少部分地源自对来自受试者的一个或多个遗传亲属的遗传物质的测序，其中为所述受试者获得所述等位基因平衡信号。

11.根据权利要求10所述的方法，其中所述一个或多个亲属是母亲和/或父亲。

12.根据权利要求10或11所述的方法，其中所述参考遗传密码至少部分地源自对所述一个或多个遗传亲属的生殖系测序。

13.根据前述权利要求中任一项所述的方法，其中所述参考遗传密码至少部分地源自对受试者的全基因组鸟枪测序，其中为所述受试者获得所述等位基因平衡信号。

14.根据权利要求13所述的方法，其中所述等位基因平衡信号源自所述全基因组鸟枪测序。

15.根据权利要求13或14所述的方法，其中对体液样品(例如，血液样品或唾液样品)中的无细胞DNA进行所述全基因组鸟枪测序。

16.根据前述权利要求中任一项所述的方法，其中所述非错误传播技术包括单细胞测序。

17.根据前述权利要求中任一项所述的方法，所述方法进一步包括收集从中获得所述等位基因平衡信号的遗传物质样品。

18.根据前述权利要求中任一项所述的方法，所述方法进一步包括收集从中获得所述多个读段的遗传物质样品。

19.根据前述权利要求中任一项所述的方法，其中校正所述等位基因平衡数据包括校正所述至少部分定相的参考遗传密码中的转换错误。

20.根据前述权利要求中任一项所述的方法，其中所述等位基因平衡信号是在至少约50,000、100,000、200,000、300,000、400,000、500,000、750,000、1,000,000、50,000,000或100,000,000bp的区域内在多个分箱变异上取平均值得到的。

21.根据前述权利要求中任一项所述的方法，其中所述等位基因平衡信号是在不大于约50,000、100,000、200,000、300,000、400,000、500,000、750,000、1,000,000、50,000,000或100,000,000bp的区域内在多个分箱变异上取平均值得到的。

22.根据前述权利要求中任一项所述的方法，其中所述等位基因平衡是在单体型块上取平均值得到的。

23.根据权利要求22所述的方法，其中所述单体型块通过稀释池测序来确定，任选地其中所述等位基因平衡信号源自相同的测序。

24.根据前述权利要求中任一项所述的方法，其中针对最小读取深度过滤所述等位基因平衡信号，任选地其中所述最小读取深度为5、10、15、20或25个读段。

25.根据前述权利要求中任一项所述的方法，其中所述两个相位集是所述参考遗传密码内的相邻相位集。

26.根据权利要求25所述的方法，其中每个所述相邻相位集包含这样的目的变异，其与另一个相邻相位集中的目的变异相距不超过约1,000、5,000、10,000、50,000、100,000、500,0000、1,000,000、5,000,000、10,000,000、50,000,000、100,000,000或250,000,000bp。

27.根据前述权利要求中任一项所述的方法，其中针对包含来自所述两个相位集中的每一个的至少2、3、4或5个目的变异的读段过滤所述多个读段。

28.根据权利要求2所述的方法，其中所述非错误传播技术包括染色体构象捕获，任选地其中所述染色体构象捕获是Hi-C。

29.根据权利要求28所述的方法，其中基于所述多个读段确定所述相位比对包括确定大多数读段关于所述两个相位集之间的假定定相比对是一致还是不一致，任选地其中所述假定定相比对基于所述参考遗传密码的至少部分定相。

30.根据权利要求28或29所述的方法，其中基于所述多个读段确定所述相位比对包括确定或估计从所述多个读段中观察到的所述两个相位集之间一致或不一致的程度是偶然结果的概率。

31.根据权利要求30所述的方法，其中所述概率是二项式概率，任选地假设观察到的片段是一致或不一致的机会相等。

32.根据前述权利要求中任一项所述的方法，所述方法进一步包括使用所校正的等位基因平衡信号来确定染色体区段的倍性状态，任选地其中确定所述倍性状态包括判定拷贝数变异(CNV)。

33.一种确定染色体区段的倍性状态的方法，所述方法包括：

获得所述染色体区段内第一组一个或多个变异的读取深度信号；

获得所述染色体区段内第二组一个或多个变异的等位基因平衡信号；以及

使用所述读取深度信号与所述等位基因平衡信号的组合来确定所述染色体区段的倍性状态。

34.根据权利要求33所述的方法，其中确定所述染色体区段的倍性状态包括确定所述染色体区段内是否存在CNV。

35.根据权利要求33或34所述的方法，其中获得所述读取深度信号包括获得相对于读段总数归一化的映射到所述第一组内的至少一个变异的测序读段的数量。

36.根据权利要求33-35中任一项所述的方法，其中所述读取深度信号是在至少约50,000、100,000、200,000、300,000、400,000、500,000、750,000、1,000,000、50,000,000或100,000,000bp的区域内在多个分箱变异上取平均值得到的。

37.根据权利要求33-36中任一项所述的方法，其中所述读取深度信号是在不大于约50,000、100,000、200,000、300,000、400,000、500,000、750,000、1,000,000、50,000,000或100,000,000bp的区域内在多个分箱变异上取平均值得到的。

38.根据权利要求33-37中任一项所述的方法，其中所述读取深度信号是在单体型块上取平均值得到的。

39.根据权利要求38所述的方法，其中通过稀释池测序确定所述单体型块。

40.根据权利要求33-38中任一项所述的方法，其中所述等位基因平衡信号是在至少约50,000、100,000、200,000、300,000、400,000、500,000、750,000、1,000,000、50,000,000或100,000,000bp的区域内在多个分箱变异上取平均值得到的。

41.根据权利要求33-40中任一项所述的方法，其中所述等位基因平衡信号是在不大于约50,000、100,000、200,000、300,000、400,000、500,000、750,000、1,000,000、50,000,000或100,000,000bp的区域内在多个分箱变异上取平均值得到的。

42.根据权利要求33-41中任一项所述的方法，其中所述等位基因平衡信号是在单体型块上取平均值得到的。

43.根据权利要求42所述的方法，其中通过稀释池测序确定所述单体型块。

44.根据权利要求33-43中任一项所述的方法，其中所述读取深度信号和所述等位基因平衡信号是在同一分箱区域上取平均值得到的。

45.根据权利要求33-44中任一项所述的方法，其中使用所述读取深度信号与所述等位基因平衡信号的组合包括仅当所述读取深度信号超过读取深度阈值并且所述等位基因平衡信号超过等位基因平衡阈值时，或者当所述读取深度信号没有超过所述读取深度阈值并且所述等位基因平衡信号没有超过所述等位基因平衡阈值时，作出肯定或否定的确定。

46.根据权利要求33-44中任一项所述的方法，其中使用所述读取深度信号与所述等位基因平衡信号的组合包括将所述读取深度信号和所述等位基因平衡信号组合成单个组合信号。

47.根据权利要求46所述的方法，其中将所述读取深度信号与所述等位基因平衡信号组合成单个组合信号包括将所述信号相乘。

48.根据权利要求46所述的方法，其中将所述读取深度信号与所述等位基因平衡信号组合成单个组合信号包括将所述信号相加。

49.根据权利要求46-48中任一项所述的方法，其中所述组合信号是在至少约50,000、100,000、200,000、300,000、400,000、500,000、750,000、1,000,000、50,000,000或100,000,000bp的区域内在多个分箱变异上取平均值得到的。

50.根据权利要求46-49中任一项所述的方法，其中所述组合信号是在不大于约50,000、100,000、200,000、300,000、400,000、500,000、750,000、1,000,000、50,000,000或100,000,000bp的区域内在多个分箱变异上取平均值得到的。

51.根据权利要求46-50中任一项所述的方法，其中所述组合信号是在单体型块上取平均值得到的。

52.根据权利要求51所述的方法，其中通过稀释池测序确定所述单体型块。

53.根据权利要求46-52中任一项所述的方法，其中所述组合信号是在多个箱元上取平均值得到的，所述读取深度信号和/或所述等位基因平衡信号是在所述多个箱元上取平均值得到的。

54.根据权利要求33-53中任一项所述的方法，其中所述第一组一个或多个变异由1个变异组成。

55.根据权利要求33-53中任一项所述的方法，其中所述第一组一个或多个变异包含至少2、3、4、5、10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900或1,000个变异。

56.根据权利要求33-55中任一项所述的方法，其中所述第二组一个或多个变异由1个变异组成。

57.根据权利要求33-53中任一项所述的方法，其中所述第二组一个或多个变异包含至少2、3、4、5、10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900或1,000个变异。

58.根据权利要求33-57中任一项所述的方法，其中所述第一组一个或多个变异与所述第二组一个或多个变异相同。

59.根据权利要求33-58中任一项所述的方法，其中获得所述读取深度信号和/或获得所述等位基因平衡信号包括进行测序。

60.根据权利要求33-59中任一项所述的方法，其中所述读取深度信号和等位基因平衡信号源自相同的测序数据。

61.根据权利要求33-60中任一项所述的方法，其中针对最小读取深度过滤所述读取深度信号和/或所述等位基因平衡信号，任选地其中所述最小读取深度为5、10、15、20或25个读段。

62.根据权利要求33-61中任一项所述的方法，所述方法进一步包括计算基于所述读取深度信号和/或所述等位基因平衡信号准确确定倍性状态的单独概率，或者计算基于所述读取深度信号和所述等位基因平衡信号准确确定倍性状态的联合概率，任选地其中所述概率测量以下一种的概率：真阳性、假阳性、真阴性和假阴性。

63.根据权利要求62所述的方法，其中以下至少一个为真：

a)假阳性的联合概率小于假阳性的两个单独概率；

b)假阴性的联合概率小于假阴性的两个单独概率；

c)真阳性的联合概率大于真阳性的两个单独概率；以及

d)真阴性的联合概率大于真阴性的两个单独概率。

64.根据权利要求33-63中任一项所述的方法，其中所述读取深度信号抵消第一基线信号和/或所述等位基因平衡信号抵消第二基线信号。

65.根据权利要求64所述的方法，其中每个基线信号基于具有已知倍性状态的第二染色体区段的平均信号，任选地其中所述具有已知倍性状态的第二染色体区段与正在确定其倍性状态的染色体区段在同一染色体内。

66.根据权利要求33-65中任一项所述的方法，其中将所述读取深度信号和/或所述等位基因平衡信号针对所述信号内的噪声测量进行归一化，任选地其中所述噪声测量是在正在确定其倍性状态的染色体区段上、在权利要求65的所述第二染色体区段上、在具有与所述第二染色体区段的倍性状态不同的已知目的倍性状态的第三染色体区段上、或在整个染色体上信号的标准偏差或方差。

67.根据权利要求33-66中任一项所述的方法，其中所述读取深度信号的方差和所述等位基因平衡信号的方差在彼此的100、90、80、70、60、50、40、30、20、10、9、8、7、6、5、4、3、2、1.9、1.8、1.7、1.6、1.5、1.4、1.3、1.2或1.1倍内。

68.根据权利要求33-67中任一项所述的方法，其中使用所述读取深度信号与所述等位基因平衡信号的组合导致假阳性率和/或假阴性率相对于单独使用一个或两个所述信号获得的假阳性率和/或假阴性率降低至少约2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100、150、200、250或500倍。

69.根据权利要求33-68中任一项所述的方法，其中使用所述读取深度信号与所述等位基因平衡信号的组合包括选择读取深度阈值和等位基因平衡阈值，任选地其中所述信号阈值各自是在多个已知展现出目的倍性状态(例如，非整倍性)的变异上取平均值的相应信号的平均值的一半。

70.根据权利要求33-69中任一项所述的方法，其中使用所述读取深度信号与所述等位基因平衡信号的组合包括选择组合信号阈值，任选地其中所述组合信号阈值是在多个已知展现出目的倍性状态(例如，非整倍性)的变异上取平均值的组合信号平均值的一半。

71.根据权利要求33-70中任一项所述的方法，其中所述方法导致检测到一条或多条染色体的非整倍性。

72.根据权利要求33-70中任一项所述的方法，其中所述方法导致检测到所分析的所有染色体的整倍性。

73.根据权利要求33-72中任一项所述的方法，其中所述方法导致检测到染色体区段的添加和/或缺失。

74.根据权利要求33-73中任一项所述的方法，其中所述方法导致鉴定出CNV。

75.根据权利要求33-74中任一项所述的方法，其中获得所述等位基因平衡信号包括通过执行根据权利要求1-32中任一项所述的方法来校正原始等位基因平衡信号。

76.根据前述权利要求中任一项所述的方法，其中所述方法包括获得指示倍性状态的信号(例如，所述等位基因平衡信号或所述读取深度信号)，所述信号源自包含对于所述染色体区段具有不同拷贝数的细胞群体的样品，任选地其中一些细胞具有非整倍性，而其他细胞没有。

77.根据前述权利要求中任一项所述的方法，其中所述方法包括获得源自包含一个或多个肿瘤细胞的样品的指示倍性状态的信号(例如，所述等位基因平衡信号或所述读取深度信号)。

78.根据权利要求77所述的方法，其中所述样品还包含非肿瘤细胞。

79.根据前述权利要求中任一项所述的方法，其中所述方法包括获得源自无细胞DNA的指示倍性状态的信号(例如，所述等位基因平衡信号或所述读取深度信号)，任选地其中所述无细胞DNA包括无细胞胎儿DNA(cffDNA)或循环肿瘤DNA(ctDNA)。

80.根据前述权利要求中任一项所述的方法，其中所述方法包括获得源自胚胎的指示倍性状态的信号(例如，所述等位基因平衡信号或所述读取深度信号)，任选地在将所述胚胎植入子宫之前。

81.根据前述权利要求中任一项所述的方法，其中所述方法包括获得源自胎儿的指示倍性状态的信号(例如，所述等位基因平衡信号或所述读取深度信号)。

82.一种检测肿瘤DNA中染色体不稳定性的方法，所述方法包括：

根据权利要求32-81中任一项确定遗传物质样品中的一个或多个染色体区段的倍性状态，所述遗传物质样品至少部分源自来源于已知或疑似是肿瘤细胞的一个或多个细胞的DNA，其中鉴定所述一个或多个染色体区段的非整倍性状态用于指示至少一些肿瘤细胞的染色体不稳定性。

83.根据权利要求82所述的方法，其中所述样品来自被诊断或疑似患有癌症的受试者。

84.根据权利要求82或83所述的方法，其中所述样品包含循环肿瘤DNA。

85.根据权利要求82-84中任一项所述的方法，其中对从中获得所述遗传物质的受试者的正常组织(例如，生殖系组织)的测序用于建立参考遗传密码。

86.根据权利要求82-84中任一项所述的方法，其中对从中获得所述遗传物质的受试者的肿瘤组织的测序用于建立参考遗传密码。

87.根据权利要求82-86中任一项所述的方法，所述方法进一步包括基于是否指示染色体不稳定性来处理所述一个或多个细胞或治疗从中获得针对癌症的所述遗传物质的受试者。

88.根据权利要求87所述的方法，其中所述治疗/处理包括如果指示染色体不稳定性，则向所述一个或多个细胞或所述受试者施用聚ADP核糖聚合酶(PARP)抑制剂。

89.根据权利要求87或88所述的方法，其中所述治疗/处理包括如果指示染色体不稳定性，则向所述一个或多个细胞或所述受试者施用铂基化疗药物。

90.一种检测受试者中从头拷贝数变异(CNV)的方法，所述方法包括根据权利要求32-81中任一项确定染色体区段的倍性状态，其中所述受试者的父母的所述染色体区段是整倍体，任选地其中在所述受试者的所述染色体区段中鉴定出从头非整倍体(例如，CNV)。

91.根据权利要求90所述的方法，其中倍性状态的确定包括将所述倍性状态与从对所述受试者的一个或多个遗传亲属进行的测序得出的参考遗传密码进行比较。

92.根据权利要求91所述的方法，其中所述一个或多个遗传亲属是母亲和/或父亲。

93.根据权利要求91或92所述的方法，其中根据权利要求1-32中任一项，所述测序用非错误传播技术来进行以提供多个读段。

94.根据权利要求91-93中任一项所述的方法，其中所述测序是对细胞DNA进行的。

95.根据权利要求90-94中任一项所述的方法，所述方法进一步包括确定所述受试者的母亲或父亲是否是非整倍性的来源。

96.根据权利要求90-95中任一项所述的方法，其中所述受试者是胚胎。

97.根据权利要求96所述的方法，其中所述方法包括获得指示倍性状态的信号(例如，所述等位基因平衡信号或所述读取深度信号)，所述信号源自胚胎活检物、囊胚腔液和细胞培养基中的一种或多种。

98.根据权利要求97所述的方法，其中所述指示倍性状态的信号是从所述培养基中的无细胞DNA获得的。

99.根据权利要求96-98中任一项所述的方法，所述方法进一步包括基于非整倍性的不存在或存在来选择所述胚胎，任选地其中所述胚胎是从多个胚胎中选择的。

100.根据权利要求99所述的方法，所述方法进一步包括使用所选的胚胎进行体外受精(IVF)。

101.根据权利要求99所述的方法，所述方法进一步包括丢弃所选的胚胎。

102.根据权利要求99所述的方法，所述方法进一步包括冷冻所选的胚胎。

103.根据权利要求90-94中任一项所述的方法，其中所述受试者是胎儿。

104.根据权利要求103所述的方法，其中所述方法包括获得源自无细胞胎儿DNA(cffDNA)的指示倍性状态的信号(例如，所述等位基因平衡信号或所述读取深度信号)。

105.根据权利要求103或104所述的方法，所述方法还包括基于所鉴定的非整倍性(例如，CNV)的不存在或存在来治疗所述胎儿和/或所述母亲。

106.根据权利要求105所述的方法，其中治疗包括对所述胎儿进行另外的测试，任选地其中所述另外的测试包括核型分析。

107.根据权利要求105或106所述的方法，其中所述治疗包括终止妊娠。

108.根据权利要求105-107中任一项所述的方法，其中所述治疗包括对所述胎儿施用针对与检测到的非整倍性(例如，CNV)的存在相关的疾病的产前治疗。

109.一种筛查受试者的疾病的方法，所述方法包括：

确定是否存在与所述疾病相关的一个或多个遗传变异，其中所述一个或多个遗传变异包括通过对一个或多个其他受试者进行权利要求32-81中任一项所述的方法鉴定的非整倍性(例如，CNV)和/或与所述非整倍性存在于相同的单体型块中的SNP，任选地其中已知所述SNP与所述疾病相关。

110.根据权利要求109所述的方法，其中所述一个或多个遗传变异包括所述非整倍性。

111.根据权利要求109或110所述的方法，其中所述一个或多个遗传变异包括所述SNP。

112.根据权利要求109-111中任一项所述的方法，其中所述CNV和SNP处于连锁不平衡。

113.根据权利要求109-112中任一项所述的方法，其中确定是否存在与所述疾病相关的一个或多个遗传变异包括对所述受试者进行测序，任选地其中包含所述一个或多个遗传变异的基因组的一部分被靶向(例如，经由微阵列)。

114.根据权利要求109-113中任一项所述的方法，所述方法进一步包括至少部分地基于所述一个或多个遗传变异来计算所述疾病的多基因风险得分(PRS)。

115.根据权利要求109-114中任一项所述的方法，所述方法进一步包括至少部分地基于所述一个或多个遗传变异的存在或不存在或PRS来诊断所述受试者的疾病，所述PRS至少部分地基于所述一个或多个遗传变异。

116.根据权利要求109-115中任一项所述的方法，所述方法进一步包括基于所述一个或多个遗传变异的存在或不存在来治疗所述受试者。

117.一种在受试者中对生殖系镶嵌变异定相的方法，所述方法包括：

基于所确定的所述两个相位集的相位比对来鉴定包含展现出非整倍性(例如，CNV)的染色体区段的单体型。

118.根据权利要求117所述的方法，其中所述受试者被诊断或疑似患有与所述非整倍性相关的遗传疾病或病症，任选地其中所述受试者被诊断患有或疑似患有努南综合征或RASopathy。

119.根据权利要求117或118所述的方法，所述方法还包括针对所鉴定的单体型筛选来自所述受试者的配子。

120.根据权利要求119所述的方法，所述方法进一步包括选择不具有所鉴定的单体型的配子进行体外受精。

121.根据权利要求117-120中任一项所述的方法，所述方法进一步包括在植入前基因测试期间筛选胚胎中的单体型。

122.根据权利要求121所述的方法，所述方法进一步包括基于所述非整倍性的不存在或存在来选择胚胎，任选地其中所述胚胎是从多个胚胎中选择的。

123.根据权利要求122所述的方法，所述方法进一步包括使用所选的胚胎进行体外受精(IVF)。

124.根据权利要求122所述的方法，所述方法进一步包括丢弃所选的胚胎。

125.根据权利要求122所述的方法，所述方法进一步包括冷冻所选的胚胎。

126.根据权利要求117-125中任一项所述的方法，其中所述非整倍性是通过进行权利要求32-81中任一项所述的方法来鉴定的。