CN115380119A

CN115380119A - 一种检测基因组中的结构重排的方法

Info

Publication number: CN115380119A
Application number: CN202180025844.XA
Authority: CN
Inventors: D·克拉斯; A·洛夫乔伊
Original assignee: F Hoffmann La Roche AG
Current assignee: F Hoffmann La Roche AG
Priority date: 2020-04-03
Filing date: 2021-04-01
Publication date: 2022-11-22
Also published as: US20230183789A1; EP4127225A1; JP2023519979A; WO2021198401A1

Abstract

本发明公开了用于使用重排特异性富集探针或重排特异性扩增引物来检测基因组中的结构重排的方法和组合物。

Description

一种检测基因组中的结构重排的方法

技术领域

本发明涉及核酸测序领域。更具体地，本发明涉及通过测序检测基因组重排的领域。

背景技术

很大比例的癌症基因组存在结构畸变，包括拷贝数扩增(CNA，其中大部分基因组串联重复)、拷贝数缺失(CND，其中大部分基因组被移除)、易位(与其他基因组的其他部分融合)串联重复(其中小于基因的基因组区域被串联重复)或缺失(其中小于基因的区域被删除)。检测这些变异的能力可有助于检测和诊断癌症，跟踪肿瘤负荷随时间的变化，以及为癌症患者确定最佳的个体化治疗。

检测基因组重排的现有方法涉及繁琐的多步骤程序，诸如单倍型融合PCR和连接单倍型，参见Turner等人，(2008)通过单倍型融合PCR和连接单倍型确定长距离、高通量单倍型，Nucl.Acids Res.36:e82。

目前存在用于识别这些结构畸变的基于测序的技术，但通常需要大量测序。由于下一代测序的成本通常是测定成本的主要驱动因素，因此能够以较少的测序识别此类结构畸变将大大降低测定成本并增加患者使用这些诊断工具的机会。

发明内容

本发明是一种使用特别排列的正向和反向引物对检测样品中罕见的基因组重排(诸如融合、缺失或拷贝数扩增)的方法。

在一个实施例中，本发明是一种检测样品中的基因组重排的方法，该方法包括：使含有来自基因组的核酸的样品与一对或多对正向和反向寡核苷酸引物接触，其中在参考基因组中的引物的结合位点是不相邻的或不面向内的，并且其中在包含基因组重排的基因组中的引物的结合位点的位置是相邻的且面向内的以允许使用正向引物和反向引物以指数方式扩增包含重排的核酸，以及以指数方式扩增包含重排的核酸，从而检测重排。该方法可以进一步包括对扩增的核酸进行测序从而检测重排的步骤。相邻可以意味着在细胞基因组DNA中相隔少于2000个碱基对或在无细胞DNA中相隔少于175个碱基对。

在一些实施例中，基因组重排是基因融合，并且正向引物和反向引物的结合位点位于参考基因组中的不同染色体上，但位于在包括基因融合的基因组中的相同染色体上。在一些实施例中，基因组重排是缺失，并且正向引物和反向引物的结合位点在参考基因组中不相邻，但在包含缺失的基因组中相邻。在一些实施例中，基因组重排产生断点序列，并且正向引物和反向引物的结合位点中的一者跨越断点序列。在一些实施例中，基因组重排是扩增，并且正向引物结合位点的拷贝和反向引物结合位点的拷贝中的至少一者在包含扩增的基因组中是面向内的。

在一些实施例中，本发明是一种同时质询样品的一种或多种基因组重排类型的方法，该方法包括：使含有来自基因组的核酸的样品与一对或多对正向寡核苷酸引物和反向寡核苷酸引物接触，其中在参考基因组中的引物的结合位点是不相邻的或不面向内的，并且其中在包含基因组重排的基因组中的引物的结合位点的位置是相邻的且面向内的以允许使用正向引物和反向引物以指数方式扩增包含重排的核酸；以指数方式扩增包括重排的核酸；形成扩增核酸文库；对文库中的核酸进行测序，从而检测样品中的一种或多种基因组重排。在一些实施例中，该方法进一步包括将测序读段与参考基因组比对以确定基因组重排的基因组来源。

在一些实施例中，一对或多对正向和反向寡核苷酸引物包括：对于正向和反向引物中的至少一对，正向引物和反向引物的结合位点位于参考基因组中的不同染色体上，但位于在包括基因融合的基因组中的相同染色体上；对于正向和反向引物中的至少一对，正向引物和反向引物的结合位点中的一者跨越基因组重排的断点序列；并且对于正向和反向引物中的至少一对，正向引物结合位点的拷贝中的一个和反向引物结合位点的拷贝中的一个在包括基因扩增的基因组中是面向内的。

在一些实施例中，重排包括涉及一种或多种选自以下的基因的融合：ALK、PPARG、BRAF、EGFR、FGFR1、FGFR2、FGFR3、MET、NRG1、NTRK1、NTRK2、NTRK3、RET、ROS1、AXL、PDGFRA、PDGFB、ABL1、ABL2、AKT1、AKT2、AKT3、ARHGAP26、BRD3、BRD4、CRLF2、CSF1R、EPOR、ERBB2、ERBB4、ERG、ESR1、ESRRA、ETV1、ETV4、ETV5、ETV6、EWSR1、FGR、IL2RB、INSR、JAK1、JAK2、JAK3、KIT、MAML2、MAST1、MAST2、MSMB、MUSK、MYB、MYC、NOTCH1、NOTCH2、NUMBL、NUT、PDGFRB、PIK3CA、PKN1、PRKCA、PRKCB、PTK2B、RAF1、RARA、RELA、RSPO2、RSPO3、SYK、TERT、TFE3、TFEB、THADA、TMPRSS2、TSLP、TY、BCL2、BCL6、BCR、CAMTA1、CBFB、CCNB3、CCND1、CIC、CRFL2、DUSP22、EPC1、FOXO1、FUS、GLI1、GLIS2、HMGA2、JAZF1、KMT2A、MALT1、MEAF6、MECOM、MKL1、MKL2、MTB、NCOA2、NUP214、NUP98、PAX5、PDGFB、PICALM、PLAG1、RBM15、RUNX1、RUNX1T1、SS18、STAT6、TAF15、TAL1、TCF12、TCF3、TFG、TYK2、USP6、YWHAE、AR、BRCA1、BRCA2、CDKN2A、ERB84、FLT3、KRAS、MDM4、MYBL1、NF1、NOTCH4、NUTM1、PRKACA、PRKACB、PTEN、RAD51B和RB1，以及缺失或涉及选自EGFR、ERBB2、MET、MYC、BCL2和BCL6的一种或多种基因的重复。在一些实施例中，该方法进一步包括使样品与一对或多对对照正向和反向寡核苷酸引物接触，其中在参考基因组中引物的结合位点是相邻的并且不面向内的以允许以指数方式扩增非重排的参考序列。

在一些实施例中，形成文库包括：连接包含条形码的衔接子，并且测序包括确定带标签的文库核酸的序列，通过标签将序列分组为家族，确定每个家族的共有读段，将共有读段与参考基因组比对从而检测基因组重排。

在一些实施例中，本发明是一种检测样品中的基因组重排的方法，该方法包括：形成包括至少一个衔接子的核酸文库；将引物对的第一引物与文库核酸杂交，其中该第一引物在基因组重排的一侧杂交并且还包括捕获部分；延伸杂交的第一引物，从而产生包括基因组重排的序列并进一步包括捕获部分的第一引物延伸复合物，经由捕获部分捕获第一引物延伸产物；将引物对中的第二引物与经捕获的核酸杂交，其中第二引物在重排的基因组中但并不在参考基因组中在相对于第一引物的基因组重排的相反侧上且相邻于第一引物与相反链杂交；形成捕获的重排核酸的拷贝；对重排核酸的拷贝进行测序，从而检测基因组重排。

在一些实施例中，本发明是一种在样品中富集包含基因组重排的序列的方法，该方法包括：将第一引物与样品中的核酸杂交，其中该第一引物在基因组重排中的一侧杂交，并且还包含捕获部分；延伸杂交的第一引物，从而产生包括基因组重排的序列并进一步包括捕获部分的第一引物延伸复合物；经由捕获部分捕获第一引物延伸产物；将第二引物与经捕获的核酸杂交，其中第二引物在重排的基因组中但并不在参考基因组中在相对于第一引物的基因组重排的同一侧上与相同链杂交，并且还包含条形码；延伸杂交的第二引物，从而产生第二引物延伸复合物并置换包括捕获部分的第一引物延伸复合物；将第三引物与第二引物延伸复合物杂交，其中第三引物在重排的基因组中但并不在参考基因组中在相对于第二引物的基因组重排的相反侧上且相邻于第二引物与相反链杂交；延伸第三引物，从而形成包括重排的序列的双链产物，从而富集基因组重排。第一寡核苷酸的捕获部分可以是捕获序列、配体可用的化学部分或抗体可用的抗原。捕获部分是与捕获寡核苷酸互补的捕获序列，其包含提高捕获寡核苷酸解链温度的修饰核苷酸，例如，5-甲基胞嘧啶、2,6-二氨基嘌呤、5-羟基丁炔基-2'-脱氧尿苷、8-氮杂-7-脱氮鸟苷、核糖核苷酸、2'O-甲基核糖核苷酸和锁核酸。在一些实施例中，在第一寡核苷酸与靶核酸杂交之前，第一寡核苷酸经由捕获部分与固体支持物结合。在一些实施例中，该方法还包括对双链产物进行测序，从而检测基因组重排。测序可以包括确定双链核酸和附接的条形码的序列，通过条形码将序列分组为家族，确定每个家族的共有读段，将共有读段与参考基因组比对，从而检测基因组重排。

在一些实施例中，本发明是一种检测样品中RNA转录物结构变异的方法，包括：从样品中获取核酸；使用位于基因组重排位点附近的第一引物将RNA转录物反转录成cDNA链；将第二引物与cDNA链杂交，其中该第二引物在重排的基因组中但并不在参考基因组中在相对于第一引物的基因组重排的相反侧上且相邻于第一引物与相反链杂交，以能够使重排的基因组序列指数扩增，但不能够使参考基因组序列指数扩增；以及扩增该cDNA以产生扩增子，从而检测RNA转录物中的基因组重排。

在一些实施例中，本发明是用于检测样品中的核酸中的基因组重排的方法，包括：将包含来自基因组的核酸的样品分成多个反应体积；其中每个反应体积包含(i)第一引物，其能够在基因组重排的一侧上杂交，(ii)第二引物，其能够在重排的基因组中但并不在参考基因组中在相对于第一引物的基因组重排的相反侧上且相邻于第一引物与相反链杂交，和(iii)可检测地标记的第一探针，其能够与第一引物和第二引物的扩增子杂交；用第一引物和第二引物进行扩增反应，其中该反应包括用探针进行检测的步骤；确定已检测到第一探针的反应体积的数量，从而检测基因组重排。反应体积可以是液滴。在一些实施例中，反应体积进一步包含第三引物，该第三引物能够在参考基因组中但并不在重排的基因组中相对于第一引物且相邻于第一引物与相反链杂交，以及第二可检测地标记的探针，其能够与第一引物和第三引物的扩增子杂交，但不与第一引物和第二引物的扩增子杂交，并且该方法进一步包括确定已检测到第一探针的反应体积与已检测第二探针的反应体积的数量的比率，从而检测基因组重排的频率。在一些实施例中，第一探针与重排的基因组中的序列杂交，但不与参考基因组中的序列杂交。在一些实施例中，第二探针与参考基因组中的序列杂交，但不与重排的基因组中的序列杂交。第一探针和第二探针可以具有不同的可检测标记。标记可以是例如荧光团和猝灭剂的组合。

附图说明

图1是基因组重排侧翼的引物的示意图。

图2是设计用于检测融合事件的引物的示意图。

图3是设计用于检测缺失事件的引物的示意图。

图4是设计用于检测扩增事件的引物的示意图。

图5是通过引物延伸靶富集(PETE)来检测重排的示意图。

具体实施方式

定义

除非另有定义，否则本文所用的科学技术术语具有如本领域的普通技术人员通常理解的相同意义。参见，Sambrook等人.,Molecular Cloning,ALaboratory Manual，第4版，冷泉港实验室出版社(2012)。

提供以下定义以促进对本公开的理解。

术语“衔接子”是指核苷酸序列，可将其加入另一序列中以便赋予该另一序列以另外的元件和性质。另外的元件包括但不限于：条形码、引物结合位点、捕获部分、标记、二级结构。

术语“条形码”是指可被检测和鉴定的核酸序列。条形码通常可以为2个以上且最长可达约50个核苷酸。条形码被设计成与群体中的其他条形码具有至少最小数量的差异。条形码对于样品中的每个分子可以为唯一的，或对样品是唯一的，并且由样品中的多个分子共享。术语“多重标识符”、“MID”或“样品条形码”是指识别样品或样品来源的条形码。就此而言，来自单一来源或样品的所有或基本上所有的MID条形码化的多核苷酸将共享相同序列的MID；而来自不同来源或样品的所有或基本上所有(例如，至少90％或99％)的MID条形码化的多核苷酸将具有不同的MID条形码序列。可以将来自具有不同MID的不同来源的多核苷酸进行混合并进行并行测序，同时保持MID条形码中编码的样品信息。术语“唯一分子标识符”或“UID”是指识别与其附接的多核苷酸的条形码。通常，UID条形码化的多核苷酸混合物中的所有或基本上所有(例如，至少90％或99％)的UID条形码是唯一的。

术语“DNA聚合酶”是指从脱氧核苷酸执行模板导向合成多核苷酸的酶。DNA聚合酶包括原核Pol I、Pol II、Pol III、Pol IV和Pol V，真核DNA聚合酶，古细菌DNA聚合酶、端粒酶和反转录酶。术语“热稳定的聚合酶”是指在通过聚合酶链式反应(PCR)进行的核酸指数扩增中有用的酶，因为该酶是耐热的。热稳定的酶当在高温下经过实现双链核酸变性所需要的时间后，保留足够的活性以实现随后的多核苷酸延伸反应，并且不会不可逆变性(失活)。在一些实施例中，来自物种热球菌属(Thermococcus)、火球菌属(Pyrococcus)、硫化叶菌产甲烷球菌(Sulfolobus Methanococcus)和其他古细菌B聚合酶的热稳定的聚合酶。在一些情况下，核酸(例如DNA或RNA)聚合酶可以是经修饰的天然存在的A型聚合酶。本发明的进一步的实施例通常涉及一种方法，其中例如在引物延伸、端部修饰(例如末端转移酶、降解或补平)或扩增反应中，经修饰的A型聚合酶可以选自以下任何属的任何种：亚栖热菌属(Meiothermus)、热袍菌门(Thermotoga)或嗜热菌属(Thermomicrobium)。本发明的另一实施例通常从属于一种方法，其中例如在引物延伸、端部修饰(例如末端转移酶、降解或补平)或扩增反应中，聚合酶可以从以下任一种分离栖热水生菌(Thermus aquaticus)(Taq)、嗜热栖热菌(Thermus thermophilus)、嗜钙质热菌(Thermus caldophilus)或丝状栖热菌(Thermus filiformis)。本发明的进一步的实施例通常涵盖一种方法，其中例如在引物延伸、端部修饰(例如末端转移酶、降解或补平)或扩增反应中，修饰的A型聚合酶可以从以下分离：嗜热脂肪芽孢杆菌、嗜热球形杆菌(Sphaerobacter thermophilus)、嗜热链球菌(Dictoglomus thermophilum)或大肠杆菌(Escherichia coli)。在另一实施例中，本发明通常涉及一种方法，其中例如在引物延伸、端部修饰(例如末端转移酶、降解或补平)或扩增反应中，修饰的A型聚合酶可以为突变Taq-E507K聚合酶。本发明的另一实施例通常从属于一种方法，其中热稳定的聚合酶可用于引起靶核酸的扩增。

术语“富集”是指增加多个分子中靶分子的相对量。富集可以增加靶分子的相对量，直至完全或几乎完全排除非靶分子。靶核酸富集的示例包括线性杂交捕获、扩增、指数扩增(PCR)和引物延伸靶富集(PETE)，参见例如美国申请序列号14/910,237、15/228,806、15/648,146和国际申请序列号PCT/EP2018/085727。

术语“核酸”或“多核苷酸”是指单链形式或双链形式的脱氧核糖核酸(DNA)或核糖核酸(RNA)及其聚合物。除非特别限定，否则该术语涵盖包含天然核苷酸的已知类似物的核酸，该天然核苷酸具有与参考核酸相似的结合特性并且以与天然存在的核苷酸相似的方式进行代谢。除非另外指出，否则特定的核酸序列还隐含地涵盖其保守修饰的变体(例如，简并密码子替换)、等位基因、同源基因序、SNP和互补序列，以及明确指出的序列。

术语“引物”是指与单链模板核酸分子的特定区结合并经由聚合酶介导的酶促反应启动核酸合成的寡核苷酸。通常，引物包括少于约100个核苷酸，且优选包括少于约30个核苷酸。靶标特异性引物在杂交条件下与靶标多核苷酸特异性杂交。此类杂交条件可包括但不限于在等温扩增缓冲液中(20mM的Tris-HCl，10mM的(NH₄)₂SO₄)、50mM的KCl、2mM的MgSO₄、0.1％的

20、25℃下pH为8.8)在约40℃至约70℃的温度下进行杂交。除了靶标结合区域外，引物可以具有附加区域，通常位于5'-部分。附加区域可以包括通用引物结合位点或条形码。为了发生指数扩增，引物必须是向内的，即与靶核酸的相反链杂交，且3'端彼此面对。这种扩增引物的取向有时称为“正确取向”。进一步地，为了发生指数扩增，引物在相距于彼此合适的距离内与靶核酸杂交。在标准PCR条件下，与相距超过2000个碱基对的相反链杂交的引物不会产生足够量的产物。对于cfDNA样品，典型的片段大小相距175个碱基对，因此与相距超过175个碱基对的相反链杂交的引物通常不会产生扩增产物。

术语“参考基因组”和“参考基因组序列”是指向公众发布并由国家生物技术信息中心(NCBI)定期更新的整个人类基因组序列(“基因组版本”)，目前版本GRCh38。参考基因组可通过染色体位置和序列进行搜索，以能够比较来自单个样品的序列并鉴定样品中的任何序列变化。

术语“重排的基因组”是指当与参考基因组相比时包含一个或多个重排的基因组。可以理解，重排的基因组还在不参与重排的其他基因座处包含非重排序列。重排的基因组中的此类基因座具有与相对应的参考基因组基因座相同的序列。术语“重排的基因组序列”是指重排的基因组中的重排序列。

术语“基因组重排”是指基因组序列与参考基因组相比的变化。重排是涉及超过几个核苷酸的变化。基因组重排的示例包括拷贝数扩增(CNA，其中大部分基因组串联地重复)、拷贝数缺失(CND，其中大部分基因组被去除)、易位(与基因组的其他部分融合)串联重复(其中小于基因的基因组区经串联地拷贝)或缺失(其中小于基因的区缺失)。总之，单核苷酸变异(SNV)不是基因组重排。

术语“样品”是指包括核酸分子的任何生物样品，通常包括DNA或RNA。样品可以是组织、细胞或其提取物，或者可以是核酸分子的纯化样品。术语“样品”是指任何含有或假定含有靶核酸的组合物。使用术语“样品”并不一定意味着在存在于样品中的核酸分子中存在靶标序列。该样品可以为包括从个体分离的组织或液体的样本，例如，皮肤、血浆、血清、脊髓液、淋巴液、滑液、尿液、泪液、血液细胞、器官和肿瘤，也指从取自个体的细胞建立的体外培养物的样品，包括福尔马林固定石蜡包埋组织(FFPET)和自其分离的核酸。样品也可包括不含细胞的材料，诸如含有无细胞DNA(cfDNA)或循环肿瘤DNA(ctDNA)的不含细胞的血液级分(fraction)。样品可以从非人类受试者或从环境中收集。

术语“靶标”或“靶标核酸”是指样品中的目标核酸。样品可能包含多个靶标以及每个靶标的多个拷贝。

术语“通用引物”是指可以与通用引物结合位点杂交的引物。通用引物结合位点可以是通常以非靶标特异性方式添加到靶标序列的天然或人工序列。

本发明是利用基于扩增子的方法检测基因组重排(也称为基因组中的结构畸变)的方法。该方法允许以最小的测序深度检测基因组重排。在发生诸如基因组重排之类的结构畸变的任何时候，重排的基因组中至少存在一个断点。断点是通常不相邻的基因组区在该处变为相邻的点。本发明是一种检测基因组重排的方法，该方法能够扩增和检测与基因组重排相关的此类断点。本发明的方法经设计为与利用至少一种正向引物和至少一种反向引物的任何双引物扩增方法一起工作。此类方法的示例包括聚合酶链反应(PCR)和引物延伸靶富集(PETE)。

正向引物和反向引物围绕拷贝数扩增、拷贝数缺失、融合、串联重复或大缺失的潜在区设计。在没有基因组重排的情况下，正向和反向引物彼此不相邻或取向不正确，并且不能支持扩增，因此不会产生扩增子。在存在基因组重排的情况下，正向和保留引物能够形成可被检测的扩增子，从而检测重排。

本发明利用含有核酸的样品。在一些实施例中，该样品获自受试者或患者。在一些实施例中，该样品可包括例如通过活检而获自该受试者或患者的固体组织或实体肿瘤的片段。所述样品还可包括体液(例如尿液、痰、血清、血浆或淋巴、唾液、痰、汗液、泪液、脑脊液、羊水、滑液、心包液、腹膜液、胸膜液、囊液、胆汁、胃液、肠液或粪便样品)。样品可以包括全血或其中可能存在正常细胞或肿瘤细胞的血液级分。在一些实施例中，该样品，特别是液体样品可包含无细胞材料，诸如无细胞DNA或RNA，包括无细胞胎儿DNA或胎儿RNA的无细胞肿瘤DNA或肿瘤RNA。在一些实施例中，该样品是无细胞样品，例如，存在无细胞肿瘤DNA或肿瘤RNA或无细胞胎儿DNA或胎儿RNA的无细胞血源性样品。在其他实施例中，样品是培养样品，例如，培养物或者含有或疑似含有来源于培养物中的细胞或培养物中存在的感染源的核酸的培养物上清液。在一些实施例中，该感染源为细菌、原生动物、真菌、病毒或支原体。

靶标核酸是样品中可能存在的目标核酸。每个靶标的特征在于其核酸序列。本发明能够检测一种或多种RNA和DNA靶。在一些实施例中，DNA靶标核酸是基因或基因片段(包括外显子和内含子)或基因间区域，并且RNA靶标核酸是靶标特异性引物与之杂交的转录本或转录本的一部分。在一些实施例中，该靶标核酸包括遗传性变体的基因座，例如，多态性，包括单核苷酸多态性或变型(SNV的SNP)，或导致例如基因融合的基因重排。在一些实施例中，靶标核酸包括生物标志物，即基因，该基因的变体与疾病或病症相关。例如，靶核酸可以选自于2015年9月10日递交的美国专利申请序列号14/774,518中描述的疾病相关标志物组合。此类组合可作为AVENIO ctDNA分析试剂盒(Roche Sequencing Solutions,Pleasanton,Cal.)获得。特别感兴趣的是已知在肿瘤中发生重排的基因。例如，已知ALK、RET、ROS、FGFR2、FGFR3和NTRK1会发生融合，导致异常活跃的激酶表型。EGFR、ERBB2、MET、MYC、BCL2和BCL6是已知参与涉及拷贝数变化的重排的基因。(Li等人Nature 2020，Hieronymus等人eLife 2017)。已知或预期进行与癌症相关的融合的基因包括ALK、PPARG、BRAF、EGFR、FGFR1、FGFR2、FGFR3、MET、NRG1、NTRK1、NTRK2、NTRK3、RET、ROS1、AXL、PDGFRA、PDGFB、ABL1、ABL2、AKT1、AKT2、AKT3、ARHGAP26、BRD3、BRD4、CRLF2、CSF1R、EPOR、ERBB2、ERBB4、ERG、ESR1、ESRRA、ETV1、ETV4、ETV5、ETV6、EWSR1、FGR、IL2RB、INSR、JAK1、JAK2、JAK3、KIT、MAML2、MAST1、MAST2、MSMB、MUSK、MYB、MYC、NOTCH1、NOTCH2、NUMBL、NUT、PDGFRB、PIK3CA、PKN1、PRKCA、PRKCB、PTK2B、RAF1、RARA、RELA、RSPO2、RSPO3、SYK、TERT、TFE3、TFEB、THADA、TMPRSS2、TSLP、TY、BCL2、BCL6、BCR、CAMTA1、CBFB、CCNB3、CCND1、CIC、CRFL2、DUSP22、EPC1、FOXO1、FUS、GLI1、GLIS2、HMGA2、JAZF1、KMT2A、MALT1、MEAF6、MECOM、MKL1、MKL2、MTB、NCOA2、NUP214、NUP98、PAX5、PDGFB、PICALM、PLAG1、RBM15、RUNX1、RUNX1T1、SS18、STAT6、TAF15、TAL1、TCF12、TCF3、TFG、TYK2、USP6、YWHAE、AR、BRCA1、BRCA2、CDKN2A、ERB84、FLT3、KRAS、MDM4、MYBL1、NF1、NOTCH4、NUTM1、PRKACA、PRKACB、PTEN、RAD51B和RB1。

在一些实施例中，靶标核酸是RNA(包括mRNA、微小RNA、病毒RNA)。在此类实施例中，如下文进一步讨论的，采用逆转录步骤。在其他实施例中，靶核酸是DNA，包括细胞DNA或无细胞DNA(cfDNA)，包括循环肿瘤DNA(ctDNA)和无细胞胎儿DNA。靶标核酸可以以短形式或长形式存在。在一些实施例中，较长的靶核酸通过如下所述的酶促或物理处理而片段化。在一些实施例中，靶核酸是天然片段化的，例如，包括循环无细胞DNA(cfDNA)或化学降解的DNA，诸如在化学保存的或古代样品中发现的一种。

在一些实施例中，本发明包括核酸分离步骤。通常，任何产生包含DNA或RNA的分离的核酸的核酸提取方法都可以用作适合用于本发明方法的长核酸起始材料和短核酸起始材料两者。可以使用基于溶液或基于固相的核酸提取技术从组织、细胞、液体活检样品(包括血液或血浆样品)提取基因组DNA或RNA。核酸提取可包含基于洗涤剂的细胞裂解、核蛋白质变性，以及任选地去除污染物。从保藏样品中提取核酸还可以包括脱蜡步骤。基于溶液的核酸提取方法可以包括盐析法、或者有机溶剂或离液剂法。固相核酸提取方法可以包括但不限于二氧化硅树脂法、阴离子交换法或磁性玻璃颗粒和顺磁珠(KAPA纯珠、罗氏测序解决方案公司，普莱森顿，加州)或AMPure珠(贝克曼库尔特，布雷亚市，加州。)

典型的提取方法包含裂解样品中存在的组织材料和细胞。从裂解的细胞中释放的核酸可以与存在于溶液或柱或膜中的固体支持物(珠或颗粒)结合，其中核酸可以经历一个或多个洗涤步骤以从样品中去除包括蛋白质、脂质及其片段在内的污染物。最后，结合的核酸可以从固体支持物、柱或膜中释放，并存储在相应的缓冲液中直到准备进一步处理。因为必须分离DNA和RNA，所以不可以使用核酸酶，在纯化过程中应当注意抑制任何核酸酶活性。

在一些实施例中，核酸分离利用如2019年10月14日提交的PCT/EP2019/077714和2018年11月13日提交的PCT/EP2018/081049中所述的加速电泳(ETP)。ETP利用具有圆形电极排列的装置，其中核酸在前导电解质和尾随电解质之间迁移并浓缩。圆形配置允许将核酸浓缩在装置中心收集的非常小的体积中。ETP的使用对于在大体积中含有少量无细胞核酸的血浆样品特别有利。

在一些实施例中，输入DNA或输入RNA需要进行片段化。在此类实施例中，RNA可以通过热和例如镁的金属离子组合来片段化。在一些实施例中，在镁存在下将样品加热至85°-94℃持续1-6分钟。(KAPA RNA HyperPrep试剂盒，KAPA生物，威尔明顿，马萨诸塞州)。DNA可以通过以下进行片段化：物理手段(例如超声)，使用可商业获得的仪器(Covaris,Woburn.马萨诸塞州)或酶的手段(KAPA片段化酶试剂盒，KAPA生物)。

在一些实施例中，分离的核酸用DNA修复酶处理。在一些实施例中，DNA修复酶包括具有5'-3'聚合酶活性和3'-5'单链核酸外切酶活性的DNA聚合酶、将5'磷酸盐添加到dsDNA分子的多核苷酸激酶以及在dsDNA分子的3'末端添加单个dA碱基的DNA聚合酶。末端修复/A加尾试剂盒是可获得的，例如Kapa文库制备、包括KAPA Hyper Prep和KAPA HyperPlus(Kapa生物，威明顿市，马萨诸塞州)的试剂盒。

在一些实施例中，DNA修复酶靶向分离的核酸中的受损碱基。在一些实施例中，样品核酸是来自保藏样品(例如福尔马林固定石蜡包埋(FFPET)样品)的部分地受损的DNA。碱基的脱氨和氧化可导致测序过程中的碱基读段错误。在一些实施例，用尿嘧啶N-DNA糖基化酶(UNG/UDG)和/或8-氧代鸟嘌呤DNA糖基化酶处理受损DNA。

在一些实施例中，靶核酸是RNA，例如来自样品的信使RNA(mRNA)。在该实施例中，使用关于包括来自样品的双链DNA的DNA所描述的方法，除了该方法包括逆转录的初步步骤。在一些实施例中，逆转录由与预期存在于mRNA中的重排位点附近的RNA退火的基因特异性引物启动。在其他实施例中，逆转录由poly-T引物启动。在又一些实施例中，逆转录由随机引物(例如随机六聚体引物)启动。在又一些实施例中，逆转录由包含poly-T序列和随机序列的组合引物启动。

在一些实施例中，本发明包括扩增步骤。分离的核酸可以在进一步处理之前进行扩增。该步骤可能涉及线性或指数扩增。扩增可以是等温的或涉及热循环。在一些实施例中，扩增是指数的并且涉及PCR。在一些实施例中，基因特异性引物用于扩增。在其他实施例中，将通用引物结合位点添加至靶核酸，例如，通过连接包含该通用引物结合位点的衔接子。所有经衔接子连接的核酸具有相同的通用引物结合位点并且可以用同一组引物进行扩增。使用通用引物的扩增循环的数量可以较低，但也可以为10个、20个或高达约30个或更多个循环，这取决于后续步骤所需的产物量。由于使用通用引物的PCR降低了序列偏倚，因此无需为了避免扩增偏倚而限制扩增循环数。

在一些实施例中，本发明涉及利用正向引物和反向引物的扩增步骤。正向引物和反向引物中的一者或两者可以是靶特异性的。靶特异性引物包含与靶核酸互补的至少一部分。如果存在另外的序列，诸如条形码或第二引物结合位点，它们通常位于该引物的5'部分。靶可以是基因序列(编码或非编码)或存在于RNA中的调控序列，诸如增强子或启动子。靶也可以是基因间序列。

在一些实施例中，扩增不是重排特异性步骤，而是用于增加(扩增)起始材料或重排特异性扩增的最终产物的量。在此类实施例中，扩增引物或者是靶特异性的但不是重排特异性的。例如，引物是通用的，例如，可以扩增样品中的所有核酸，而不管靶序列如何，只要已将通用引物结合位点引入该核酸中即可。通过延伸在引物的5'区具有通用引物结合位点的引物或通过连接包含通用引物结合位点的衔接子，通用引物与添加到样品中核酸的通用引物结合位点退火。

在本发明的上下文中，重排特异性靶特异性引物位于基因组重排断点附近，如下文进一步描述。为了发生指数扩增，引物必须彼此相距合适的距离并且面对相反方向，例如，与靶核酸的相反链杂交，其中3'端彼此面对并且能够延伸至拷贝正向引物结合位点与反向引物结合位点之间的序列。如果正向引物与反向引物之间的距离超过2000个碱基，则聚合酶链式反应(PCR)的指数扩增效率不高。此外，如果引物之间的距离超过样品中DNA分子的平均大小(例如约175bp是cfDNA分子的典型大小)，指数扩增将不会成功。在本发明的上下文中，正向引物和反向引物经设计为使得有效的指数扩增仅在靶序列中存在基因组重排的情况下发生。在不存在预测的基因组重排的情况下，扩增不会发生或效率低下以至于低于检测水平或产生与有效扩增的信号明显可区分的信号。

在一些实施例中，引物是平铺的。代替仅一个正向引物和一个反向引物，使用一系列串联排列的正向引物和一系列串联排列的反向引物。在一些实施例中，单个正向引物与一系列平铺的反向引物配对。在其他实施例中，单个反向引物与一系列平铺的正向引物配对。在又一些实施例中，一系列平铺的反向引物与一系列平铺的正向引物配对。(图1、2或3)。在断点的确切位置未知的情况下，平铺的引物配置特别有利。例如，已知某些基因(ALK、ROS和NTRK1)参与多个融合事件，每个基因在基因序列中都有不同的断点。

在一些实施例中，本发明是针对如本文所述的重排特异性核酸进行富集的核酸文库。该文库包含两侧为本文所述的衔接子序列的双链核酸分子。文库核酸可以包含元件，诸如存在于衔接子序列中的条形码和通用引物结合位点，如下文所述。在一些实施例中，另外的元件存在于衔接子中并经由衔接子连接而添加到文库核酸中。在其他实施例中，一些或所有另外的元件存在于扩增引物中并且在衔接子连接之前通过引物的延伸被添加到文库核酸中。例如，美国专利号9476095、9260753、8822150、8563478、7741463、8182989和8053192中描述了衔接子和扩增引物用于将另外的元件引入待测序的核酸文库中的效用。

在一些实施例中，文库是在使用本文所述的重排特异性引物之前由样品中的核酸形成的。在该实施例中，衔接子分子被添加到样品中的所有核酸中。重排特异性富集使用文库分子作为起始材料。在一些实施例中，通用扩增(使用与位于衔接子中的引物结合位点杂交的通用引物)发生在重排特异性扩增或富集之前。通用扩增增加了用于重排特异性扩增或富集的起始材料的量。

在其他实施例中，文库由如本文所述执行的重排特异性富集的产物形成。在该实施例的变体中，通过衔接子的连接或通过存在于重排特异性引物的5'部分中的衔接子序列，将衔接子序列添加到重排特异性富集的产物中。在一些实施例中，使用重排特异性引物的重排特异性扩增之后是使用通用引物的通用扩增。

在一些实施例中，本发明利用衔接子核酸。衔接子可以通过平端连接或粘性端部连接添加到核酸中。在一些实施例中，可以通过单链连接方法添加衔接子。在一些实施例中，衔接子分子为在体外合成的人工序列。在其他实施例中，衔接子分子是在体外合成的天然存在的序列。在又一些实施例中，衔接子分子为分离的天然存在的分子或分离的非天然存在的分子。

在通过连接添加衔接子的情况下，衔接子寡核苷酸可以在末端具有突出部或平端以与靶核酸连接。在一些实施例中，衔接子包括平端，靶核酸的平端连接可以应用到该平端。靶核酸可以是平端的或可以通过酶处理(例如，“端修复”)而被赋予平端。在其他实施例中，平端DNA经历A加尾，其中单个A核苷酸被添加到一个或两个平端的3'端。本文所述的衔接子被制成具有从平端延伸的单个T核苷酸以促进核酸与衔接子之间的连接。用于进行衔接子连接的可商购试剂盒包括AVENIO ctDNA文库制备试剂盒或KAPA HyperPrep和HyperPlus试剂盒(Roche Sequencing Solutions,Pleasanton,Cal.)。在一些实施例中，衔接子连接的DNA可以从过量的衔接子和未连接的DNA分离。

衔接子可以进一步包含诸如通用引物结合位点(包括测序引物结合位点)、条形码序列(包括样品条形码(SID)或独特的分子条形码或标识符(UID或UMI))的特征。在一些实施例中，衔接子包含所有上述特征，而在其他实施例中，一些特征是在衔接子连接后通过延伸含有上述一些元件的加尾引物而添加的。

衔接子可以进一步包含捕获部分。捕获部分可以是能够与另一捕获分子特异性地相互作用的任何部分。捕获部分-捕获分子对包括亲和素(链霉亲和素)-生物素、抗原-抗体、磁性(顺磁性)颗粒-磁体或寡核苷酸-互补寡核苷酸。捕获分子可以与固体支持物结合，使得其上存在捕获部分的任何核酸被捕获在固体支持物上并与样品或反应混合物的其余部分分离。在一些实施例中，捕获分子包含用于第二捕获分子的捕获部分。例如，衔接子中的捕获部分可以是与捕获寡核苷酸互补的核酸序列。捕获寡核苷酸可以经生物素化，使得经衔接的核酸-捕获寡核苷酸杂交体可以被捕获在链霉亲和素珠上。

在一些实施例中，经由捕获该捕获部分并将衔接子连接的靶核酸与样品中未连接的核酸分离来富集衔接子连接的核酸。

在一些实施例中，衔接子的茎部分包括提高捕获寡核苷酸解链温度的修饰核苷酸，例如，5-甲基胞嘧啶、2,6-二氨基嘌呤、5-羟基丁炔基-2'-脱氧尿苷、8-氮杂-7-脱氮鸟苷、核糖核苷酸、2'O-甲基核糖核苷酸或锁核酸。在另一方面，捕获寡核苷酸经修饰以抑制由核酸酶(例如，硫代磷酸核苷酸)进行的消化。

在一些实施例中，本发明利用条形码。检测单个分子通常需要分子条形码，诸如美国专利号7,393,665、8,168,385、8,481,292、8,685,678和8,722,368中所描述的。唯一分子条形码是短人工序列，其通常在体外操作的最初步骤中添加到患者样品中的每个分子上。所述条形码标记了分子及其子代。所述唯一分子条形码(UID)有多种用途。条形码允许跟踪样品中的每个单个核酸分子，以评估例如患者的血液中循环肿瘤DNA(ctDNA)分子的存在和数量，以便在不进行活检的情况下检测和监测癌症(Newman,A.,等人.,(2014)Anultrasensitive method for quantitating circulating tumor DNA with broadpatient coverage,Nature Medicine doi:10.1038/nm.3519)。

条形码可以是在样品被混合(多重化)的情况下用于鉴定样品来源的多重样品ID(MID)。条形码也可以作为唯一的分子ID(UID)，用于鉴定每个原始分子及其子代。条形码也可以是UID和MID的组合。在一些实施例中，将单个条形码用作UID和MID。在一些实施例中，每个条形码包括预定义序列。在其他实施例中，条形码包括随机序列。在本发明的一些实施例中，条形码的长度在约4-20个碱基之间，从而将96个到384个不同的衔接子添加到人类基因组样品中，每个衔接子具有不同的相同条形码对。普通技术人员会认识到条形码的数量取决于样品的复杂性(即，唯一靶标分子的预期数量)，并且将能够为每个实验创建合适数量的条形码。

唯一分子条形码也可用于分子计数和测序纠错。单个靶分子的整个子代都用相同的条形码标记，并形成条形码家族。不被带条形码家族的所有成员共享的序列变异被作为伪像丢弃而不是真突变。条形码还可用于位置去重(positional deduplication)和靶标量化，因为整个家族代表原始样品中的单个分子(Newman,A.,等人.,(2016)Integrateddigital error suppression for improved detection of circulating tumor DNA,Nature Biotechnology 34:547)。

在一些实施例中，多个衔接子或含有条形码的引物中的UID数量可能超过多个核酸中的核酸数量。在一些实施例中，多个核酸中的核酸数量超过多个衔接子中的UID数量。

在一些实施例中，本发明包括中间的纯化步骤。例如，去除未使用的寡核苷酸诸如过量的引物和过量的衔接子，例如通过选自凝胶电泳、亲和层析、和尺寸排阻层析的尺寸选择法。在一些实施例中，可以使用来自贝克曼库尔特(布雷亚市，加州)的固相可逆固定化(SPRI)来执行尺寸选择。在一些实施例中，捕获部分用于从未连接的核酸捕获并分离衔接子连接的核酸或从指数扩增产物捕获并分离过量的引物。

本发明是一种使用正向引物和反向引物对来检测样品中基因组重排的方法。该方法包括同时质询样品中超过一种的基因组重排，包括样品中超过一种类型的基因组重排。

参考图1，本发明利用一对或多对正向和反向寡核苷酸引物，其中如果存在重排，则引物的取向或接近能够扩增间插序列，但如果不存在重排，则不允许扩增。

参考图2，重排是基因融合。在图A中，说明了参考基因组序列，正向引物和反向引物以正确的取向与相反链退火，但彼此不接近(在同一染色体上太远或在不同的染色体上。在重排的基因组序列中，正向引物和反向引物与正确取向且彼此接近的位点退火，并因此能够扩增间插序列。在图B中，说明了参考基因组序列，正向引物和反向引物与相反链退火，但取向不正确，且可能彼此接近，也可能不接近。在重排的基因组序列中，正向引物和反向引物与正确取向且彼此接近的位点退火，并因此能够扩增间插序列。在图C中，说明了参考基因组序列，正向引物和反向引物与相同的(+)链退火，并且可能彼此接近，也可能不接近。在重排的基因组序列中，正向引物和反向引物在相反链上与正确取向且彼此接近的位点退火，并因此能够扩增间插序列。在图D中，说明了参考基因组序列，正向引物和反向引物与相同的(-)链退火，并且可能彼此接近，也可能不接近。在重排的基因组序列中，正向引物和反向引物在相反链上与正确取向且彼此接近的位点退火，并因此能够扩增间插序列。

在一些实施例中(例如，ALK、ROS或NTRK1基因的融合)，确切的融合配偶体是未知的。在这些情况下，设计一个引物或一系列平铺引物以与多个融合候选物杂交。只有与实际参与基因融合的融合候选物杂交的引物才能扩增融合断点序列。与其他融合候选物退火的引物无一会产生扩增子。

参考图3，重排是缺失。在图3中，说明了参考基因组序列，正向引物和反向引物以正确取向与相反链退火，但彼此不接近。在重排的基因组序列中，缺失使正向引物位点与反向引物位点彼此接近，从而能够扩增间插序列。在该实施例中，可以使用一对对照正向引物和反向引物。该对对照正向引物和反向引物中的至少一者与参考基因组中的位点退火，该位点位于重排的基因组的缺失区内。间插序列的扩增在参考基因组中启用，但在重排的基因组中不启用。在一些实施例中，对照正向引物和反向引物与基因组中不太可能参与拷贝数变化(诸如缺失或扩增)的位点退火。

值得注意的是，图3所示的方法适用于检测各种大小的缺失。考虑缺失区的大小并放置引物，以使其在参考基因组中相距太远而无法扩增间插序列。

参考图4，重排是重复或更高阶的基因扩增。在图4上图中，说明了参考基因组序列，正向引物和反向引物与相反链退火，但取向不正确。在重排的基因组中(图4，下图)，串联复制(或更高阶的扩增)事件将至少一对正向引物位点和反向引物位点带至正确的取向，以使间插序列能够扩增。值得注意的是，图4所示的方法适用于检测各种大小的重复。考虑预期的重复(或更高阶的扩增)的大小并放置引物，使得在没有重排的情况下，它们的取向错误且相距太远而无法经由PCR进行扩增，但在存在基因复制(或更高阶的扩增)的情况下，至少一对正向引物和反向引物处于正确取向并且间隔足够近以能够进行扩增。

该方法进一步包括，在用重排特异性正向引物和反向引物对进行指数扩增后，形成扩增的核酸文库并对文库中的核酸进行测序，从而检测样品中的一种或多种基因组重排。

在一些实施例中，该方法是多路复用的，这意味着重排特异性正向引物和反向引物对包括如图2、3和4所示定位的多个引物对。多个引物对包括检测一种或多种基因融合的一对或多对、检测一种或多种基因缺失的一对或多对和检测一种或多种基因扩增的一对或多对。例如，相同的反应混合物可能含有靶向涉及ALK、PPARG、BRAF、EGFR、FGFR1、FGFR2、FGFR3、MET、NRG1、NTRK1、NTRK2、NTRK3、RET、ROS1、AXL、PDGFRA、PDGFB、ABL1、ABL2、AKT1、AKT2、AKT3、ARHGAP26、BRD3、BRD4、CRLF2、CSF1R、EPOR、ERBB2、ERBB4、ERG、ESR1、ESRRA、ETV1、ETV4、ETV5、ETV6、EWSR1、FGR、IL2RB、INSR、JAK1、JAK2、JAK3、KIT、MAML2、MAST1、MAST2、MSMB、MUSK、MYB、MYC、NOTCH1、NOTCH2、NUMBL、NUT、PDGFRB、PIK3CA、PKN1、PRKCA、PRKCB、PTK2B、RAF1、RARA、RELA、RSPO2、RSPO3、SYK、TERT、TFE3、TFEB、THADA、TMPRSS2、TSLP、TY、BCL2、BCL6、BCR、CAMTA1、CBFB、CCNB3、CCND1、CIC、CRFL2、DUSP22、EPC1、FOXO1、FUS、GLI1、GLIS2、HMGA2、JAZF1、KMT2A、MALT1、MEAF6、MECOM、MKL1、MKL2、MTB、NCOA2、NUP214、NUP98、PAX5、PDGFB、PICALM、PLAG1、RBM15、RUNX1、RUNX1T1、SS18、STAT6、TAF15、TAL1、TCF12、TCF3、TFG、TYK2、USP6、YWHAE、AR、BRCA1、BRCA2、CDKN2A、ERB84、FLT3、KRAS、MDM4、MYBL1、NF1、NOTCH4、NUTM1、PRKACA、PRKACB、PTEN、RAD51B和RB1中的每一个的融合的引物对。

在一些实施例中，正向引物和反向引物经设计为适应短输入核酸。例如，包括循环肿瘤DNA(ctDNA)在内的无细胞DNA平均长度为175bp。正向引物和反向引物或平铺的正向引物系列和平铺的反向引物系列被放置成在最里面的3'端之间具有不超过约50个碱基。

在一些实施例中，本发明是一种通过引物延伸靶富集(PETE)方法富集含有基因组重排的序列的方法。已经描述了多个版本的PETE，参见美国申请系列号14/910,237、15/228,806、15/648,146和国际申请系列号PCT/EP2018/085727。简而言之，引物延伸靶富集(PETE)涉及用包含捕获部分的第一靶特异性引物捕获核酸并捕获该捕获部分，从而富集靶核酸。任何另外的靶特异性或衔接子特异性引物与富集的靶核酸杂交。在其他实施例中，PETE涉及通过与包含捕获部分的第一引物杂交并延伸并且捕获该捕获部分从而富集靶核酸来捕获核酸，然后在将第二靶特异性引物与捕获的核酸杂交时，延伸第二靶特异性引物从而置换第一靶特异性引物的延伸产物并保留与第二引物延伸产物杂交的进一步富集的靶核酸。

参考图5，本发明的一个实施例利用PETE。该方法涉及将在基因组重排(R)的一侧上杂交的第一靶特异性引物与样品中的核酸杂交。(图5，步骤1)第一引物包含捕获部分，例如生物素。接下来，将第一引物延伸，并且经由该捕获部分来捕获杂交的第一引物延伸产物(或更早，杂交的第一引物)。第一引物延伸产物跨越重排(R)的位点(图5，步骤2)。

第一引物上的捕获部分可以选自捕获序列、配体可用的化学部分(例如生物素)或抗体可用的抗原。捕获序列可能位于第一引物的5'部分。它是与捕获寡核苷酸互补的序列。为了改进捕获，捕获寡核苷酸可以包含经修饰的核苷酸，从而增加捕获寡核苷酸与第一引物中的捕获序列之间的杂交体的解链温度。经修饰的核苷酸选自5-甲基胞嘧啶、2,6-二氨基嘌呤、5-羟基丁炔基-2'-脱氧尿苷、8-氮杂-7-脱氮鸟苷、核糖核苷酸、2'O-甲基核糖核苷酸和锁核酸。

在将第一寡核苷酸与靶核酸杂交之前，第一引物经由捕获部分与固体支持物(例如，磁性聚合物包被的颗粒)结合，从而在固体支持物上形成第一引物延伸复合物。

接下来，第二靶特异性引物在基因组重排的与第一引物相同的一侧上与靶核酸的相同链杂交。(图5，步骤3)。第二引物可以包含核酸条形码或任何其他辅助序列，诸如通用引物结合位点。将第二引物延伸，从而产生第二引物延伸复合物并置换第一引物延伸产物。第二引物延伸产物也跨越重排(R)的位点(图5，步骤4)。接下来，第三引物与基因组重排相反侧上的第二引物延伸产物杂交(图5，步骤5)。第三引物根据本公开设计为在重排的基因组中但并不在参考基因组中与适合指数扩增的位置杂交。如果存在基因组重排，则第三引物和第二引物引导包含重排位点的序列的指数扩增(图5，步骤6)。在一些实施例中，使用在重排的与第二引物相同一侧上与第二引物延伸产物杂交的等效引物来代替第二引物。

在一些实施例中，对通过靶富集过程获得的经扩增的重排特异性核酸进行测序以确定或确认重排的序列。

可以对如本文所述形成的核酸和核酸文库或其扩增子进行核酸测序。测序可通过本领域已知的任何方法实施。尤其有利的是利用纳米孔的高通量单分子测序方法。在一些实施例中，如本文所述形成的核酸和核酸文库通过涉及穿过生物纳米孔(US10337060)或固态纳米孔(US10288599、US20180038001、US10364507)的方法进行测序。在其他实施例中，测序涉及将标签穿过纳米孔。(US8461854)或利用纳米孔的任何其他现有或未来DNA测序技术。

其他适合的高通量单分子测序技术。包括依诺米那(Illumina)HiSeq平台(Illumina,San Diego,Cal.)、离子激流(Ion Torrent)平台(Life Technologies,GrandIsland,NY)、利用单分子实时(SMRT)的太平洋生物科学(Pacific BioSciences)平台(Pacific Biosciences,Menlo Park,Cal.)或者利用纳米孔技术的平台诸如牛津纳米孔技术(Oxford Nanopore Technologies)(Oxford,UK)或罗氏测序解决方案(RocheSequencing Solutions)(Santa Clara,Cal.)制造的那些平台，和任何其他现有或未来DNA测序技术，该技术涉及或不涉及通过合成进行测序。测序步骤可利用平台特异性测序引物。可以将这些引物的结合位点引入扩增步骤中使用的扩增引物的5'-部分。如果条形码分子文库中不存在引物位点，则可以执行引入此类结合位点的额外短扩增步骤。在一些实施例中，测序步骤涉及序列分析。在一些实施例中，该分析包括序列比对步骤。在一些实施例中，比对用于从多个序列(例如，具有相同条形码(UID)的多个序列)中确定共有序列。在一些实施例中，条形码(UID)用于从具有相同条形码(UID)的多个序列中确定共有序列。在其他实施例中，使用条形码(UID)来消除伪像，即，存在于一些但并非全部具有相同条形码(UID)的序列中的变异。源自PCR误差或测序误差的此类伪像可以被消除。

在一些实施例中，通过定量样品中每个条形码(UID)的序列的相对数量，可以定量样品中的每个序列的数量。每个UID代表原始样品中的单个分子，且计数与每个序列变体相关的不同UID可以确定每个序列在原始样品中的比例。本领域技术人员将能够确定为确定共有序列所必需的序列读出的数量。在一些实施例中，为了准确的定量结果，每个UID(“序列深度”)都需要读取相关数量。在一些实施例中，期望的深度是每个UID 5-50次读取。

在一些实施例中，测序步骤进一步包括通过共识确定进行错误校正的步骤。通过合成本文公开的有缺口的环状模板的环状链进行测序能够进行迭代或重复测序。通过对每个核苷酸或对整个序列或对序列的一部分建立共识调用，对相同核苷酸位置的多次读取可以纠正测序错误。从每个位置处的共有碱基确定中获得核酸链的最终序列。在一些实施例中，从通过比较互补链的序列或通过比较互补链的共有序列而获得的共有序列来获得核酸的共有序列。在一些实施例中，本发明在测序步骤之后包括序列读段比对的步骤和生成共有序列的步骤。在一些实施例中，共识是美国专利8535882中描述的简单多数共识。在其他实施例中，共识由以下文献中描述的偏序对齐(POA)方法确定：Lee等人(2002)“Multiplesequence alignment using partial order graphs,”Bioinformatics,18(3):452-464以及Parker和Lee(2003)“Pairwise partial order alignment as a supergraph problem–aligning alignments revealed,”J.Bioinformatics Computational Biol.,11:1-18。基于用于确定共有序列的迭代读段的数量，该序列可以在很大程度上没有或基本上没有错误。

在一些实施例中，根据本发明形成的重排特异性扩增子和任选的对照扩增子无需测序即可检测。扩增子可通过终点PCR、定量PCR(qPCR)或数字PCR(dPCR)(包括数字微滴PCR(ddPCR))来检测。在一些实施例中，基因组重排的检测是定量的，诸如通过qPCR和dPCR实现的检测类型。在其他实施例中，基因组重排的检测是定性的，即，在凝胶电泳或毛细管电泳中读出的是重排特异性扩增产物的存在或不存在。

在一些实施例中，根据本发明的重排特异性扩增通过包括数字微滴PCR(ddPCR)在内的数字PCR(dPCR)执行。

数字PCR是一种定量扩增核酸的方法，例如在美国专利号9,347,095中描述。该过程涉及将样品分成反应体积，使得每个体积包含一个或较少的靶核酸拷贝。每个分区进一步包含扩增引物，即，能够支持指数扩增的正向引物和反向引物。在一些实施例中，分区的反应体积是水性液滴。

在本发明的上下文中，正向引物和反向引物中的第一引物能够在基因组重排的一侧上杂交，并且正向引物和反向引物中的第二引物能够在重排的基因组中但并不在参考基因组中在相对于第一引物的基因组重排的相反侧上并且相邻于第一引物与相反链杂交。

每个数字PCR反应体积进一步包含能够与第一引物和第二引物的扩增子杂交的可检测地标记的探针。可检测地标记的探针可以用荧光团的组合进行标记，并且可以用具有5'-3'-外切核酸酶活性的核酸聚合酶进行指数扩增。

在一些实施例中，本发明的方法包括用第一引物和第二引物进行扩增反应，其中该反应包括用探针检测扩增子的步骤，并确定已检测到探针的反应体积的数量，从而检测样品中基因组重排的存在。

在一些实施例中，反应体积进一步包含第三引物，该第三引物能够在参考基因组中但并不在重排的基因组中相对于第一引物并且相邻于第一引物与相反链杂交，以及第二可检测地标记的探针，该探针能够与第一引物和第三引物的扩增子杂交，但不与第一引物和第二引物的扩增子杂交。第二探针不同于与第一引物和第二引物的扩增子杂交的探针(第一探针)。在此类实施例中，该方法进一步包括确定已检测到第一探针的反应体积与已检测到第二探针的反应体积的数量的比率，从而检测基因组重排的频率。

Claims

1.一种检测样品中的基因组重排的方法，所述方法包括：使含有来自基因组的核酸的样品与一对或多对正向寡核苷酸引物和反向寡核苷酸引物接触，其中在参考基因组中的所述引物的结合位点是不相邻的或不面向内的，并且其中在包含基因组重排的基因组中的所述引物的所述结合位点的位置是相邻的且面向内的以允许使用所述正向引物和所述反向引物以指数方式扩增包含所述重排的所述核酸，以及以指数方式扩增包含所述重排的所述核酸，从而检测所述重排。

2.根据权利要求1所述的方法，其进一步包括对经扩增的核酸进行测序从而检测所述重排。

3.根据权利要求1所述的方法，其中相邻的是在细胞基因组DNA中相隔少于2000个碱基对。

4.根据权利要求1所述的方法，其中相邻的是在无细胞DNA中相隔少于175个碱基对。

5.根据权利要求1所述的方法，其中所述基因组重排是基因融合，并且所述正向引物和所述反向引物的所述结合位点位于参考基因组中的不同染色体上，但位于包含所述基因融合的所述基因组中的相同染色体上。

6.根据权利要求1所述的方法，其中所述基因组重排是缺失，并且所述正向引物和所述反向引物的所述结合位点在参考基因组中相隔超过x个碱基对，但在包含所述缺失的基因组中相隔少于x个碱基对。

7.根据权利要求1所述的方法，其中所述基因组重排产生断点序列，并且所述正向引物和所述反向引物的所述结合位点中的一者跨越所述断点序列。

8.根据权利要求1所述的方法，其中所述基因组重排是扩增，并且所述正向引物结合位点的拷贝中的至少一者和所述反向引物结合位点的拷贝中的一者在包含所述扩增的所述基因组中是面向内的。

9.一种同时质询样品的一种或多种类型的基因组重排的方法，所述方法包括：

(a)使含有来自基因组的核酸的样品与一对或多对正向寡核苷酸引物和反向寡核苷酸引物接触，其中在参考基因组中的所述引物的结合位点是不相邻的或不面向内的，并且其中在包含基因组重排的基因组中的所述引物的所述结合位点的位置是相邻的且面向内的以允许使用所述正向引物和所述反向引物以指数方式扩增包含所述重排的所述核酸；

(b)以指数方式扩增包含所述重排的所述核酸；

(c)形成经扩增的核酸的文库；

(d)对所述文库中的所述核酸进行测序，从而检测所述样品中的一种或多种基因组重排。

10.根据权利要求9所述的方法，其进一步包括将来自步骤(d)的测序读段与所述参考基因组比对以确定所述基因组重排的基因组来源。

11.根据权利要求9所述的方法，其中一对或多对正向寡核苷酸引物和反向寡核苷酸引物包括：

(a)对于至少一对正向引物和反向引物，所述正向引物和所述反向引物的所述结合位点位于参考基因组中的不同染色体上，但位于包含基因融合的所述基因组中的相同染色体上；并且

(b)对于至少一对正向引物和反向引物，所述正向引物和所述反向引物的所述结合位点中的一者跨越基因组重排的断点序列；并且

(c)对于至少一对正向引物和反向引物，所述正向引物结合位点的拷贝中的一者和所述反向引物结合位点的拷贝中的一者在包含基因扩增的所述基因组中是面向内的。

12.一种检测样品中的基因组重排的方法，所述方法包括：

(a)形成包含至少一个衔接子的核酸的文库；

(b)将引物对中的第一引物与文库核酸杂交，其中所述第一引物在基因组重排的一侧上杂交并且还包含捕获部分；

(c)延伸经杂交的第一引物，从而产生包含所述基因组重排的序列并进一步包含捕获部分的第一引物延伸复合物

(d)经由所述捕获部分捕获第一引物延伸产物；

(e)将引物对中的第二引物与经捕获的核酸杂交，其中第二引物在重排的基因组中但并不在参考基因组中在相对于所述第一引物的所述基因组重排的相反侧上且相邻于所述第一引物与相反链杂交；

(f)形成经捕获的重排的核酸的拷贝；

(g)对所述重排的核酸的所述拷贝进行测序，从而检测所述基因组重排。

13.一种在样品中富集包含基因组重排的序列的方法，所述方法包括：

(a)将第一引物与样品中的核酸杂交，其中所述第一引物在基因组重排的一侧上杂交，并且还包含捕获部分；

(b)延伸经杂交的第一引物，从而产生包含所述基因组重排的序列并进一步包含所述捕获部分的第一引物延伸复合物；

(c)经由所述捕获部分捕获第一引物延伸产物；

(d)将第二引物与经捕获的核酸杂交，其中第二引物在重排的基因组中但并不在参考基因组中在相对于所述第一引物的所述基因组重排的同一侧上与相同链杂交，并且还包含条形码；

(e)延伸经杂交的第二引物，从而产生第二引物延伸复合物并置换包含所述捕获部分的所述第一引物延伸复合物；

(f)将第三引物与所述第二引物延伸复合物杂交，其中所述第三引物在所述重排的基因组中但并不在所述参考基因组中在相对于所述第二引物的所述基因组重排的所述相反侧上且相邻于所述第二引物与相反链杂交；

(g)延伸所述第三引物，从而形成包含重排的序列的双链产物，从而富集所述基因组重排。

14.一种检测样品中的RNA转录物的结构变异的方法，其包括：

(a)从样品中获得核酸；

(b)使用位置与基因组重排的位点相邻的第一引物将RNA转录物反转录成cDNA链；

(c)将第二引物与所述cDNA链杂交，其中所述第二引物在重排的基因组中但并不在参考基因组中在相对于所述第一引物的所述基因组重排的相反侧上且相邻于所述第一引物与相反链杂交，以能够使重排的基因组序列指数扩增，但不能够使参考基因组序列指数扩增；以及

(d)扩增所述cDNA以产生扩增子，从而检测所述RNA转录物中的基因组重排。

15.一种用于检测样品中的核酸中的基因组重排的方法，其包括：

(a)将包含来自基因组的核酸的样品分成多个反应体积；其中每个反应体积包含(i)第一引物，其能够在基因组重排的一侧上杂交，(ii)第二引物，其能够在重排的基因组中但并不在参考基因组中在相对于所述第一引物的所述基因组重排的相反侧上且相邻于所述第一引物与相反链杂交，以及(iii)可检测地标记的第一探针，其能够与所述第一引物和所述第二引物的扩增子杂交；以及

(b)用所述第一引物和所述第二引物进行扩增反应，其中所述反应包括用所述探针进行检测的步骤；

(c)确定已检测到所述第一探针的反应体积的数量，从而检测所述基因组重排。