CN113862344A

CN113862344A - 基因融合的检测方法和装置

Info

Publication number: CN113862344A
Application number: CN202111056962.5A
Authority: CN
Inventors: 杨志; 陈彦梅; 孙继国; 赵多军
Original assignee: Chengdu Qitan Technology Ltd
Current assignee: Chengdu Qitan Technology Ltd
Priority date: 2021-09-09
Filing date: 2021-09-09
Publication date: 2021-12-31
Also published as: WO2023035889A1

Abstract

本发明提供了基因融合的检测方法和装置。本发明提供了一种基因融合的检测方法，所述方法包括：(1)取待测样本的基因组DNA片段，将所述DNA片段末端加接头；(2)根据接头序列和位于目标区域上游或下游的序列设计PCR引物，以步骤(1)获得的DNA片段为模板进行PCR扩增，获得PCR产物；(3)使用纳米孔测序的方法，对步骤(2)获得的PCR产物进行测序；(4)将步骤(3)得到的测序结果与参照基因组序列比对，以确定所述待测样本的目标区域是否发生基因融合。本发明还提供了一种基因融合的检测装置。本发明提供的方法能够真实反应长读长序列的信息，针对融合断点位于重复序列区域的融合基因检出更具优势。

Description

基因融合的检测方法和装置

技术领域

本发明属于基因检测技术领域，涉及一种基因融合的检测方法，更具体地本发明涉及一种基于纳米孔测序技术进行基因融合检测的方法和装置。

背景技术

融合基因的发现始于20世纪60年代，在慢性粒性白血病病人中发现的费城染色体，拉开了融合基因与疾病的研究序幕，许多疾病的发生都伴随有融合基因现象，例如，白血病常伴随有bcr/abl、AML1/ETO、CBFβ/MYH11、PML/RARα等融合基因，多种实体瘤中也发现融合基因，非小细胞肺癌中有EML4-ALK，前列腺癌中有SLC45A3-ELK4，横纹肌肉瘤中有PAX3-FOXO1等等。科学研究发现，一些融合基因参与了相关疾病的致病过程，因此，这些融合基因的检测可作为诊断标准之一，甚至可将其作为治疗靶点。

融合基因是染色体重排产生的，包括染色体易位、插入、颠倒、缺失。融合基因检测方法包括如下四种：显微镜染色观察、染色体核型显带、荧光原位杂交和高通量测序方法。高通量测序方法研究融合基因的分辨率比前三种更高。然而，当前对融合基因的检测一般基于二代转录组测序数据分析得到。该方法在外显子区设计捕获探针对目标区域进行富集，然后进行二代高深度测序，通过测序数据中跨过融合基因断点位置的reads来判断是否存在基因融合。然而，该方法存在许多不足，首先，其主要通过比对两种类型的读长(reads)来进行。但是由于转录组的复杂性和二代RNA-seq测序读序读长的限制，短读序比对本身就面临非常大的挑战。也就是说高通量测序读长较短，并且设计的靶向探针只有一部分能够捕获到跨过断点的reads，捕获效率难以保证，因此该种检测的灵敏度相对较低。另一方面，二代测序在文库构建过程中会随机产生一些来自不同基因的片段随机连接在一起形成的嵌合读列，采用现有的融合基因检测方法，经常无法区分这些嵌合序列和真正的融合基因序列，这些随机产生的嵌合读列也会被当做融合基因检测出来，造成结果的假阳性。再一方面，相对于基因组水平，转录组水平的融合，融合断点相对固定，且只涉及两个基因的外显子之间的融合。转录组水平的融合可以明确检测到的融合基因已经发生了表达，但无法区分检测到的融合基因在基因组水平就已发生了变异，还是在两个基因分别转录后才发生的RNA融合。进一步地，在外显子区设计捕获探针结合高通量测序的方法虽然可以检测基因组水平的融合，但由于该种水平的融合多发生在内含子区，内含子区本身固有的一些特性，如基因冗长、含大量重复序列，会影响融合断裂点的精准确定。如不同基因间内含子的相似性，会影响序列的准确比对。如高GC区，不利于捕获探针的结合，影响检测灵敏度。

基于此，当前对检测灵敏度更高的基因融合的检测方法存在需求。

发明内容

本发明的目的是针对现有技术的不足，提供一种基于纳米孔测序技术进行基因融合检测的方法和装置。纳米孔测序技术作为第三代测序技术，具有读长长(可达MB级)和测序速度快(400-500bp/s)的优点。在此基础上，本发明的发明人提供了一种基于纳米孔测序技术的基因融合的检测方法，该方法所需要的样本起始量更低，并且检测灵敏度得到了极大的提高，因此特别适用于生物研究领域和临床医学领域的各种检测，如疾病诊断等。

本发明的目的是通过以下技术方案实现的：

一方面，本发明提供了一种基因融合的检测方法，所述方法包括以下步骤：

(1)取待测样本的基因组DNA片段，将所述DNA片段末端加接头；

(2)根据步骤(1)使用的接头序列和位于目标区域上游或下游的序列设计PCR引物，以步骤(1)获得的DNA片段为模板进行PCR扩增，获得PCR产物；

(3)使用纳米孔测序的方法，对步骤(2)获得的PCR产物进行测序；

(4)将步骤(3)得到的测序结果与参照基因组序列比对，以确定所述待测样本的目标区域是否发生基因融合。

根据本发明所述的检测方法，其中，在步骤(1)中，所述DNA片段的长度为2kb-15kb；优选9kb-11kb。

本发明的发明人发现，在随机打断中将打断片段的长度设计为2kb-15kb的片段，优选地9kb-11kb的片段，既提高了融合基因的检出率，又兼顾PCR扩增的特点，保证了基因融合的阳性检出率。

根据本发明所述的检测方法，其中，在步骤(1)中，所述DNA片段为将所述基因组DNA随机打断获得的；优选地，所述随机打断采用物理法或酶切法；更优选地，所述随机打断为酶切法打断；进一步优选地，所述酶切法打断使用Tn5转座酶或MuA转座酶。

和/或，在步骤(1)中，在所述DNA片段末端加接头之前进行DNA片段末端修复。

和/或，在步骤(1)中，当使用Tn5转座酶打断所述基因组DNA时，所述打断、末端修复和加接头一步完成，随后使用ddNTP将所述DNA片段进行3’羟基端封闭。

本发明的发明人发现，DNA的随机打断优选使用转座酶进行，尤其优选使用Tn5转座酶，相对于传统使用的限制性内切酶具有出乎意料的优点，例如限制性内切酶随机性较大，而PCR扩增的长度有限，因此如果离待检测区域上游太远(如大于10kb)的位置才有相应的酶切位点，这么长片段的PCR很难扩增完全。同时为了保证检出，一般会构建多种类型内切酶的文库，中间涉及多步纯化操作，因此对待检测样本的起始量要求较高，达到几微克甚至十几微克，很难满足临床检测的需求。而本发明的发明人发现，使用Tn5转座酶的建库方式，建库中使用ddNTP封闭3’羟基端及巢式PCR扩增的方法，有效的提高了下游已知融合基因的扩增特异性及效率，并且该方法使用的建库初始样本量较少，可以达到10ng。

根据本发明所述的方法，其中，在步骤(2)中，所述目标区域包含非编码区；更优选地，所述目标区域包含启动子区和/或内含子区域。

根据本发明所述的方法，其中，在步骤(2)中，所述目标区域包含临近的未知区域；更优选地，所述未知区域位于所述目标区域的上游区域。

根据本发明所述的方法，其中，在步骤(2)中，所述PCR为巢式PCR。

根据本发明所述的方法，其中，在步骤(2)中，根据步骤(1)使用的接头序列和距离目标区域的上游或下游150bp-1000bp处的序列设计巢式引物；优选地，根据步骤(1)使用的接头序列和距离目标区域的上游或下游150bp-500bp处的序列设计巢式引物；优选地，所述巢式引物的外引物的3’端与内引物的5’端有5-15bp的重叠区；更优选地，所述巢式引物的长度为25-30bp；进一步优选地，所述巢式引物的TM值为70℃；

根据本发明所述的方法，其中，在步骤(2)中，在所述巢式PCR中，对第一轮扩增产物进行片段分选后再进行第二轮扩增；更优选地，对第二轮的产物进行片段分选，以获得更长的PCR产物。

根据本发明所述的方法，其中，在步骤(3)中，在所述纳米孔测序之前，对所述PCR产物进行末端修复并连接测序接头。

根据本发明所述的方法，其中，在步骤(4)中，还可以确定所述基因融合发生的位置，和/或确定所述基因融合发生的频率。

根据本发明所述的方法，其中所述方法为非疾病的诊断用途的方法。

另一个方面，本发明提供了一种基因融合的检测装置，所述装置包括：基因组DNA处理模块，用于提取待检测样本的DNA，然后打断、末端修复并加接头；目标区域捕获模块，用于使用经设计的巢式PCR引物扩增检测样本的DNA片段，并获得包含目标区域的PCR产物；测序模块，用于通过纳米孔测序的方法对PCR产物进行测序，并获得测序结果；检测模块，用于将得到的测序结果与参照基因组序列比对，以确定所述待测样本的目标区域是否发生基因融合。

根据本发明所述的方法或装置，其中所述待测样本为组织样本；优选为血液样本；和/或

所述待测样本为冰冻样本、穿刺样本或FFPE样本。

再一方面，本发明还提供了所述方法和装置的用途，其包括如下(1)-(3)中的至少一种：

(1)检测待测样本的目标区域是否发生基因融合的用途；

(2)检测待测样本的目标区域发生基因融合的频率的用途；

(3)确定待测样本的目标区域发生基因融合的位置的用途。

优选地，所述目标区域包含非编码区；更优选地，所述目标区域包含启动子区和/或内含子区域。

优选地，所述目标区域包含临近的未知区域；更优选地，所述未知区域位于所述目标区域的上游区域。

再一方面，本发明还提供了所述方法和装置用于诊断融合基因引起的疾病中的用途。

根据本发明所述的用途，其中所述融合基因引起的疾病选自白血病、淋巴癌、或非小细胞肺癌。

再一方面，本发明还提供了一种用于诊断融合基因引起的疾病的试剂盒，所述试剂盒包含本发明所述的方法中使用的试剂组合；

优选地，所述融合基因引起的疾病选自白血病、淋巴癌、或非小细胞肺癌。

与现有技术相比，本发明具有以下的有益效果：

1.本发明提供的方法基于纳米孔测序，相较于常规的二代高通量测序，测序读长长，不需序列拼接组装，真实反应序列信息，从而可以大大节省了检测时间，并提高了检测效率。

2.本发明提供的方法在DNA水平检出融合基因更具优势，对于融合断点发生在非编码区如启动子、内含子区域的融合，可以精准检出断裂位置。

3.本发明提供的方法采用巢式PCR获得目标区域的序列，相较于二代高通量测序检测融合基因常采用的探针捕获方法，灵敏度有了极大的提高。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理，并不构成对本申请的不当限定。

图1示出为根据本申请的实施例1获得的片段化DNA的凝胶电泳图；

图2示出为根据本申请的实施例1获得的巢式PCR产物的凝胶电泳图；

图3示出为根据本申请的实施例1获得的高质量比对读长(read)的长度分布情况；

图4示出为根据本申请的实施例2进行检测的流程图；

图5示出为根据本申请的实施例2使用Tn5转座酶打断并建库获得的片段化DNA及巢式PCR产物的凝胶电泳图；

图6示出为根据本申请的实施例2测序结果分析得到的EML4-ALK融合断裂点位置。

具体实施方式

为了使本领域普通人员更好地理解本申请的技术方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。应理解，此处所描述的具体实施例仅意在解释本申请，而不是限定本申请。对于本领域技术人员来说，本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。

实施例1使用本发明的方法检测myc基因融合

以myc基因为例，利用GM12878细胞系(coriell institute)验证本申请的方法。

1.DNA的片段化：

利用g-tube(Covaris)对1μg提取好的完整基因组DNA进行打断，，打断结果如图1所示，其中M为1kb DNA Ladder(天根生化科技(北京)有限公司)，1为打断后的DNA片段，并且从图1可以看出，片段化的DNA主带大于10kb。

2.末端修复，加接头：

利用商品化的末端制备酶(End Prep Enzymes，ABclonal)、受损的DNA修复酶II(Damaged DNA Repair Enzymes II，ABclonal)、T4DNA连接酶(T4 DNA Ligase，ABclonal)对片段化后的DNA模板进行末端修复、加A尾和接头连接，纯化后进行巢式PCR扩增，最终扩增的结果如图2所示，其中M为1kb DNA Ladder(天根生化科技(北京)有限公司)，1为第二轮巢式PCR产物，并且从图2可以看出，扩增产物为不同大小的DNA片段，最大扩增产物大于10kb。其中，所述PCR使用的引物如表1所示。

表1：myc基因巢式PCR所用的引物

第一轮PCR扩增的条件为98℃3min；98℃10s，72℃5min，7个循环；98℃10s，67℃5min，32个循环；67℃7min；12℃保存。

第二轮PCR扩增的条件为98℃3min；98℃10s，72℃5min，5个循环；98℃10s，67℃5min，20个循环；67℃7min；12℃保存。

3.将产物进行纳米孔测序，分析测序结果

将上述PCR产物纯化后定量，根据通用建库流程构建纳米孔测序文库，然后上机测序。测序结束后对所得数据进行分析，结果显示在所有测序得到16万条reads中，有超过14万条比对到了人基因组上正确的位置，有效数据利用率超过了85％。此外，还分析了所有正确比对的高质量reads的长度分布情况，结果如图3所示，高质量比对reads长度大部分处于3kb以下，有74425条。其中，长读长reads(5-6kb)只测到2条。

由于没有对扩增产物进行片段分选，且测序平台对短片段序列的测序偏好性，所得的高质量比对reads长度大部分处于3kb以下。如果想要得到更长的reads，可以对第一轮扩增产物进行片段分选后再进行第二轮扩增，并同时对第二轮的产物也进行片段分选，可以尽可能得到更长的reads。

实施例2使用本发明的方法检测EML4-ALK基因融合

以EML4-ALK融合基因为例，利用肿瘤结构变异5％的gDNA标准品(菁良基因科技)验证本申请的方法。

其中，所述方法的流程图如图4所示。

1.转座酶复合物组装

转座酶复合物中接头序列(表2所示)经常规退火后，与Tn5转座酶(novoprotein)组装转座酶复合物。

2.gDNA片段化及接头连接

利用组装好的转座酶复合物对10ng肿瘤结构变异5％gDNA标准品进行打断。打断的同时，片段化的DNA两端连接拼接的接头序列。打断体系如下：

PCR仪上55℃反应3min后，立即置于冰上2min，1x beads纯化回收DNA片段。纯化回收后的DNA用接头上的引物(AP1)进行扩增，用来表征片段化的DNA大小。结果如图5中泳道1所示。

3.ddNTP封闭

片段化且连接接头的DNA片段中含有9bp的gap。为避免无效的扩增，经一轮PCR延伸步骤，将DNA结构中3’羟基端进行ddNTP封闭。封闭体系为：Tn5片段化的DNA，11.5μL；10×Taq buffer，2μL；ddATP、ddTTP、ddCTP、ddGTP(1μmol/μL)各1.5μL；Taq酶(5U/μL)，0.5μL。72℃延伸7min后，1×beads纯化封闭后产物。

4.巢式PCR

封闭后的产物进行两轮巢式PCR扩增，扩增条件参照实施例1中所述条件。扩增引物序列如表2所示。

表2接头序列及EML4-ALK巢式PCR使用的引物

第一轮扩增的结果如图5中2、3泳道。第二轮扩增结果如图5中4、5泳道。

5.末端修复、连接测序接头及纳米孔测序分析

第二轮扩增产物用0.6×beads纯化后利用商品化试剂盒(ABclonal)对片段化后的DNA模板进行末端修复、测序接头连接。

将连接有测序接头的产物进行纳米孔测序。在3次重复实验中，比对到高质量的参考序列(reference reads)分别有213119条、296043条、107378条，比对到高质量的EML4-ALK融合序列(fusion reads)分别有9280条、14314条、5121条。计算突变频率分别为4.35％、4.83％、4.77％，这与菁良肿瘤结构变异标准品中突变频率为5％EML4-ALK检出结果一致。用IGV软件分析，找到的EML4-ALK融合断裂点位置与标准品中给定的位置亦一致。结果如图6所示。

讨论:

使用本申请的方法，利用10ng菁良肿瘤结构变异5％标准品基因组进行EML4-ALK融合基因检测，3次重复实验中，检测到的最长读长分别是11999bp、43924bp、11894bp，均达10kb以上。由于测序平台对短读长序列的测序偏好性，所得的高质量比对reads长度以短读长序列居多，大部分处于3kb以下。如果想要得到更长的reads，可以对第一轮扩增产物进行片段分选后再进行第二轮扩增，并同时对第二轮的产物也进行片段分选，可以尽可能得到更长的reads。

以上所述，仅为本发明的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。应理解，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。

序列表

<110> 成都齐碳科技有限公司

<120> 基因融合的检测方法和装置

<130> 21NI1616

<160> 10

<170> SIPOSequenceListing 1.0

<210> 1

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 1

gtaatacgac tcactatagg gc 22

<210> 2

<211> 28

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 2

cccaaaaccc agagagcaat taacacaa 28

<210> 3

<211> 19

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 3

actatagggc acgcgtggt 19

<210> 4

<211> 27

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 4

ttctcctctc ccatcttgac aagtcac 27

<210> 5

<211> 53

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 5

gtaatacgac tcactatagg gcacgcgtgg tcgaagatgt gtataagaga cag 53

<210> 6

<211> 26

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 6

ctgtctctta tacacatctt cgacca 26

<210> 7

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 7

gtaatacgac tcactatagg gc 22

<210> 8

<211> 27

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 8

ggtgaaccag cagactgtgt tgcaagt 27

<210> 9

<211> 19

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 9

actatagggc acgcgtggt 19

<210> 10

<211> 27

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 10

ttgcaagtat aaccccacgt gaacgag 27

Claims

1.一种基因融合的检测方法，所述方法包括以下步骤：

(1)取待测样本的基因组DNA片段，将所述DNA片段末端加接头；

2.根据权利要求1所述的检测方法，其中，在步骤(1)中，所述DNA片段的长度为2kb-15kb；优选9kb-11kb；

和/或，在步骤(1)中，所述DNA片段为将所述基因组DNA随机打断获得的；优选地，所述随机打断采用物理法或酶切法；更优选地，所述随机打断为酶切法打断；进一步优选地，所述酶切法打断使用Tn5转座酶或MuA转座酶；

和/或，在步骤(1)中，在所述DNA片段末端加接头之前进行DNA片段末端修复；

3.根据权利要求1或2所述的方法，其中，在步骤(2)中，所述目标区域包含非编码区；优选地，所述目标区域包含启动子区和/或内含子区域；和/或，

所述目标区域包含临近的未知区域；优选地，所述未知区域位于所述目标区域的上游区域。

4.根据权利要求1至3中任一项所述的方法，其中，在步骤(2)

中，所述PCR为巢式PCR；和/或，

在步骤(2)中，根据步骤(1)使用的接头序列和距离目标区域的上游或下游150bp-1000bp处的序列设计巢式引物；优选地，根据步骤(1)使用的接头序列和距离目标区域的上游或下游150bp-500bp处的序列设计巢式引物；优选地，所述巢式引物的外引物的3’端与内引物的5’端有5-15bp的重叠区；更优选地，所述巢式引物的长度为25-30bp；进一步优选地，所述巢式引物的TM值为70℃；

和/或，在所述巢式PCR中，对第一轮扩增产物进行片段分选后再进行第二轮扩增；优选地，对第二轮的产物进行片段分选，以获得更长的PCR产物。

5.根据权利要求1至4中任一项所述的方法，其中，在步骤(3)中，在所述纳米孔测序之前，对所述PCR产物进行末端修复并连接测序接头。

6.根据权利要求1至4中任一项所述的方法，其中，在步骤(4)中，确定所述基因融合发生的位置，和/或确定所述基因融合发生的频率。

7.一种基因融合的检测装置，所述装置包括：基因组DNA处理模块，用于提取待检测样本的DNA，然后打断、末端修复并加接头；目标区域捕获模块，用于使用经设计的PCR引物扩增检测样本的DNA片段，并获得包含目标区域的PCR产物；测序模块，用于通过纳米孔测序的方法对PCR产物进行测序，并获得测序结果；检测模块，用于将得到的测序结果与参照基因组序列比对，以确定所述待测样本的目标区域是否发生基因融合。

8.如权利要求1至6中任一项所述的方法或如权利要求7所述的装置，其中所述待测样本为组织样本；优选为血液样本；和/或

所述待测样本为冰冻样本、穿刺样本或FFPE样本。

9.如权利要求1至6中任一项所述的方法或如权利要求7所述的装置的用途，其包括如下(1)-(3)中的至少一种：

(1)检测待测样本的目标区域是否发生基因融合的用途；

(2)检测待测样本的目标区域发生基因融合的频率的用途；

(3)确定待测样本的目标区域发生基因融合的位置的用途；

优选地，所述目标区域包含非编码区；更优选地，所述目标区域包含启动子区和/或内含子区域；

10.一种用于诊断融合基因引起的疾病的试剂盒，所述试剂盒包含权利要求1-6中任一项所述方法中使用的试剂组合；