CN110033829A

CN110033829A - 基于差异snp标记物的同源基因的融合检测方法

Info

Publication number: CN110033829A
Application number: CN201910290300.0A
Authority: CN
Inventors: 李文锋; 潘琪; 孙小庆; 冷雪; 蒋红果; 丛博; 李早
Original assignee: Beijing Nohe Xinkang Gene Technology Co Ltd
Current assignee: Beijing Nohe Xinkang Gene Technology Co Ltd
Priority date: 2019-04-11
Filing date: 2019-04-11
Publication date: 2019-07-19
Anticipated expiration: 2039-04-11
Also published as: CN110033829B

Abstract

本发明涉及基于差异SNP标记物的同源基因的融合检测方法，本发明的融合检测方法利用两基因的差异SNP信号进行区分，绕过测序深度差异，利用双端reads的插入片段长度异常和单端reads的软截断(soft clip)信号，进行每个测序reads序列与同源基因序列进行一致性比较，寻找连续一致性SNP mark，由此推断得到断点区间。本发明的融合检测方法能得到断点所在区间，即前半部分最后一个位点和后半部分第一个位点，且此区间的间距依赖于检测出来的这两个位点的物理距离，以规避掉常规结构变异检测方法在重复序列检测中遇到的检测不出的问题。

Description

基于差异SNP标记物的同源基因的融合检测方法

技术领域

本发明涉及DNA测序领域，特别是涉及基于差异SNP标记物的同源基因的融合检测方法。

背景技术

DNA(脱氧核糖核酸)测序，是广泛应用于生物学研究中的一种重要的实验技术，在DNA双螺旋结构学说发表之后就开始有相关的报道，但是操作流程复杂而没有形成规模。

在1977年，末端终止测序法在Sanger的研究努力下诞生了。Sanger测序是先将基因组DNA片断化，然后克隆到质粒载体上，再转化大肠杆菌。对于每个测序反应，挑出单克隆，并纯化质粒DNA。每个循环测序反应产生以双脱氧核苷三磷酸(ddNTP)终止，由于ddNTP缺乏延伸所需要的3-OH基团，使延长的寡聚核苷酸选择性地在G、A、T或C处终止。其荧光标记的产物梯度，在测序仪的96或384毛细管中进行高分辨率的电泳分离。当不同分子量的荧光标记片断通过检测器时，四通道发射光谱就构成了测序轨迹。然而Sanger测序也存在自身的缺点，测序成本高、通量低、耗时长，严重影响了其真正大规模的应用。

随着科学技术的不断发展，二代NGS测序技术应运而生。将片断化的基因组DNA两侧连上接头，随后运用不同的方法来产生几百万个空间固定的PCR克隆阵列(polony)。每个克隆由单个文库片段的多个拷贝组成，之后进行引物杂交和酶延伸反应。由于所有的克隆都是系在同一平面上，这些反应就能够大规模平行进行。同样地，每个延伸所掺入的荧光标记的成像检测也能同时进行，来获取测序数据。酶拷贝和成像的持续反复构成了相邻的测序阅读片段。第二代测序技术大大降低了测序成本的同时，还大幅提高了测序速度，并且保持了高准确性，以前完成一个人类基因组的测序需要3年时间，而使用二代测序技术则仅仅需要1周，但在序列读长方面比起第一代测序技术则要短很多。按照测序范围来分：主要包括全基因组测序、全外显子组测序和目标区域捕获测序。

目前，利用主流测序技术完成模式生物或非模式生物的基因组测序的过程基本包括以下步骤：

1.文库制备：将DNA用雾化或超声波随机片段化成几百碱基或更短的小片段。用聚合酶和外切核酸酶把DNA片段切成平末端，紧接着磷酸化并增加一个核苷酸黏性末端。然后将Illumina测序接头与片段连接。

2.锚定桥接：Illumina测序平台在测序时，将基因组DNA的随机片段附着到光学透明的玻璃表面(即Flow cell)。Flow cell被细分为多个通道，每个通道的内表面有无数的被固定的单链接头。将上一个步骤得到的带接头的DNA片段变性成单链后与测序通道上的接头引物结合形成桥状结构，以供后续的预扩增使用。

3.预扩增：单链桥型待测片段会被扩增成双链桥型片段，在变性过程中释放出互补的单链会被锚定到附件的固相表面，数次循环之后，会在固相表面形成上百万条成簇分布的双链待测片段。

4.测序：单碱基延伸测序在测序的flow cell中加入四种荧光标记的dNTP、DNA聚合酶以及接头引物进行扩增，在每一个测序簇延伸互补链时，每加入一个被荧光标记的dNTP就能释放出相对应的荧光，测序仪通过捕获荧光信号，并通过计算机软件将光信号转化为碱基信号，从而获得待测片段的序列信息。

5.数据处理。Illumina测序得到的序列的每一个碱基都会有相应的测序质量，测序质量低，说明该碱基测错的概率就大。因此，通常在做样本的变异检测分析前，通过设置不同的阈值过滤质量较低的序列。

测序完成后，利用比对软件将测序后的短序列比对回参考基因组，可以确定比对上的序列位置，并进行后续的生物信息学分析。基因组结构性变异(StructureVariantions，简称SVs)，通常就是指基因组上大片段的位置发生改变或序列发生变化。结构变异的类型很多，包括长度在50bp以上的长片段序列插入或者删除(Big Indel)、串联重复(Tandem repeat)、染色体倒位(Inversion)、染色体内部或染色体之间的序列易位(Translocation)、拷贝数变异(CNV)以及形式更为复杂的嵌合性变异。

当利用高通量测序数据来检测结构变异时，主要有以下几种思路。第一种是单纯依靠覆盖度信息的方法，这种方法是最早提出检测结构变异的方法，理解比较直观，但是检测不到小的串联重复、染色体倒位、平衡易位，现在已很少单独利用。第二种主要是依靠双末端测序数据中非一致序列并通过聚类来发现结构变异信息，这种方法很难确定具体的结构变异位点信息，只能大概找到断点范围，受限于双末端序列的插入长度大小。第三种方法是利用Split Reads来精确发现结构变异，这种方法可以精确定位结构变异位点信息，但是重复序列对其影响很大。现在大多数结构变异检测软件都会集成整合上述几种方法,取长补短，并会相应地构建一套独特的数据筛选处理流程，运用更快捷更有效的算法，由此不断提高基因组结构变异检测的能力。

而重复序列在利用常规结构变异软件检测时，经常出现漏检的问题。因为在参考基因组上的序列相似性高，导致测序得到的短片段在比对回参考基因组的时候容易出现定位不准或比对到多处的问题，给判断带来很多干扰因素，没有办法检出断点信号。例如疾病家族性醛固酮增多症I型(FH-I)，也叫糖皮质激素可治性醛固酮增多症(glucocorticoid-remediable aldosteronism，GRA)，是原醛症的一种亚型，属常染色体显性遗传病。目前FH-1分子病因学机制已明确，主要是两种较高同源性基因(编码醛固酮合酶的基因CYP11B2和编码11β羟化酶的基因CYP11B1)的非对等交换形成嵌合基因导致。

虽然FH-I只占原发性醛固酮增多症的1％，却是单基因高血压最常见的病因。通常在儿童期和成年早期发病，有家族史。其临床特征主要有严重早发高血压、高杂合类固醇18-羟皮质醇和18-氧皮质醇，双侧肾上腺增生或肾上腺腺瘤。该病的另一特征为早发脑血管意外，多为颅内血管瘤破裂的出血性脑卒中，死亡率较高，半数患者可有低血钾表现。CYP11B1和CYP11B2的非对等基因嵌合，或基因融合，利用常规结构变异软件检测是非常困难的，因为这两个基因是同源基因，相似度高达95％以上，发生融合时在融合断点处没有明显的软截断(softclip)现象。

CYP11B1和CYP11B2的非对等基因嵌合，直观上的理解如图1所示。虽然在物理位置上CYP11B1在前面，CYP11B2在后面，基因间区为37Kb，两个基因长约8Kb，但两个基因是反向编码的，所以图1中所示CYP11B2在前，CYP11B1在后。两条同源染色体在减数分裂时发生交叉互换，断点发生在内含子的概率高些，但是难点在于不确定在哪一个内含子发生融合，且与一般联会不同的是：第一条同源染色体的CYP11B1基因与第二条的CYP11B2基因发生交叉互换。而这两个基因的相似性很高，高达95％，是常规检测方法会漏检的一类融合。

针对上面提到过的常规结构变异检测方法，共有三种。

第一种是单纯依靠覆盖度信息的方法，由于要求每个测序的短片段序列是唯一比对到参考基因组上，会找到一个最佳比对位置，所以比对到两个基因上的比例是均等的，不会出现很大的深度差异，所以此信号不显著。

第二种是Pair-End Reads序列的插入片段长度(Insert size)来判断大片段插入缺失的。一般来说，我们可以通过胶图直接获得每一对reads1和reads2之间真实的插入片段长度，但通过序列比对可以计算它们在参考基因组上彼此之间比对位置的距离，间接获得这对reads与参考基因组相比的距离差异，这种差异是相对结构变化引入的。一般实际片段长度为250-500bp左右，而比对到参考基因组上大于此长度的双端reads是异常的。在CYP11B1和CYP11B2上发生嵌合的区域Pair-End Reads理论插入片段本应该大于基因间区的长度37Kb，但是由于两个基因的相似性，造成reads序列定位错误，即使发生了基因融合，插入长度信号也可能是正常的，不能检出。

第三种是在嵌合区域的断点处检测单条reads的软截断情况，即Split Reads来精确发现结构变异位点。而两个基因的相似性造成检测结果不是软截断信号，而是一些CYP11B1和CYP11B2序列差异的SNP mark标识，所以此类信号也是检不出的。

发明内容

本发明的目的是提出一种基于差异SNP标记物的同源基因的融合检测方法，以避免常规结构变异检测方法在重复序列检测中遇到的不能检出的融合问题。

为实现上述目的，本发明提供了基于差异SNP标记物的同源基因的融合判定方法，所述融合判定方法包括：

1)提取双端pair-end reads，并满足比对到参考基因组的插入片段长度条件，以及提取与参考基因组有SNP信号的单端reads；

2)对双端pair-end reads或单端reads的SNP信号进行判定，进行每个测序reads序列与每一同源基因的序列一致性比较，寻找连续一致性SNP mark，获得断点位置，并据此判定融合所在区域。

优选地，进行双端pair-end reads的SNP信号判定的步骤包括：

根据reads在参考基因上的比对位置将比对位置相近的reads聚为一类，并以所述reads比对到参考基因组的起始位置为中心，向前、后各延伸100～300

bp的reads长度，所有比对到此区间的reads作为一个簇，进行后续分析；

当双端pair-end reads仅一端比对到其中一个同源基因上，则仅保留正常比对到同源基因上的reads；

根据簇中reads的最左端reads的比对起始位置和最右端reads的比对终止位置，生成bed文件并计算区域的平均覆盖深度；

对聚类簇中reads的每一对，提取测序得到的碱基序列并定位到参考基因组上相应的一对同源基因序列片段，再进行三序列比对，判定SNP mark前半段与其中一个同源基因、后半段与另一个同源基因的一致性；若完全一致，则判定融合所在区域。

优选地，进行单端reads的SNP信号判定的步骤包括：

将所有reads按拥有的SNP数目，从大到小排序；

根据最左侧SNP的位置及最右侧SNP的位置，计算区域的平均覆盖深度；

选择SNP数目最多的一个reads作为参照，对其余所有reads进行判定，当其余所有reads与参照reads共有的SNP数目大于等于3且特有的SNP数目小于4时，视为支持同一区域的融合信号并将该类reads聚类为同一簇；

从该聚类簇中reads提取测序得到的碱基序列中寻找相应的一对同源基因序列，再进行三序列比对，判定SNP mark前半段与其中一个同源基因、后半段与另一个同源基因的一致性；若完全一致，则判定融合所在区域；

对于满足所有要求的reads，判定reads计算的融合区域的一致性，保存支持reads数最多的一个融合区域，并保存支持所述融合区域的reads数及频率；若判定的融合区域与已经存在的融合区域相同，则合并融合信号信息。

本发明的另一目的在于提供了一种基于差异SNP标记物的同源基因的融合检测方法，所述融合检测方法包括：

1)测序与数据处理，包括进行建库测序，对样本基因组进行DNA提取，随机打断形成片段化文库，再进行桥式PCR扩增并经过测序，得到片段化测序reads序列，并进行质量控制处理和比对；

2)提取两种融合信号，包括提取双端pair-end reads满足比对到参考基因组的插入片段长度条件，以及提取与参考基因组有SNP信号的单端reads；

3)SNP信号判定，包括双端pair-end reads或单端reads的SNP信号判定，进行每个测序reads序列与每一同源基因的序列一致性比较，寻找连续一致性SNPmark，并据此判定融合所在区域；

4)输出结果，包括每一同源基因的断点位置、所在外显子exom或内含子intron、融合reads支持数、融合支持度及融合方向。

优选地，在提取与参考基因组有SNP信号的单端reads时，当reads上的SNP中2个及2个以上是dbSNP数据库中的高频SNP时，则此reads被过滤；当存在Indel信号时，则此reads被过滤。

优选地，进行双端pair-end reads的SNP信号判定的步骤包括：

根据reads在参考基因上的比对位置将比对位置相近的reads聚为一类，并以所述reads比对到参考基因组的起始位置为中心，向前、后各延伸100～300bp的reads长度，所有比对到此区间的reads作为一个簇，进行后续分析；

对聚类簇中reads的每一对，提取测序得到的碱基序列并定位到参考基因组上相应的一对同源基因序列片段，再进行三序列比对，判定SNP mark前半段与其中一个同源基因、后半段与另一个同源基因的一致性；若完全一致，则判定融合所在区域；

统计不同融合区域的reads数，记录其reads支持数，并结合计算得到的平均覆盖深度来计算融合支持度。

优选地，进行单端reads的SNP信号判定的步骤包括：

将所有reads按拥有的SNP数目，从大到小排序；

选择SNP数目最多的一个reads作为参照，对其余所有reads进行判定，当其与参照reads共有的SNP数目大于等于3且特有的SNP数目小于4时，视为支持同一区域的融合信号并将该类reads聚类为同一簇；

从该聚类簇中reads提取测序得到的碱基序列中寻找相应的一对同源基因序列，再进行三序列比对，判定SNP mark前半段与一个同源基因、后半段与另一个同源基因的一致性；若完全一致，则判定融合所在区域；

本发明的又一目的在于提供了一种基于差异SNP标记物的同源基因CYP11B1和CYP11B2的融合检测方法，所述融合检测方法包括：

测序与数据处理，采用Illumina平台进行建库测序，对样本基因组进行DNA提取，随机打断形成片段化文库，再进行桥式PCR扩增并经过测序，得到片段化测序reads序列；

提取两种融合信号，包括提取双端pair-end reads满足比对到参考基因组的插入片段长度条件，提取与参考基因组有SNP信号的单端reads；

SNP信号判定，包括双端pair-end reads与单端reads的SNP信号判定，进行每个测序reads序列与CYP11B1和CYP11B2的序列一致性比较，寻找连续一致性SNPmark，并据此判定融合所在区域；

输出结果，包括CYP11B1和CYP11B2两个基因的断点位置、所在外显子(exon)或内含子(intron)、融合reads支持数、融合支持度及融合方向。

优选地，测序reads包括与指定的参考基因组进行序列比对，获得DNA片段在基因组或基因上的位置。

优选地，在进行序列比对时，测序质量控制的步骤包括：去除测序接头以及引物序列以及过滤低质量值序列或含N较多的序列。

优选地，所述插入片段长度条件为35000～40000bp。

优选地，进行双端pair-end reads的SNP信号判定的步骤包括：

当双端pair-end reads仅一端比对到CYP11B1或CYP11B2上，则仅保留这端正常比对到CYP11B1或CYP11B2上的序列；

对聚类簇中reads的每一对，提取测序得到的碱基序列并定位到参考基因组上相应的CYP11B1、CYP11B2同源序列片段，再进行三序列比对，判定SNP mark前半段与CYP11B1/CYP11B2、后半段与CYP11B2/CYP11B1的一致性；若完全一致，则判定融合所在区域；

优选地，进行单端reads的SNP信号判定的步骤包括：

将所有reads按拥有的SNP数目，从大到小排序；

从该聚类簇中reads提取测序得到的碱基序列中寻找相应的CYP11B1、CYP11B2同源序列，再进行三序列比对，判定SNP mark前半段与CYP11B1/CYP11B2、后半段与CYP11B2/CYP11B1的一致性；若完全一致，则判定融合所在区域；

基于上述技术方案，本发明的优点是：

本发明的融合检测方法是利用同源基因差异序列SNP mark进行断点判定的，其主要思路是找到单端single reads或双端pair-end reads的一部分SNP位点与其中一个同源基因相一致，而另一部分SNP位点与另一个同源基因相一致，且不管是前半部分或后半部分都要求是连续一致的，不能是间断的。这类marker不局限于单端single reads，还有双端pair-end reads如符合此类情况，也可以作为支持断点的信号。最后，本发明的融合检测方法能得到断点所在区间，即前半部分最后一个位点和后半部分第一个位点，且此区间的间距依赖于检测出来的这两个位点的物理距离。这样就规避掉常规结构变异检测方法在重复序列检测中遇到的问题。

本发明的融合检测方法利用两基因的差异SNP信号进行区分。绕过测序深度差异，双端reads的插入片段长度异常和单端reads的软截断soft clip信号，进行每个测序reads序列与CYP11B1和CYP11B2的序列一致性比较，寻找连续一致性SNP mark，由此推断得到断点区间。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为基因融合原理图；

图2为一种特异性标识查找示意图；

图3为另一种特异性标识查找示意图；

图4为FH-I DNA样本在内含子intron1发生基因融合示意图；

图5为FH-I DNA样本检测结果图；

图6为同源基因在融合前后的参考基因组上的物理位置示意图。

具体实施方式

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

本发明提供了一种基于差异SNP标记物的同源基因的融合判定方法，如图1～图5所示，其中示出了本发明的一种优选实施方式。

具体地，所述融合判定方法包括：

1)提取双端pair-end reads满足比对到参考基因组的插入片段长度条件，以及提取与参考基因组有SNP信号的单端reads；

优选地，进行双端pair-end reads的SNP信号判定的步骤包括：

根据reads在参考基因上的比对位置将比对位置相近的reads聚为一类，并以所述reads比对到参考基因组的起始位置为中心，向前、后各延伸100～300bp的reads长度，所有比对到此区间的reads作为一个簇，进行后续分析；由于单端read测序长度约在150bp，双端reads的插入片段长度约为300bp；

当双端pair-end reads仅一端比对到其中一个同源基因上，则仅保留正常比对到同源基因上的这端read；

优选地，进行单端reads的SNP信号判定的步骤包括：

将所有reads按拥有的SNP数目，从大到小排序；

通过利用上述基于差异SNP标记物的同源基因的融合判定方法，可用于同源基因的融合检测。具体地，本发明的基于差异SNP标记物的同源基因的融合检测方法包括：

优选地，在提取与参考基因组有SNP信号的单端reads时，当reads上的SNP中2个及2个以上是dbSNP数据库中的高频SNP时，则此reads被过滤；当存在Indel信号时，则此reads被过滤。具体地，由于共有的连续SNP信号个数本身很少，要求reads上的SNP个数≥3，因为<3个SNP支持的信号会引入假阳性,所以当≥2个SNP是dbSNP数据库中的高频SNP，则过滤。

进一步，进行双端pair-end reads的SNP信号判定的步骤包括：

当双端pair-end reads仅一端比对到其中一个同源基因上，则仅保留正常比对到同源基因上的这端reads；

插入片段长度是指同一对PE read在参考基因组上的物理位置。如图6所示，其展示了同源基因在融合前后的参考基因组上的物理位置，即融合后300～500bp的实际插入片段长度，在比对回原始基因组后的插入片段长度即是缺失片段大小(即包含一个基因的长度及两个同源基因间的基因间区长度)。实际操作中需要找到发生融合后真实的300～500bp片段比对回原始基因组后，利用这种特别大的特异性插入片段(即缺失片段大小)，从而锁定发生融合的片段。

更进一步，进行单端reads的SNP信号判定的步骤包括：

将所有reads按拥有的SNP数目，从大到小排序；

进一步，为了解决常规检测方法会漏检CYP11B1和CYP11B2同源基因这一类融合，本发明还提供了基于差异SNP标记物的同源基因CYP11B1和CYP11B2的融合检测方法。本发明的基于差异SNP标记物的同源基因CYP11B1和CYP11B2的融合检测方法包括：

SNP信号判定，包括双端pair-end reads与单端reads的SNP信号判定，进行每个测序reads序列与CYP11B1和CYP11B2的序列一致性比较，寻找连续一致性SNP mark，并据此判定融合所在区域；

输出结果，包括CYP11B1和CYP11B2两个基因的断点位置、所在外显子exom或内含子intron、融合reads支持数、融合支持度及融合方向。

本发明的融合检测方法是利用CYP11B1和CYP11B2的同源基因差异序列SNP mark进行断点判定的，其主要思路是找到单端single reads或双端pair-end reads的一部分SNP位点与CYP11B1或CYP11B2相一致，而另一部分SNP位点与CYP11B2或CYP11B1相一致，且不管是前半部分或后半部分都要求是连续一致的，不能是间断的。

如图2所示，前3个marker代表检测的reads与CYP11B1基因序列比对后得到的SNP位点，反而与CYP11B2的序列是一致连续的。后面两个mark代表检测的reads与CYP11B2基因序列比对后得到的SNP位点，反而与CYP11B1的序列是一致连续的。图3所示的情况是不符合规则的，此类情况会判断为阴性。而这类marker不局限于单端single reads，还有双端pair-end reads如符合此类情况，也可以作为支持断点的信号。

本发明能得到断点所在区间，即前半部分最后一个位点和后半部分第一个位点(即图2中所示的最后一个实心marker和第一个空心marker)，且此区间的间距依赖于检测出来的这两个位点的物理距离，这样就规避掉常规结构变异检测方法在重复序列检测中遇到的问题。

具体地，基于差异SNP标记物的同源基因CYP11B1和CYP11B2的融合检测方法如下：

测序与数据处理

采用常规Illumina平台进行建库测序，首先对样本基因组进行DNA提取；然后随机打断，形成片段化文库；再进行桥式PCR扩增；最后经过测序，得到片段化测序reads序列。

测序reads需要与指定的参考基因组进行序列比对，定位DNA片段在基因组或基因上的位置。在序列比对之前，首先需要确保这些Reads有足够高的质量，以保证后续分析的准确。测序质量控制方式如下：

去除测序接头以及引物序列；

过滤低质量值序列或含N较多的序列，确保数据质量，过滤含有接头的pair-endreads；过滤N含量超过reads 10％的pair-end reads，过滤单条read的低质量碱基(Qphred≤5)含量超过50％的序列。

经过上述一系列的质量控制之后得到的高质量Reads或碱基，称为Clean Data。Clean Data以FASTQ格式提供。随后将高质量的Clean reads通过BWA软件比对到人类基因组hg19上面，确定每个reads的位置，进行后续分析。

分别提取两种融合信号

提取双端pair-end reads，满足比对到参考基因组的插入片段长度(Insertsize)的条件，优选地，所述插入片段长度条件为35000～40000bp，因为两个基因的基因间区距离大概在37Kb左右。由此预测如果发生融合，虽说它们的实际距离为250-500bp左右。但比对回参考基因组上，一个reads会比对到CYP11B1，另一个reads会比对到CYP11B2，二者之间理论相差距离应该大于基因间区的距离。

提取与参考基因组有SNP信号的单端reads，优选地，在提取与参考基因组有SNP信号的单端reads时，当reads上的SNP中2个及2个以上是dbSNP数据库中的高频SNP时，则此reads被过滤；当存在Indel信号时，则此reads被过滤。具体地，其判定标准如下：

1)默认reads上的SNP个数大于等于3，因为小于3个SNP支持的信号会引入假阳性。

2)reads上的SNP中2个及以上是dbSNP数据库中的高频SNP时，即千人数据库频率Allele Frequency(AF)>0.1，则此reads被过滤。这样的多态性位点会对判断产生干扰，引入假阳性，所以过滤此类SNP mark。

3)存在Indel信号时，则此reads被过滤。

双端PE reads的SNP信号判定

优选地，进行双端pair-end reads的SNP信号判定的步骤包括：

根据reads在参考基因上的比对位置，把比对位置相近的reads聚为一类，视为支持该区域发生融合的reads。以此reads比对到参考基因组的起始位置为中心，向前延伸100～300bp的reads长度，然后在此reads比对终止位置向后延伸100～300bp，所有比对到此区间的reads作为一个簇，进行后续分析。

由于某些双端reads，只有一端比对到CYP11B1或CYP11B2上，另一端比对其他基因或染色体，或者超过预设插入片段区间，或者没有比对到参考基因组上，这样的reads序列被过滤掉。保留另一端正常比对到CYP11B2或CYP11B1上的序列。

根据此簇中reads的最左端reads的比对起始位置和最右端reads的比对终止位置，生成bed文件，使用Samtools计算该区域的平均覆盖深度。

对该聚类簇中reads的每一对，提取测序得到的碱基序列，使用BWA比对软件定位到参考基因组上相应的CYP11B1、CYP11B2同源序列片段；使用muscle进行三序列比对，判定SNP mark是否前半段完全与CYP11B1/CYP11B2一致，后半段与另一基因CYP11B2/CYP11B1完全一致。若完全一致，则判定融合所在区域。

针对多对reads支持的融合区域，需要判定其融合区域是否一致。统计不同融合区域的reads数，记录其reads支持数，结合计算得到的平均覆盖深度计算其融合支持度。融合支持度评估的是支持此断点区域信号的reads占此区域总reads的比例，这个比例可以从一定程度上避免检出假阳性结果。

单端reads的SNP信号判定

优选地，进行单端reads的SNP信号判定的步骤包括：

对所有reads按其拥有的SNP数目，从大到小排序。

根据最左侧SNP的位置及最右侧SNP的位置，使用samtools计算该区域的平均覆盖深度。

选定SNP数目最多的一个reads作为参照，对其余所有reads进行判定：其与参照reads共有的SNP数目大于等于3时，且特有的SNP数目小于4，视为支持同一区域的融合信号，把该类reads聚类为同一簇(依次循环进行判断)。

对该聚类簇中reads提取测序得到的碱基序列，使用bwa寻找相应的CYP11B1、CYP11B2同源序列；使用muscle进行三序列比对，判定是否前半段完全与CYP11B1/CYP11B2一致，后半段与另一基因CYP11B2/CYP11B1完全一致。若完全一致，则判定融合所在区域。

对于满足所有要求的reads，判定其计算的融合区域是否一致，保存支持reads数最多的一个融合区域，并保存支持该融合区域的reads数及频率；若判定的融合区域与已经存在的融合区域相同(pair-end reads的SNP信号所判定的及前面SNP信号判定的)，则合并融合信号信息。

输出结果

输出结果包括CYP11B1和CYP11B2两个基因的断点位置，所在外显子exom或内含子intron，融合reads支持数，融合支持度，融合方向(即CYP11B1→CYP11B2或是CYP11B2→CYP11B1)。

本发明的基于差异SNP标记物的同源基因CYP11B1和CYP11B2的融合检测方法的检测原理如下：

针对现有检测技术的局限性，再结合CYP11B1和CYP11B2同源基因的特性，利用两基因的差异SNP信号进行区分。绕过测序深度差异，双端reads的插入片段长度异常和单端reads的软截断soft clip信号，进行每个测序reads序列与CYP11B1和CYP11B2的序列一致性比较，寻找连续一致性SNP mark，由此推断得到断点区间。

此类特殊基因融合有两种可能的融合信号：寻找单端reads比对到参考基因组有多处SNP信号，把存在这样SNP的reads序列与相应的CYP11B1和CYP11B2基因的同源序列，做三序列比对，reads的前半段序列与CYP11B1/CYP11B2完全一致，后半段序列与另一基因CYP11B2/CYP11B1完全一致。

双端pair-end reads中的一个reads序列比对到CYP11B1基因，另一个reads序列比对到CYP11B2基因,两条reads分别与对应CYP11B1、CYP11B2基因同源序列比对，按两条reads比对位置的前后，可以把两条reads上面的SNP信号合并为一组信号，该组合reads同样满足前半段序列与CYP11B1/CYP11B2完全一致，后半段序列与另一基因CYP11B2/CYP11B1完全一致。

基于以上两种信号，可对CYP11B1和CYP11B2特殊基因融合进行判定。

利用本发明的融合检测方法对家族性醛固酮增多症I型(FH-I)DNA样本进行了基因检测，得到在内含子intron1发生了基因融合，如图4所示，第一条代表CYP11B2，第二条代表CYP11B1，第三条序列展示了发生融合后的基因片段。

下面结合上面的一例样本来进一步说明本发明的融合检测方法的具体过程及步骤。

首先，进行DNA样本提取，利用琼脂糖凝胶电泳对基因组DNA的降解及杂质污染情况进行分析，然后对基因组DNA进行准确定量。

建库。将基因组DNA经Covaris破碎仪随机打断成长度为180-280bp的片段，经末端修复和加A尾后在片段两端分别连接上接头制备DNA文库。带有特异index的文库pooling后与多达543872个生物素标记的探针进行液相杂交，再使用带链霉素的磁珠将20965个基因的334378个外显子捕获下来，经PCR线性扩增后进行文库质检，合格即可进行测序。

库检和上机。使用Agilent 2100或者caliper检测文库插入片段的大小是否合适；根据峰图，可以看出有没有接头、杂峰、引物二聚体等，判断文库质量是否合格。QPCR检测，对文库中两端都连上接头的片段进行精确定量，根据定量的浓度进行pooling上机。

数据处理。下机原始数据是不能直接使用的，需要将测序得到的接头序列占比较多的reads，和含N较多的reads过滤掉，然后统计一下每个碱基所在位置的测序质量值，考察这个样本单次测序整体的质量。碱基质量值越高表明碱基识别越可靠，碱基测错的可能性越小。比如，对于碱基质量值为Q20的碱基识别，100个碱基中有1个会识别出错；对于碱基质量值为Q30的碱基识别，1000个碱基中有1个会识别出错；Q40表示10000个碱基中才有1个会识别出错。

比对与变异检测。BWA软件会将测序reads比对到参考基因组hg19上，形成目标区域的reads序列聚类群，则同一个位点会有多个reads检测到，称为单个位点的测序深度信息。然后利用GATK软件检测每个有reads覆盖的位点的基因型是否有纯合突变和杂合突变，给出有变异的位点检测结果。

融合检测。按照上述步骤找到有软截断的单端reads和有异常插入片段的双端reads，再保留两边各有一段连续一致SNP信号的reads，记录支持这段融合区域marker信号的reads数，统计融合支持度。

实验验证。根据检测的断点区间，设计了一代验证的引物，且引物区间总长度为770bp，引物序列信息如下表1所示，此对引物分别选取了CYP11B2外显子exom 1的一段序列和CYP11B1外显子exom 2的一段序列。另外在8号外显子区域设计了G→A的一对引物，且都在CYP11B2基因上，作为阴性对照区域。

表1引物序列

Primer	Sequence
		CYP11B2-exo1-FP	CAGCAGCCCCAGTGAAGTG
CYP11B1-exo2-RP	GTACCTGCATTTGCACATGTGT

实验结果。一代验证后的结果为阳性，如图5所示，其中条带1代表CYP11B2-exo1-FP到CYP11B1-exo2-RP的成对引物扩增片段，大概长度为750bp以上；条带2代表G→A的成对引物扩增片段，大概长度为300bp左右。通过一代验证结果显示，在内含子intron 1确实发生了基因融合，且此区域的片段能够扩增出来，验证了本发明的通过寻找一致性的SNPmarker识别融合区域的有效性。

最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制；尽管参照较佳实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者对部分技术特征进行等同替换；而不脱离本发明技术方案的精神，其均应涵盖在本发明请求保护的技术方案范围当中。

Claims

1.基于差异SNP标记物的同源基因的融合判定方法，其特征在于：所述融合判定方法包括：

2.根据权利要求1所述的融合判定方法，其特征在于：进行双端pair-end reads的SNP信号判定的步骤包括：

3.根据权利要求1所述的融合判定方法，其特征在于：进行单端reads的SNP信号判定的步骤包括：

将所有reads按拥有的SNP数目，从大到小排序；

4.基于差异SNP标记物的同源基因的融合检测方法，其特征在于：所述融合检测方法包括：

5.根据权利要求4所述的融合检测方法，其特征在于：在提取与参考基因组有SNP信号的单端reads时，当reads上的SNP中2个及2个以上是dbSNP数据库中的高频SNP时，则此reads被过滤；当存在Indel信号时，则此reads被过滤。

6.根据权利要求4所述的融合检测方法，其特征在于：进行双端pair-end reads的SNP信号判定的步骤包括：

7.根据权利要求4所述的融合检测方法，其特征在于：进行单端reads的SNP信号判定的步骤包括：

将所有reads按拥有的SNP数目，从大到小排序；

8.基于差异SNP标记物的同源基因CYP11B1和CYP11B2的融合检测方法，其特征在于：所述融合检测方法包括：

3)SNP信号判定，包括双端pair-end reads或单端reads的SNP信号判定，进行每个测序reads序列与CYP11B1和CYP11B2的序列一致性比较，寻找连续一致性SNPmark，并据此判定融合所在区域；

4)输出结果，包括CYP11B1和CYP11B2两个基因的断点位置、所在外显子exom或内含子intron、融合reads支持数、融合支持度及融合方向。

9.根据权利要求8所述的融合检测方法，其特征在于：在进行序列比对时，测序质量控制的步骤包括去除测序接头以及引物序列以及过滤低质量值序列或含N较多的序列。

10.根据权利要求8所述的融合检测方法，其特征在于：在所述步骤1)中，测序reads包括与指定的参考基因组进行序列比对，获得DNA片段在基因组或基因上的位置。

11.根据权利要求8～10中任一项所述的融合检测方法，其特征在于：所述插入片段长度条件为35000～40000bp。

12.根据权利要求8所述的融合检测方法，其特征在于：在提取与参考基因组有SNP信号的单端reads时，当reads上的SNP中2个及2个以上是dbSNP数据库中的高频SNP时，则此reads被过滤；当存在Indel信号时，则此reads被过滤。

13.根据权利要求8所述的融合检测方法，其特征在于：进行双端pair-end reads的SNP信号判定的步骤包括：

14.根据权利要求8所述的融合检测方法，其特征在于：进行单端reads的SNP信号判定的步骤包括：

将所有reads按拥有的SNP数目，从大到小排序；

对于满足所有要求的reads，判定reads计算的融合区域的一致性，保存支持reads数最多的一个融合区域，并保存支持所述融合区域的reads数及频率；若判定的融合区域与已经存在的融合区域相同，则合并两个区域。