发明内容
基于此,本发明的目的在于克服上述现有技术的不足之处而提供一种可检测极低浓度的基因融合的方法。
为实现上述目的,根据本发明的一个方面,提供了一种基因融合的检测方法,该检测方法包括以下步骤:S1,提供待检测的基因片段的序列,并与参考基因组进行序列比对;S2,提取与所述参考基因组序列部分一致的待检测基因片段,并对一致序列部分进行标记;S3,步骤S2提取的待检测基因片段重新与所述参考基因组进行序列比对,如果获得的一致序列与步骤S2标记的一致序列不相同,则推测所述步骤S2提取的待检测基因片段为基因融合;S4,验证所述基因融合的真假;所述S4具体包括:S41,将与所述待测基因片段的部分序列一致的来自所述参考基因组的两个参考基因序列拼接成假的参考序列;S42,将步骤S2提取的待检测基因片段与所述假的参考序列比对;S43,判断所述步骤S2提取的待检测基因片段的全部碱基序列是否与所述假的参考序列的部分序列一致,并且覆盖所述S41中两个参考基因序列的拼接区域,如果所述判断的结果为“是”,则表明所述步骤S2提取的待检测基因片段为基因融合,并且所述基因融合源自所述两个参考基因。应当说明的是,本发明中的基因并不限于有特定功能的脱氧核糖核苷酸序列,还可以是没有特定功能的核苷酸序列,或者是尚未发现特定功能的碱基序列;待检测的序列可以是一条,2条,或者是很多条序列的集合。
作为上述方案的进一步优化,所述检测方法还包括S0:重复序列过滤,所述重复序列过滤步骤包括:S01,设计30~75bp的模拟碱基序列,与所述参考基因组序列比对,找出所述参考基因上所述模拟碱基序列的覆盖度明显高于周围序列的区域,标记所述区域为高度重复区域;S02,在步骤S1和/或步骤S42进行序列比对之前,先将所述参考基因组中的所述高度重复区域过滤,以提高序列比对的准确度。应当说明的是,30~75bp的模拟碱基序列是从参考基因组中随机挑选的;而模拟碱基序列的长度是从30~75这46个数字中随机选择的。
作为上述方案的进一步优化,所述S41利用K-mer算法拼接得到假的参考序列。
作为上述方案的进一步优化,所述S1的待检测的基因片段的序列长度为30bp以上;更进一步的,所述S1的待检测的基因片段的序列长度为30~75bp。应当说明的是,在检测基因融合时,利用待检测序列一端比对到目标区域,另一端比对到基因组其他区域的序列(softclip,软切片),测序的长度一般为150bp。75bp正好是标准长度的一半;如果软切片序列长度超过75bp,则比对到目标区域的长度小于序列长度的一半,说明该reads(即测出的序列)在基因组的匹配程度不高;而匹配程度低于序列长度一半的reads是要被过滤掉的,所以待检测序列的长度应小于75bp;软切片序列长度大于30bp,是因为序列太短,则在基因组匹配的位置太多,唯一性不高,找不到唯一匹配的序列,软切片长度为30bp经验证,是最短序列长度要求。
作为上述方案的进一步优化,所述S1采用软件BWA进行序列比对。应当说明的是,由于基因融合的序列来自于两个不同的基因片段,所以基因融合的序列比对到参考基因组时,会有一部分不能完整的比对到参考基因组上,因此,利用BWA这款开源软件将待检测的测序序列比对到参考基因组时,如果待检测的测序序列有不能完整比对到人类参考基因组的序列,此软件会用S来单独表示(S代表的是soft clip,即是软切片),代表这段序列中有一段不能比对到参考基因组,而有另外一段则可以比对到参考基因组;在进行数据分析时,第一步就是提取所有待检测序列的比对结果中有S的序列,如果softclip的序列很短,例如小于30bp,就不能很好的追踪此软切片的序列在人类参考基因组中的来源,因为人类基因组的序列很长(~3G碱基对),而且基因组中有很多的重复序列;如果序列很短(<30bp)则此待检测的序列在参考基因组的唯一性很低,难以对软切片的位置定位。
作为上述方案的进一步优化,所述S4中覆盖拼接区域的待检测序列为3条以上。应当说明的是,基因组存在很多有多个拷贝的重复序列,测序仪测序是随机测序,测序结果中间也有很多的噪音和假阳性,如果只有一条reads(即待检测序列)支持覆盖拼接区域,则有很大的可能是重复序列造成的,所以要有一条以上的待检测序列覆盖拼接区域,并且条数越多越好;然而,样本的测序覆盖深度有限,而且有软切片的reads占的比例也很低,由此,综合下来覆盖拼接区域的待检测序列为3条,属于最低值。
作为上述方案的进一步优化,所述假的参考序列的拼接区域添加了所述两个参考基因序列拼接位点周围的序列。应当说明的是,所述假的参考基因序列是利用两个融合序列断点两边的约200bp拼接形成;例如,当发现两个断点时,一个断点(相对另一个断点)在5’端,另外一个断点在3’端,基因复制和翻译的顺序是5’到3’,那么将5’端断点的左侧200bp的序列放在左边,拼接3’端断点右侧的序列放在右端,以形成理论上融合的序列(即假的参考基因序列)。
根据本发明的另一方面,提供了一种基因融合的检测装置,该装置包括测序模块,用于对待检测的基因片段测序;序列比对模块,用于待检测的基因片段序列与参考基因组的比对,和对一致序列部分进行标记;数据分析模块,用于判断先后标记的一致序列是否相同,当先后标记的一致序列不同时,则推测:含有两段不同的标记的一致序列的待检测基因片段为基因融合;验证模块,用于验证所述基因融合的真假;所述验证模块进一步包括以下子模块:序列组装子模块,用于将含有不同标记的一致序列的两个参考基因序列拼接成假的参考序列;序列比对子模块,用于含有标记的一致序列的待检测基因片段与所述假的参考序列的序列比对;序列分析子模块,用于判断含有标记的一致序列的待检测基因片段的全部碱基序列是否与所述假的参考序列的部分序列一致,并且覆盖所述两个参考基因序列的拼接区域,当所述判断的结果为“是”,则判定:含有标记的一致序列的待检测基因片段为基因融合,并且所述基因融合源自所述两个参考基因。
作为上述方案的进一步优化,所述检测装置还包括重复序列过滤模块,所述重复序列过滤模块进一步包括以下子模块:重复序列筛选子模块,用于设计30-75bp的模拟碱基序列,与所述参考基因组序列比对,找出所述参考基因上所述模拟碱基序列的覆盖度明显高于周围序列的区域,标记所述区域为高度重复区域;重复序列过滤子模块,用于在进行序列比对之前,先将所述参考基因组中的所述高度重复区域过滤,以提高序列比对的准确度。
综上所述,本发明的有益效果为:
1、采用本发明的方法能够准确的检测出极低浓度的基因融合序列(<1%),对融合浓度高的基因融合序列更加的敏感,而大部分现有方法只能检测浓度为2%以上的基因融合序列;
2、采用本发明的方法检测出的融合或拼接位点准确度高,假阳性低;
3、采用本发明的方法可以同时处理全基因组测序序列以及捕获测序序列。
具体实施方式
应当说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合。下面通过实施例结合参考附图来详细说明本发明。
目前,大部分同类的方法只能检测浓度为2%以上的基因融合序列,并且假阳性高,准确度不高。针对现有技术中的上述不足,本发明提供了以下技术方案。
根据本发明一种典型的实施方式,提供一种基因融合的检测方法。该检测方法包括以下步骤:S1,提供待检测的基因片段的序列,并与参考基因组进行序列比对;S2,提取与所述参考基因组序列部分一致的待检测基因片段,并对一致序列部分进行标记;S3,步骤S2提取的待检测基因片段重新与所述参考基因组进行序列比对,如果获得的一致序列与步骤S2标记的一致序列不相同,则推测所述步骤S2提取的待检测基因片段为基因融合;S4,验证所述基因融合的真假;所述S4具体包括:S41,将与所述待测基因片段的部分序列一致的来自所述参考基因组的两个参考基因序列拼接成假的参考序列;S42,将步骤S2提取的待检测基因片段与所述假的参考序列比对;S43,判断所述步骤S2提取的待检测基因片段的全部碱基序列是否与所述假的参考序列的部分序列一致,并且覆盖所述S41中两个参考基因序列的拼接区域,如果所述判断的结果为“是”,则表明所述步骤S2提取的待检测基因片段为基因融合,并且所述基因融合源自所述两个参考基因。由此,通过将待检测的基因片段与拼接成的假的融合基因(作为假的参考序列),不仅可以从低浓度的DNA中检测出基因融合序列,同时,可以准确地找到基因融合位点,以及基因融合发生的频率。
根据本发明一种典型的实施方式,该检测方法包括S0:重复序列过滤,所述重复序列过滤步骤包括:S01,设计30-75bp的模拟碱基序列,与所述参考基因组序列比对,找出所述参考基因上所述模拟碱基序列的覆盖度明显高于周围序列的区域,标记所述区域为高度重复区域;S02,在步骤S1和/或步骤S42进行序列比对之前,先将所述参考基因组中的所述高度重复区域过滤,以提高序列比对的准确度。由此,待检测基因序列与参考基因组比对时,可以避开重复序列,以提高比对的效率和准确率。
根据本发明一种典型的实施方式,S41利用K-mer算法拼接得到假的参考序列。进一步的,参考序列的拼接区域添加了所述两个参考基因序列拼接位点周围的序列。由此,对所有可能的基因融合序列根据重叠区域,利用K-mer的算法组装出可能的融合序列,同时,在可能的融合序列拼接区域加入了融合位点周围的序列,这样可以提高融合序列的唯一性。
根据本发明一种典型的实施方式,S1的待检测的基因片段的序列长度为30bp以上;进一步的,S1的待检测的基因片段的序列长度为30~75bp。如果待检测的序列很短,例如小于30bp,就不能很好的追踪此序列在参考基因组中的来源(因为参考基因组容量大,含有很多重复序列),此待检测的序列在参考基因组的唯一性很低,难以对软切片的位置定位;当待检测的序列长度大于30bp时,其唯一性高,能避免大量正常碱基序列的干扰,只检测有变异和不正常的序列。
根据本发明一种典型的实施方式,S1采用软件BWA进行序列比对。利用BWA这款开源软件将待检测的测序序列比对到参考基因组时,如果待检测的测序序列有不能完整比对到人类参考基因组的序列,此软件会用S来单独表示(S代表的是soft clip,即是软切片),代表这段序列中有一段不能比对到参考基因组,而有另外一段则可以比对到参考基因组;在进行数据分析时,通过提取所有待检测序列的比对结果中有S的序列,再次进行比对,可以显著减少比对的工作量,节省时间成本。
根据本发明一种典型的实施方式,所述S4中覆盖拼接区域的待检测序列为3条以上。
根据本发明一种典型的实施方式,提供了一种基因融合的检测装置,该装置包括测序模块,用于对待检测的基因片段测序;序列比对模块,用于待检测的基因片段序列与参考基因组的比对,和对一致序列部分进行标记;数据分析模块,用于判断先后标记的一致序列是否相同,当先后标记的一致序列不同时,则推测:含有两段不同的标记的一致序列的待检测基因片段为基因融合;验证模块,用于验证所述基因融合的真假;所述验证模块进一步包括以下子模块:序列组装子模块,用于将含有不同标记的一致序列的两个参考基因序列拼接成假的参考序列;序列比对子模块,用于含有标记的一致序列的待检测基因片段与所述假的参考序列的序列比对;序列分析子模块,用于判断含有标记的一致序列的待检测基因片段的全部碱基序列是否与所述假的参考序列的部分序列一致,并且覆盖所述两个参考基因序列的拼接区域,当所述判断的结果为“是”,则判定:含有标记的一致序列的待检测基因片段为基因融合,并且所述基因融合源自所述两个参考基因。
根据本发明一种典型的实施方式,该检测装置包括重复序列过滤模块,所述重复序列过滤模块进一步包括以下子模块:重复序列筛选子模块,用于设计30-75bp的模拟碱基序列,与所述参考基因组序列比对,找出所述参考基因上所述模拟碱基序列的覆盖度明显高于周围序列的区域,标记所述区域为高度重复区域;重复序列过滤子模块,用于在进行序列比对之前,先将所述参考基因组中的所述高度重复区域过滤,以提高序列比对的准确度。
采用本发明的方法和装置可以从极低浓度(<1%)的DNA(例如血液中的肿瘤循环DNA)中检测出不同基因的序列的融合事件,并鉴定出两个基因融合的位置和基因融合出现的频率。
下面将结合实施例进一步说明本发明的有益效果。
实施例1
本发明的基因融合的检测方法的一种实施例,其中:
检测对象:肿瘤循环DNA。
肿瘤DNA在血液中的浓度很低,从血液中提取的DNA测序能测到的大部分的测序序列来自于组织的DNA序列。所以,在本实施例中,首先从组织DNA鉴定出肿瘤DNA,然后再做基因融合方面的鉴定。
检测方法:包括如下步骤:
如图1所示,第一步:左边的聚集在一起的短的线,是待测序的短序列;右边的三根线为三个基因的参考序列(分别命名为A、B、C);
第二步:利用序列比对软件把短的待测序序列比对到参考基因序列上;
第三步:设计30-75bp的模拟碱基序列,并利用30-75bp的模拟碱基序列数据模拟高覆盖测序的数据,比对到参考基因序列,找出参考基因序列上覆盖度显著性的高于周围序列的区域,标记这些区域为高度重复区域;后期利用软切片比对的时候,比对到此区域,则需要进行过滤;
第四步:提取比较长(大于30bp)的软切片的序列,利用提取的软切片的序列重新比对参考基因组;
第五步:将与同一软切片的不同碱基序列具有一致序列的多个参考基因序列(利用K–mer算法)两两组合成假的参考基因序列,将有软切片的序列重新比对到假的参考基因序列;如果有多个待检测的序列支持(即可以完全比对到)同一个拼接的假的参考基因序列,并且覆盖拼接区域,则表明这个待检测的序列来自两个参考基因序列的融合,属于融合基因。
对于上述五步,应当说明的是:
1、关于第二步,由于基因融合的序列来自于两个不同的基因片段,所以基因融合序列比对到参考基因组时,会有一部分不能完整的比对到参考基因组上,此时,利用BWA这款开源软件把初始的测序序列比对到参考基因组时,如果待检测的测序序列有不能完整比对到人类参考基因组的序列,此软件会用S来单独表示(S代表的是softclip,即软切片),代表这段序列中有一段不能比对到参考基因组,而另外一段则可以比对到参考基因组;在进行数据分析时,第一步就是提取所有比对的结果中有S的序列;
2、关于第四步,如果soft clip的序列很短,例如小于30bp,就不能很好的追踪此软切片的序列在参考基因组(例如人类基因组)中的位置;因为人类基因组的序列很长(~3G碱基对),而且基因组中有很多的重复序列,如果待检测的序列很短(<30bp),则此序列在参考基因组的唯一性很低;
3、关于第三步,将提取的软切片序列比对标准的人类参考基因组中,寻找比对到参考基因组序列唯一的匹配对高的序列,以确定该软切片在参考基因组中的位置;由于软切片的序列很短,所以比对到参考基因组时,会有很多的序列匹配到参考基因组的多个位置;为了剔除这些比对位置有错误的位点,本实施例利用模拟的30~75bp的序列比对到参考基因组,预先鉴定出可能的会比对到多个位置的,在基因组中有重复的段序列的位置,然后,根据这些位置,对软切片比对到参考基因组的位置进行过滤;
4、关于第五步,根据软切片的序列不同部分比对到参考基因组的不同位置,利用K-mer的算法,根据两个参考序列重叠的位置组装出假的融合序列;将与参考基因组中两段不同序列一致的待检测序列与假的融合序列比对,如果有软切片的序列能够整条序列全部完整的比对到组装的假的融合序列上,而且软切片序列支持的数目超过3条,则认为两个参考基因片段发生了融合。
实施例2
从invitrogen网站订购3个具有基因融合的标准品,采用本发明的基因融合检测装置处理后,其中,所有的基因融合序列被鉴定到,基因融合的位置和标准品结果一致;标准品的基因融合断裂的位置是固定的(标准品没有给出融合的位置),不是随机的,所以,只要检测到的融合基因序列正确,则基因融合的位置也与标准品是一致的。基因融合检测出的频率(如下表1)也大致相同。
表1本发明的基因融合检测装置的检测效果
样本名称 |
基因融合 |
标准的融合频率 |
检测出的融合频率 |
HD664 |
ALK-EML4 |
50.00% |
43.58% |
HD753 |
ROS1-SLC32A |
5.00% |
4.20% |
HD753 |
RET-CDC6 |
5.00% |
4.90% |
从上表1可知,采用本发明的检测方法和装置检测基因融合序列,具有很高的准确率。
与现有技术相比,本发明的有益效果主要体现在以下几个方面:
1、能够准确的检测出极低浓度基因融合序列(<1%),对融合浓度高的基因融合序列更加的敏感。大部分现有技术只能检测浓度为2%以上的基因融合。本方法既可以用于临床组织的基因融合的检验,也可以应用于血液里面ctDNA(circulating tumor DNA)的检验。因为血液里的肿瘤DNA的含量很低(<1%),目前使用的大部分基因融合检测的样品浓度最低值都高于这个浓度;本方法利用待检测的序列中有长软切片(>30bp)的测序序列比对参考基因组,以寻找可能的融合位置,这样就避免了大量正常DNA测序序列的干扰,只检测有变异和不正常的序列;
2、采用本发明的方法检测出的融合位点准确度高,假阳性低。本方法不仅通过长的软切片序列检测可能的融合序列,,也具有对检测出的融合序列进行验证的步骤;对所有可能的基因融合序列根据重叠区域,利用K-mer的算法组装出可能的融合序列(即假的参考序列);同时,在可能的融合序列区域加入了融合位点周围的序列,这样,可以提高供参考的融合序列的唯一性;
3、本发明的方法可以同时处理全基因组测序序列和捕获测序的序列。基因组捕获技术可以抓取基因组特定区域的序列,相比于全基因组测序的方法,可以在达到相同目的的同时,极大的降低成本。现有的很多基因融合检测软件针对的是全基因组测序序列,而不能处理捕获测序序列,因为这些基因融合检测程序需要两条融合序列的测序信息;本发明的方法通过检索长软切片的方法,可以通过自动搜索全基因组寻找可能匹配序列,然后提取对应位置覆盖序列进行基因融合的检测;通过本发明的方法进行基因融合检测,只需要知道两个基因融合序列的其中一个,就可以寻找出所有可能与这个基因序列融合的另一个靶基因。
最后所应当说明的是,以上实施例仅用以说明本发明的技术方案而非对本发明保护范围的限制,尽管参照较佳实施例对本发明作了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的实质和范围。