CN110660451A - 确定生物样本中是否存在融合基因的方法、设备及应用 - Google Patents

确定生物样本中是否存在融合基因的方法、设备及应用 Download PDF

Info

Publication number
CN110660451A
CN110660451A CN201810607450.5A CN201810607450A CN110660451A CN 110660451 A CN110660451 A CN 110660451A CN 201810607450 A CN201810607450 A CN 201810607450A CN 110660451 A CN110660451 A CN 110660451A
Authority
CN
China
Prior art keywords
fusion
sequence
suspected
gene
biological sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810607450.5A
Other languages
English (en)
Other versions
CN110660451B (zh
Inventor
刘继龙
刘足
谭美华
叶明芝
茅矛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Huada Clinical Laboratory Center
Guangzhou Huada Gene Medical Laboratory Co Ltd
BGI Shenzhen Co Ltd
Original Assignee
Shenzhen Huada Clinical Laboratory Center
Guangzhou Huada Gene Medical Laboratory Co Ltd
BGI Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Huada Clinical Laboratory Center, Guangzhou Huada Gene Medical Laboratory Co Ltd, BGI Shenzhen Co Ltd filed Critical Shenzhen Huada Clinical Laboratory Center
Priority to CN201810607450.5A priority Critical patent/CN110660451B/zh
Publication of CN110660451A publication Critical patent/CN110660451A/zh
Application granted granted Critical
Publication of CN110660451B publication Critical patent/CN110660451B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及基因检测领域,具体涉及一种确定生物样本中是否存在融合基因的方法及系统和应用。确定生物样本中是否存在融合基因的方法,包括:将来源于所述生物样本的全基因组至少一部分的测序序列与所述生物样本的参照序列分别进行第一比对处理和第二比对处理,其中在所述第一比对处理中,使所述测序序列与所述参照序列强制左端匹配,在所述第二比对处理中,使所述测序序列与所述参照序列强制右端匹配;基于所述第一比对处理和所述第二比对处理的结果,确定生物样本中是否存在融合基因。并提供了相应的设备和计算机可读存储介质。本发明方法对于融合支持序列的识别能力更强,且可排除单端信号引入的错误信息,判定结果更加准确,检测限更低。

Description

确定生物样本中是否存在融合基因的方法、设备及应用
技术领域
本发明涉及基因检测领域,具体涉及一种确定生物样本中是否存在融合基因的方法、设备及应用。
背景技术
基因融合是两个基因的序列断裂后重构成一个新的嵌合基因的过程,新形成的两条DNA分子中都同时包含两个基因的部分序列。融合基因可能导致蛋白质表达水平、功能和活性位点的异常。在癌症中,当转录活性被抑制的促进生长的癌基因通过基因融合获得强启动子时(如ALK-EML4),转录活性会大大提高,进而引起细胞的异常增殖,促进肿瘤的发生发展。这类融合变异具有激酶活性,现有发现的例如克唑替尼对该类变异靶向抑制作用。因此,对癌症患者的融合变异进行检测,进而可以指导靶向药物的使用。然而并未有针对融合基因检测的方法还有待改进。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本发明的一个目的在于提出一种确定生物样本中是否存在融合基因的方法及其系统,方便快速准确确定样本中是否存在融合基因,从而可以将其应用于癌症患者的融合变异进行检测,对于指导癌症靶向药物的使用具有重大的意义。
为此,根据本发明的一方面,本发明提供了一种确定生物样本中是否存在融合基因的方法,包括:
(1)将来源于所述生物样本的全基因组至少一部分的测序序列与所述生物样本的参照序列分别进行第一比对处理和第二比对处理,其中在所述第一比对处理中,使所述测序序列与所述参照序列强制左端匹配,在所述第二比对处理中,使所述测序序列与所述参照序列强制右端匹配;
(2)基于所述第一比对处理和所述第二比对处理的结果,确定生物样本中是否存在融合基因。
在本文中,强制左端匹配指的是将测序序列和参照序列在左端进行配对,保证测序序列的左端和参照序列的左端匹配上去,强制右端匹配指的是将测序序列和参照序列在右端进行配对,保证测序序列的右端和参照序列的右端匹配上去。通过将生物样本的全基因组的至少一部分的测序序列与参照序列强制左端匹配以及强制右端匹配,得到的匹配的reads数就会增多,而且分布在两个基因区域,这样融合的两个基因区域的融合信号都会提升至接近数据所包含的真实的融合信号,从而融合支持reads的识别能力更强,而且可以排除单端信号引入的错误信息,判定结果更加准确,检测限更低。
其中,本发明中对于“左端”和“右端”的表述是根据核苷酸序列的方向来说的。对于一条核苷酸序列来说,核苷酸序列遵从始于序列的5’末端并朝向3’末端前行(即,在各行中从左到右)的标准惯例。左端匹配即将测序序列与参照序列靠近5’末端处匹配。右端匹配即将测序序列与参照序列靠近3’末端处匹配。
在本文中,所述参照序列指的是与所述待检测的生物样本同种的未发生融合的基因组序列。当所述生物样本来自于人时,所述参考序列可以是人类基因组序列hg19。
根据本发明的实施例,所述确定生物样本中是否存在融合基因的方法进一步包括如下附加技术特征:
根据本发明的实施例,所述测序序列为DNA序列。当确定生物样本中是否存在融合基因时,将来自于该生物样本的全基因组的至少一部分的DNA序列与该生物样本的参照序列进行强制左端匹配以及强制右端匹配处理,以便确定该生物样本中是否存在融合基因。其中,该测序序列可以是单端测序得到的序列,也可以是基因双端测序得到的测序序列,可以是通过任何测序平台所获得的DNA序列,所述DNA序列的长度可以为150bp~200bp之间。
根据本发明的实施例,所述第一比对处理和所述第二比对处理分别独立地采用tmap软件进行的。利用该软件的-g参数,可以实现测序序列和参照序列的快速比对,从而提高融合突变检测的灵敏性和准确性。
根据本发明的实施例,在步骤(2)中,进一步包括:基于所述第一比对处理和所述第二比对处理的结果,确定疑似融合基因测序序列,所述疑似融合基因测序序列在所述第一比对处理和所述第二比对处理中均具有匹配末端和非匹配末端,其中,所述疑似融合基因测序序列的存在是在所述生物样本中存在融合基因的指示。
在本文中,所述匹配末端指的是两个比对序列的一端可以进行配对,非匹配末端指的是两个比对序列的一端不能进行配对。非匹配末端的形成可能是由于序列是来自于其他的基因,所以可能是一个融合的信号。融合后的基因在与参照序列进行比对的过程中,会有一部分匹配到参照序列上,来自于另一个基因的部分序列与参照序列不能进行配对,会形成一端匹配,另一端非匹配,即形成一个开口的方式,从而可以用来指示融合基因的存在。
根据本发明的实施例,所述非匹配末端的长度为20bp以上,优选为20bp~60bp。当所形成的非匹配末端的长度在20bp以下时,会存在很多同源性比对,影响检测结果,所以非匹配末端的长度最好在20bp以上。优选在20bp到60bp之间。
根据本发明的实施例,进一步包括通过下列步骤确定阳性融合位点:
(3)基于所述融合基因测序序列在所述参照序列上的匹配结果,确定至少一个疑似融合位点;
(4)针对所述至少一个疑似融合位点的每一个,分别确定所述疑似融合位点的融合基因测序序列支持数;
(5)选择所述融合基因测序序列支持数不低于预定阈值的所述疑似融合位点作为最终的阳性融合位点。
根据本发明的实施例,在确定阳性融合位点的方法中可以进一步包括如下附加技术特征:
根据本发明的实施例,在步骤(3)中包括针对每个所述融合基因测序序列,基于所述匹配末端和所述非匹配末端的交界处,确定所述疑似融合位点。
根据本发明的实施例,选择所述匹配末端在所述交界处的最末碱基作为所述疑似融合位点。将所述匹配末端和所述非匹配末端的交界处的断点,即将开始发生不匹配的那个位点作为融合的位点,可以快速准确定位到疑似的融合位点。
根据本发明的实施例,所述预定阈值为3~5,优选为3。通过对大量样本进行测定,选择阈值3~5这一经验性数值作为相应的预定阈值,可以有效保证数据的灵敏性和特异性。
根据本发明的另一方面,本发明提供了一种确定生物样本中是否存在融合基因的设备,包括:
比对处理模块,所述比对处理模块将来源于所述生物样本的全基因组至少一部分的测序序列与所述生物样本的参照序列分别进行第一比对处理和第二比对处理,其中在所述第一比对处理中,使所述测序序列与所述参照序列强制左端匹配,在所述第二比对处理中,使所述测序序列与所述参照序列强制右端匹配;
融合基因确定模块,所述融合基因确定模块基于所述第一比对处理和所述第二比对处理的结果,确定生物样本中是否存在融合基因。
根据本发明的实施例,所述确定生物样本中是否存在融合基因的设备可以进一步包括如下附加技术特征:
根据本发明的实施例,所述设备中,所述测序序列为DNA序列。
根据本发明的实施例,所述设备中,所述第一比对处理和所述第二比对处理分别独立地采用tmap软件进行的。
根据本发明的实施例,所述融合基因确定模块进一步包括:
疑似融合基因确定单元,所述疑似融合基因确定单元基于所述第一比对处理和所述第二比对处理的结果,确定疑似融合基因测序序列,所述疑似融合基因测序序列在所述第一比对处理和所述第二比对处理中均具有匹配末端和非匹配末端,其中,所述疑似融合基因测序序列的存在是在所述生物样本中存在融合基因的指示。
根据本发明的实施例,所述融合基因确定模块中,所述非匹配末端的长度为20bp以上,优选为20~60bp。
根据本发明的实施例,所述设备进一步包括如下模块来确定阳性融合位点:
疑似融合位点确定模块,所述疑似融合位点确定模块基于所述融合基因测序序列在所述参照序列上的匹配结果,确定至少一个疑似融合位点;
融合基因支持数确定模块,所述融合基因支持数确定模块针对所述至少一个疑似融合位点的每一个,分别确定所述疑似融合位点的融合基因测序序列支持数;
阳性融合位点确定模块,所述阳性融合位点确定模块基于选择所述融合基因测序序列支持数不低于预定阈值的所述疑似融合位点作为最终的阳性融合位点。
根据本发明的实施例,所述疑似融合位点确定模块包括针对每个所述融合基因测序序列,基于所述匹配末端和所述非匹配末端的交界处,确定所述疑似融合位点。
根据本发明的实施例,选择所述匹配末端在所述交界处的最末碱基作为所述疑似融合位点。
根据本发明的实施例,所述设备中,所述预定阈值为3~5,优选为3。
根据本发明的又一方面,本发明提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序。根据本发明的实施例,所述处理器执行所述程序时,实现如以上任一项实施例中所述的确定生物样本中是否存在融合基因的方法。
根据本发明的再一方面,本发明提供了一种计算机可读存储介质,其上存储有计算机程序。根据本发明的实施例,该计算机程序被处理器执行时实现如以上任一项实施例中所述的确定生物样本中是否存在融合基因的方法。
本发明所取得的有益效果为:本发明提供的融合分析过程对于融合支持reads的识别能力更强,而且同时考虑一条reads在两个基因位置上的比对情况,排除单端信号会引入的错误信息,判定结果则更加准确。检测限更低,而且时间短、效率高。
附图说明
图1为根据本发明的一个实施例提供的确定生物样本中是否存在融合基因的设备的示意图。
图2为根据本发明的一个实施例提供的确定生物样本中是否存在融合基因的设备的示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
为了检测融合基因存在与否,根据本发明的实施例,本发明提供了一种确定生物样本中是否存在融合基因的方法,包括:
(1)将来源于所述生物样本的全基因组至少一部分的测序序列与所述生物样本的参照序列分别进行第一比对处理和第二比对处理,其中在所述第一比对处理中,使所述测序序列与所述参照序列强制左端匹配,在所述第二比对处理中,使所述测序序列与所述参照序列强制右端匹配;
(2)基于所述第一比对处理和所述第二比对处理的结果,确定疑似融合基因测序序列,所述疑似融合基因测序序列在所述第一比对处理和所述第二比对处理中均具有匹配末端和非匹配末端,其中,所述疑似融合基因测序序列的存在是在所述生物样本中存在融合基因的指示。
其中来利用软件来确定生物样本中是否存在融合基因时,例如利用tmap软件,通过调节软件的参数来确定生物样本中是否存在融合基因时,强制左端匹配对应的是利用软件在右端开softclip,强制右端匹配对应的是利用软件在左端开softclip。开softclip的操作是由于比对软件的打分系统生成的,只有当某一端比较长的部分比对不上去才会以softclip的形式存在,这里限定softclip的方向是指当softclip存在的时候只能在限定的方向存在。
在本文中,当所述生物样本为人体时,所用到的参照序列为hg19。
在本发明的一种具体实施方式中,本发明提供了一种确定生物样本中是否存在融合基因的设备,如图1所示,该设备包括比对处理模块以及融合基因确定模块,所述融合基因确定模块与所述比对处理模块相连,所述比对处理模块将来源于所述生物样本的全基因组至少一部分的测序序列与所述生物样本的参照序列分别进行第一比对处理和第二比对处理,其中在所述第一比对处理中,使所述测序序列与所述参照序列强制左端匹配,在所述第二比对处理中,使所述测序序列与所述参照序列强制右端匹配;所述融合基因确定模块基于所述第一比对处理和所述第二比对处理的结果,确定生物样本中是否存在融合基因。
在本发明的又一具体实施方式中,所述融合基因确定模块进一步基于所述第一比对处理和所述第二比对处理的结果,确定疑似融合基因测序序列,所述疑似融合基因测序序列在所述第一比对处理和所述第二比对处理中均具有匹配末端和非匹配末端,其中,所述疑似融合基因测序序列的存在是在所述生物样本中存在融合基因的指示。
在本发明的又一具体实施方式中,本发明提供了一种确定生物样本中是否存在融合基因的设备,如图2所示。该设备包括比对处理模块,融合基因确定模块,疑似融合位点确定模块,融合基因支持数确定模块以及阳性融合位点确定模块,其中,所述比对处理模块,融合基因确定模块,疑似融合位点确定模块,融合基因支持数确定模块以及阳性融合位点确定模块依次相连。其中,所述比对处理模块将来源于所述生物样本的全基因组至少一部分的测序序列与所述生物样本的参照序列分别进行第一比对处理和第二比对处理,其中在所述第一比对处理中,使所述测序序列与所述参照序列强制左端匹配,在所述第二比对处理中,使所述测序序列与所述参照序列强制右端匹配;所述融合基因确定模块基于所述第一比对处理和所述第二比对处理的结果,确定生物样本中是否存在融合基因;所述疑似融合位点确定模块基于所述融合基因测序序列在所述参照序列上的匹配结果,确定至少一个疑似融合位点;所述融合基因支持数确定模块针对所述至少一个疑似融合位点的每一个,分别确定所述疑似融合位点的融合基因测序序列支持数;所述阳性融合位点确定模块基于选择所述融合基因测序序列支持数不低于预定阈值的所述疑似融合位点作为最终的阳性融合位点。
通过本发明的方法或者本发明的设备,在检测融合基因时,具有如下优势:
(1)融合支持reads识别能力更强:当只有一种比对方式(即仅仅通过左端比对,或者仅仅通过右端匹配来确定融合基因)的时候,由于softclip开口方向的限制,融合断点的支持reads会分开分布在两个基因(启动子基因,癌基因)的区域而难以识别。正确识别出的softclip reads在切割出softclip片段进行反向比对时会因为比对软件影响下丢失。当同时使用两种方式比对并合并数据的时候,这些支持reads就会进行合并,同时都分布在两个基因区域,这样两个基因区域的融合信号都会提升至接近数据所包含的真实融合信号。
(2)准确性更高:同时考虑一条reads在两个基因位置上的比对情况,排除单端信号会引入的错误信息,判定结果则更加准确。
(3)最低检出限更低:由于该专利能检测的融合信号更强,那么该专利能适用于更低的检出限。
(4)分析速度快。由于芯片的特殊设计和新的分析策略,本专利数据分析的时间短、效率高。
下面将结合实施例对本发明的方案进行解释。本领域技术人员将会理解,下面的实施例仅用于说明本发明,而不应视为限定本发明的范围。实施例中未注明具体技术或条件的,按照本领域内的文献所描述的技术或条件或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者,均为可以通过市购获得的常规产品。
实施例一
利用比对软件tmap确定生物样本中是否存在融合基因,其中,比对软件tmap可以在如下网址中下载获得:https://github.com/iontorrent/TS/tree/master/Analysis/TMAP。tmap软件是Thermofisher公司在bwa的基础上进行改进和优化后的比对软件,支持通过“-g,--softclip-type”来控制soft-clip开启方向,该参数对应的输入为一个int型的数字(其中INT的默认值为2,代表的是在read的右端开softclip)。
其中-g对应的不同的数字代表不同的含义,具体如下表所示:
表1 不同参数对应的含义
-g(Int值) --softclip-type
0 允许在read的两端开softclip
1 只允许在read的左端开softclip
2 只允许在read的右端开softclip
3 不允许开softclip
其中,Softclip即为软切割序列,指的是在将测序序列同参照序列比对的过程中,所筛选得到的一个末端匹配,另一末端开口的序列。具体而言,在利用tmap软件的-g参数进行比对参数的过程中,将-g参数调节为1(-g 1),利用tmap软件将测序序列比对到参照序列上,得到比对后的序列,所得到的这些序列左端开口,形成非匹配末端,右端与参照序列匹配;将-g参数调节为2(-g 2),利用tmap软件将测序序列比对到参照序列上,得到比对后的序列,所得到的这些序列右端开口,形成非匹配末端,左端与参照序列匹配。同时,在利用tmap软件进行比对的过程中,用tmap软件的打分系统来决定是否开softclip,其中tmap软件中一个碱基匹配加1分,一个碱基错配减3分,开一个gap扣5分,gap延伸1bp扣1分,当匹配所加的分小于开gap扣的分则会以softclip的形式存在。
例如,取-g 1比对得到的softclip序列,保留在tmap软件中的bam文件的某一列,表征的是所形成的softclip序列的cigar标签,用“S”表示。例如某条read的cigar标签为50M10D10M30S,则其具体含义为read的前50bp匹配(match)到hg19,接着10bp缺失,接着10bp匹配match,最后30bp比对不到该条read所在的hg19区间。其中该30bp由比对算法决定,因为这部分reads很难直接比对上去,如果强行比对的话需要开很大的gap,这样比对算法的罚分会远远的大于比上带来的加分,这些softclip的信号在某些特定的情况下可以看成是融合的信号。
然后利用tmap软件将所得到的测序序列比对到人类参考基因组hg19上,从而确定是否存在融合基因,判断相应的阳性融合位点:
1、只允许在read的左端开softclip(-g 1),利用tmap将下机数据比对到人类参考基因组hg19上,得到比对后的文件tmap1.bam。
2、只允许在read的右端开softclip(-g 2),利用tmap将下机数据比对到人类参考基因组hg19上,得到比对后的文件tmap2.bam。
3、利用samtools软件将步骤1和步骤2得到的两个bam文件进行合并:
Samtools merge–f merge.bam tmap1.bam tmap2.bam
从而得到合并后的文件merge.bam。
4、对合并后的文件merge.bam进行过滤,过滤掉不带有S的reads(不带有S的reads代表的是不可能的融合支持reads),从而得到文件merge.S.bam。
5、利用samtools软件将merge.S.bam进行排序,
samtools sort–n merge.S.bam merge.S.sort,
从而得到排序后的文件merge.S.sort.bam。
6、在排序后的文件merge.S.sort.bam的基础上寻找所有发生了融合的断点:
(1)由于merge.S.sort.bam经过了排序,同一条read两次比对(-g 1;-g 2)的信息在文件中会排到一起;
(2)如果同一条read只存在一次比对的信息,即另一次比对没有比对上或者由于不带有S标签在第5步被过滤掉了,则过滤掉该read;
(3)根据同一条read两次比对的染色体、起始位置、cigar标签等信息,提取两次比对得到的断点信息(染色体+位置+断点方向),称为一对断点,支持reads加1;
(4)统计merge.S.sort.bam整个文件的所有断点,如果某对断点的支持reads>=3,则判断其为融合阳性位点;
(5)对于融合阳性位点,将断点信息注释回基因和外显子信息,例如找到的断点为]chr2:29448093],]chr2:42493957](其中“]”表示断点方向,表示的是左端可以比对上),经过注释可知]chr2:29448093]位于ALK基因的19号内含子,]chr2:42493957]位于EML4基因的6号内含子,鉴于EML4基因的前6号之前的外显子是可以比对上去的,ALK基因的20号之后的外显子是可以比对上去的,再结合断点的方向信息,能得到两个基因具体的外显子连接情况为EML4(EX1-EX6)-ALK(EX20-EX29E);
(6)两个基因的融合理论上是一个基因的上游连接到另一个基因的下游,根据(5)得到的两个基因外显子的连接情况,然后过滤掉不符合理论的情况(例如两个基因的上游或者两个基因的下游连接到一起)。
实验过程中用到的原料为:选取一期不同混合梯度的融合参考品(即确定带有不同的突变频率的ALk-EML4融合基因的阳性融合品),分别利用以上实施例中记载的方法和专利“一种基于单端测序的融合基因检测方法及其应用(专利申请号为201610881242.5,公开号为CN107885972A)”中记载的方法以及SeekSV(软件)对这些样本进行测试,以不带有ALK-EML4融合突变的样品作为阴性参照品。所述不同混合梯度的融合参考品通过将阳性融合品和阴性样品按照不同的比例进行混合,融合参考品中融合细胞系突变频率为20%代表阳性融合品占样品总质量的20%。同理,融合参考品中融合细胞系突变频率为25%、30%和50%分别代表阳性融合品占样品总质量的25%、30%和50%。
其中,SeekSV软件为华大基因与湖南大学等研究人员共同研发的一款肿瘤基因组分析工具,发表在期刊bioinformatics上。
其中采用本发明以上实施例中记载的方法的具体操作方法如下:
本专利的检测算法已经集成到程序“get_call_fusion.pl”中,运行环境为linux,具体的操作步骤如下:
(1)生成待检测样本的list文件,
(2)生成运行程序,将样本list数据进行tamp操作:
perl get_call_fusion.pl sample.list>run.sh
(3)运行tmap程序
sh run.sh
(4)查看检测结果
融合参考品的检测结果:
表1 不同处理方式对应的检测结果
Figure BDA0001694661780000101
Figure BDA0001694661780000111
其中,NEG代表的是阴性,未检出。
从以上表格的数据总结可以看出,本发明的方法和专利“一种基于单端测序的融合基因检测方法及其应用”相对SeekSV软件都有着更好的检出性能,同时本发明较专利“一种基于单端测序的融合基因检测方法及其应用”有着更强的融合支持reads识别能力。
从以上实施例可以看出,采用本发明的方法融合支持reads识别能力更强。当只有一种比对方式(-g 1或者-g 2)的时候,由于softclip开口方向的限制,融合断点的支持reads会分开分布在两个基因(启动子基因,癌基因)的区域而难以识别。正确识别出的softclip reads在切割出softclip片段进行反向比对时会因为比对软件影响下丢失。当同时使用两种方式比对并合并数据的时候,这些支持reads就会进行合并,同时都分布在两个基因区域,这样两个基因区域的融合信号都会提升至接近数据所包含的真实融合信号。
实施例二
在肺癌检测血浆和低起始量建库项目中,存在一些低频的融合样本,经确定已经含有如下不同的突变(如下表2中第三列对照结果所示),分别用本发明的方法和专利“一种基于单端测序的融合基因检测方法及其应用”记载的方法进行检测,检测结果如表2所示:
表2 不同方法对应的检测结果
Figure BDA0001694661780000121
其中,NEG代表的是阴性,未检出。
从表格的数据总结可以看出,本发明相对于专利“一种基于单端测序的融合基因检测方法及其应用”有着更高的检出率(针对样本ZS-32、16S4059、1608055T、1608077T,可以看出应用本发明的方法可以检出相应融合突变),准确性更高,同时考虑一条reads在两个基因位置上的比对情况,从而排除单端信号会引入的错误信息,判定结果更加准确。而且由于能够检测的融合信号更强,因此适用于更低的检出限。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接或彼此可通讯;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种确定生物样本中是否存在融合基因的方法,其特征在于,包括:
(1)将来源于所述生物样本的全基因组至少一部分的测序序列与所述生物样本的参照序列分别进行第一比对处理和第二比对处理,其中在所述第一比对处理中,使所述测序序列与所述参照序列强制左端匹配,在所述第二比对处理中,使所述测序序列与所述参照序列强制右端匹配;
(2)基于所述第一比对处理和所述第二比对处理的结果,确定生物样本中是否存在融合基因。
2.根据权利要求1所述的方法,其特征在于,所述测序序列为DNA序列;
任选地,所述第一比对处理和所述第二比对处理分别独立地采用tmap软件进行的。
3.根据权利要求1或2所述的方法,其特征在于,在步骤(2)中,进一步包括:
基于所述第一比对处理和所述第二比对处理的结果,确定疑似融合基因测序序列,所述疑似融合基因测序序列在所述第一比对处理和所述第二比对处理中均具有匹配末端和非匹配末端,其中,所述疑似融合基因测序序列的存在是在所述生物样本中存在融合基因的指示;
任选地,所述非匹配末端的长度为20bp以上,优选为20bp~60bp。
4.根据权利要求1~3中任一项所述的方法,进一步包括通过下列步骤确定阳性融合位点:
(3)基于所述融合基因测序序列在所述参照序列上的匹配结果,确定至少一个疑似融合位点;
(4)针对所述至少一个疑似融合位点的每一个,分别确定所述疑似融合位点的融合基因测序序列支持数;
(5)选择所述融合基因测序序列支持数不低于预定阈值的所述疑似融合位点作为最终的阳性融合位点;
任选地,在步骤(3)中包括针对每个所述融合基因测序序列,基于所述匹配末端和所述非匹配末端的交界处,确定所述疑似融合位点;
任选地,选择所述匹配末端在所述交界处的最末碱基作为所述疑似融合位点。
任选地,所述预定阈值为3~5,优选为3。
5.一种确定生物样本中是否存在融合基因的设备,其特征在于,包括:
比对处理模块,所述比对处理模块将来源于所述生物样本的全基因组至少一部分的测序序列与所述生物样本的参照序列分别进行第一比对处理和第二比对处理,其中在所述第一比对处理中,使所述测序序列与所述参照序列强制左端匹配,在所述第二比对处理中,使所述测序序列与所述参照序列强制右端匹配;
融合基因确定模块,所述融合基因确定模块与所述比对处理模块相连,所述融合基因确定模块基于所述第一比对处理和所述第二比对处理的结果,确定生物样本中是否存在融合基因。
6.根据权利要求5所述的设备,其特征在于,所述测序序列为DNA序列;
任选地,所述第一比对处理和所述第二比对处理分别独立地采用tmap软件进行的。
7.根据权利要求5或6所述的设备,其特征在于,所述融合基因确定模块进一步基于所述第一比对处理和所述第二比对处理的结果,确定疑似融合基因测序序列,所述疑似融合基因测序序列在所述第一比对处理和所述第二比对处理中均具有匹配末端和非匹配末端,其中,所述疑似融合基因测序序列的存在是在所述生物样本中存在融合基因的指示;
任选地,所述非匹配末端的长度为20bp以上,优选为20bp~60bp。
8.根据权利要求5~7中任一项所述的设备,其特征在于,进一步包括如下模块来确定阳性融合位点:
疑似融合位点确定模块,所述疑似融合位点确定模块与所述融合基因确定模块相连,所述疑似融合位点确定模块基于所述融合基因测序序列在所述参照序列上的匹配结果,确定至少一个疑似融合位点;
融合基因支持数确定模块,所述融合基因支持数确定模块与所述疑似融合位点确定模块相连,所述融合基因支持数确定模块针对所述至少一个疑似融合位点的每一个,分别确定所述疑似融合位点的融合基因测序序列支持数;
阳性融合位点确定模块,所述阳性融合位点确定模块与所述融合基因支持数确定模块相连,所述阳性融合位点确定模块基于选择所述融合基因测序序列支持数不低于预定阈值的所述疑似融合位点作为最终的阳性融合位点;
任选地,所述疑似融合位点确定模块包括针对每个所述融合基因测序序列,基于所述匹配末端和所述非匹配末端的交界处,确定所述疑似融合位点;
任选地,选择所述匹配末端在所述交界处的最末碱基作为所述疑似融合位点;
任选地,所述预定阈值为3~5,优选为3。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时,实现如权利要求1-4中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-4中任一项所述的方法。
CN201810607450.5A 2018-06-13 2018-06-13 确定生物样本中是否存在融合基因的方法、设备及应用 Active CN110660451B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810607450.5A CN110660451B (zh) 2018-06-13 2018-06-13 确定生物样本中是否存在融合基因的方法、设备及应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810607450.5A CN110660451B (zh) 2018-06-13 2018-06-13 确定生物样本中是否存在融合基因的方法、设备及应用

Publications (2)

Publication Number Publication Date
CN110660451A true CN110660451A (zh) 2020-01-07
CN110660451B CN110660451B (zh) 2023-04-28

Family

ID=69026163

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810607450.5A Active CN110660451B (zh) 2018-06-13 2018-06-13 确定生物样本中是否存在融合基因的方法、设备及应用

Country Status (1)

Country Link
CN (1) CN110660451B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1996002641A2 (en) * 1994-07-19 1996-02-01 Cancer Research Campaign Technology Limited Materials and methods relating to the diagnosis and prophylactic and therapeutic treatment of synovial sarcoma
CN104232760A (zh) * 2014-08-26 2014-12-24 深圳华大基因医学有限公司 确定混合测序数据中读段的样本源的方法及装置
WO2016143062A1 (ja) * 2015-03-10 2016-09-15 株式会社日立ハイテクノロジーズ 配列データ解析装置、dna解析システムおよび配列データ解析方法
CN107075571A (zh) * 2014-07-18 2017-08-18 生命科技股份有限公司 用于检测结构变异体的系统和方法
WO2018005983A1 (en) * 2016-07-01 2018-01-04 Natera, Inc. Compositions and methods for detection of nucleic acid mutations
CN107885972A (zh) * 2016-09-30 2018-04-06 广州华大基因医学检验所有限公司 一种基于单端测序的融合基因检测方法及其应用

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1996002641A2 (en) * 1994-07-19 1996-02-01 Cancer Research Campaign Technology Limited Materials and methods relating to the diagnosis and prophylactic and therapeutic treatment of synovial sarcoma
CN107075571A (zh) * 2014-07-18 2017-08-18 生命科技股份有限公司 用于检测结构变异体的系统和方法
CN104232760A (zh) * 2014-08-26 2014-12-24 深圳华大基因医学有限公司 确定混合测序数据中读段的样本源的方法及装置
WO2016143062A1 (ja) * 2015-03-10 2016-09-15 株式会社日立ハイテクノロジーズ 配列データ解析装置、dna解析システムおよび配列データ解析方法
WO2018005983A1 (en) * 2016-07-01 2018-01-04 Natera, Inc. Compositions and methods for detection of nucleic acid mutations
CN107885972A (zh) * 2016-09-30 2018-04-06 广州华大基因医学检验所有限公司 一种基于单端测序的融合基因检测方法及其应用

Also Published As

Publication number Publication date
CN110660451B (zh) 2023-04-28

Similar Documents

Publication Publication Date Title
CN106909806B (zh) 定点检测变异的方法和装置
US11193175B2 (en) Normalizing tumor mutation burden
KR102638152B1 (ko) 서열 변이체 호출을 위한 검증 방법 및 시스템
EP3274475B1 (en) Alignment and variant sequencing analysis pipeline
CN112397144B (zh) 检测基因突变及表达量的方法及装置
CN111968701B (zh) 检测指定基因组区域体细胞拷贝数变异的方法和装置
CN109767810B (zh) 高通量测序数据分析方法及装置
CN104302781B (zh) 一种检测染色体结构异常的方法及装置
JP2021040655A (ja) 無細胞核酸の多重解像度分析のための方法
CN112164423B (zh) 基于RNAseq数据的融合基因检测方法、装置和存储介质
CN108304694B (zh) 基于二代测序数据分析基因突变的方法
US11718869B2 (en) Method and kit for determining genome instability based on next generation sequencing (NGS)
CN115679000A (zh) 微小残留病灶的检测方法、装置、设备和存储介质
CN110060733A (zh) 基于单样本的二代测序肿瘤体细胞变异检测装置
JP2023526252A (ja) 相同組換え修復欠損の検出
CN113921081A (zh) 微卫星状态的检测方法和装置
CN109920480B (zh) 一种校正高通量测序数据的方法和装置
CN109461473B (zh) 胎儿游离dna浓度获取方法和装置
CN115896256A (zh) 基于二代测序技术的rna插入缺失突变的检测方法、装置、设备和存储介质
CN110111839A (zh) 一种精确定量肿瘤标准品中突变支持reads数的方法及其应用
CN110660451B (zh) 确定生物样本中是否存在融合基因的方法、设备及应用
CN107208152B (zh) 检测突变簇的方法和装置
WO2014055920A1 (en) Targeted detection of recurrent genomic rearrangements
CN113046448B (zh) 一种与绵羊产羔数相关的snp遗传标记及其应用
CN112251512A (zh) 用于非小细胞肺癌患者基因检测的目标基因组以及相关的评估方法、用途和试剂盒

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: Room 401, Zone B, No. 22, Qinglan Street, Panyu District, Guangzhou City, Guangdong Province, 510006

Applicant after: BGI-GUANGZHOU MEDICAL LABORATORY Co.,Ltd.

Applicant after: Shenzhen Huada Medical Laboratory

Applicant after: BGI SHENZHEN Co.,Ltd.

Address before: Room 401, Zone B, No. 22, Qinglan Street, Panyu District, Guangzhou City, Guangdong Province, 510006

Applicant before: BGI-GUANGZHOU MEDICAL LABORATORY Co.,Ltd.

Applicant before: SHENZHEN HUADA CLINIC EXAMINATION CENTER

Applicant before: BGI SHENZHEN Co.,Ltd.

GR01 Patent grant
GR01 Patent grant