现有技术算法由于需要进行两次组装和三次比对,导致存在检测速度慢、资源要求高等不足之处,同时由于组装序列均较短,对于重复序列的组装存在一定的不确定性,可能会导致检测结果错误。
鉴于上述现有技术中存在的问题,本发明的目的在于提供一种用于检测基因融合的装置及方法,其具有检测速度快、资源要求低、稳定性高的优点。
与现有技术算法相比,本发明发生算法充分利用了PE测序下机测序片段(reads)的信息,首先挑选出了可能发生融合(fusion)的reads,减少了需要进行比对的reads个数,大大提高了检测速度,减弱了资源要求,其次本发明算法减少了比对次数,只需要两次比对,而且不需要组装,提高了检测的稳定性。
即,本发明包括:
一种用于检测基因融合的装置,其包括以下模块:
测序数据获取模块,用于获取测序数据;优选地,所述测序数据是采用双端测序(Paired-end Sequencing,PE测序)方法获得的测序数据;
比对模块:其与所述测序数据获取模块相连接,用于将获取的测序数据与参考序列进行比对,获取测序片段在基因中对应的位置;优选地,该模块可以利用bwa软件,查找测序片段在基因中对应的位置,并形成bam格式文件;优选地,该bam文件中,包括每条测序片段的描述信息(qname),序列信息(seq)、比对位置(POS),位标识(flag),比对质量值(MAPQ),简要比对表达信息(Cigar),模板长度(Tlen);
区分模块:其与所述比对模块相连接,用于区分可能发生基因融合的测序片段和不可能发生基因融合的测序片段;
真实融合断点判断模块:其与所述区分模块相连接,用于判断所述可能发生基因融合的测序片段是否为真实融合断点;以及
输出模块:其与所述真实融合断点判断模块相连接,用于输出基因融合检测结果,所述检测结果可以包括左右断点位置、染色体编号(或者基因名称)、各自支持数等信息。
优选地,所述区分模块例如可以包括以下子模块:
长度过滤子模块:其与所述比对模块相连接,用于过滤软剪切(soft-clipping)长度小于设定值的测序片段;所述设定值的选择与测序长度有关,通常为15~40bp,如选择PE75测序策略,则筛选长度可以设置为20bp左右;
比对结果模式判断子模块:其与所述长度过滤模块相连接,用于根据所述比对模块的比对结果,对于两个片段描述信息(qname)相同的测序片段R1和R2,根据其cigar信息,分别确定该两个测序片段的比对信息,若测序片段左侧发生软剪切,则比对结果模式为“SM”,若测序片段右侧发生软剪切,则比对结果模式为“MS”,若测序片段无软剪切,则比对结果模式为“MM”,将测序片段中发生软剪切的部分与正常比对部分的结合处作为断点;
融合区分子模块:其与所述比对结果模式判断模块相连接,用于根据所述测序片段R1和R2的比对结果模式信息和参考序列编号信息,判断与上述片段描述信息对应的DNA片段是否可能存在基因融合,对于判断为可能发生融合的DNA片段,从所述R1和R2分别获取所述断点上游的序列信息和所述断点下游的序列信息,并将获取的序列信息分别保存至两个文件中;优选地,所述文件可以是例如fastq文件;具体地,当所述R1和R2为下述八种组合时,可以判定上述片段描述信息对应的DNA片段有可能发生基因融合;
(1)R1和R2分别为sm和mm中的一种,且R1和R2不相同;
(2)R1和R2分别为ms和mm中的一种,且R1和R2不相同;
(3)R1和R2分别为ms和sm中的一种,且R1和R2相同;
(4)R1和R2分别为ms和sm中的一种,且R1和R2不相同。
优选地,所述真实融合断点判断模块可以包括下述子模块:
再比对子模块:其与所述融合区分子模块相连接,用于对所述保存了获取的序列信息两个文件再次进行比对,获取下述信息:每条测序片段的描述信息(qname),序列信息(seq)、位标识(flag),比对位置(POS),比对质量值(MAPQ),简要比对表达信息(Cigar),模板长度(Tlen);优选地,例如可以利用bwa软件对上述两个fastq文件,再次进行比对,形成bam格式文件;所述bam格式文件包含每条测序片段的描述信息(qname),序列信息(seq)、位标识(flag),比对位置(POS),比对质量值(MAPQ),简要比对表达信息(Cigar),模板长度(Tlen);
过滤子模块:其与所述再比对子模块相连接,用于根据位标识(flag)值过滤未成功比对(unmapped)测序片段以及低比对质量值的测序片段;
断点信息获取子模块:其与所述过滤子模块相连接,用于查找具有相同片段描述信息的测序片段,并获取断点信息;
断点筛选子模块:其与所述断点信息获取子模块相连接,用于筛选真实融合断点;
断点初次合并子模块:其与所述断点筛选子模块相连接,用于将具有相同的断点信息的断点合并为一个断点,并将具有相同断点信息的断点个数作为新合成的断点的支持度;其中,相同的断点信息是指left_chr、left_pos、right_chr和right_pos均相同;
断点再次合并子模块:其与所述断点初次合并子模块相连接,将left_chr和right_chr相同、但right_pos或left_pos相差一定值以内的真实融合断点合并为一个基因融合断点。
优选地,所述断点信息包括:
left_chr:断点左侧序列的染色体编号(例如,R1对应的参考序列编号)。
left_pos:断点左侧首个碱基的比对位置,(例如,R1对应的比对位置加上R1的序列长度)。
left_seq:断点左侧碱基序列。
right_chr:断点右侧染色体编号。
right_pos:断点右侧位置。
right_seq:断点右侧碱基序列。
sup:断点支持度,支持该断点的测序片段个数,默认为1。
优选地,所述断点筛选子模块按如下规则筛选真实断点:
a.若存在断点A和B,A中left_chr等于B中right_chr,A中right_chr等于B中left_chr,A中left_pos等于B中right_pos,A中right_pos等于B中left_pos,则A和B为同一个断点的两种形式,只要存在此类断点A和B,则该断点A和B判断为同一个基因融合(genefusion)断点,只保留A或B之一;以及
b.若存在断点A,A中sup个数大于一定值(例如5)、且left_seq和right_seq中比对质量值均大于一定值(例如30)、且错配率均小于一定值(例如0.05)、且断点支持度/断点右侧或左侧位置深度所得到的值大于一定值(例如0.1),则该断点A判断为真实的基因融合断点。
优选地,所述断点再次合并子模块根据上述基因融合断点信息,若存在基因融合断点A中right_pos与断点B中right_pos之差小于一定值(例如5),且断点A中left_pos与断点B中left_pos之差小于一定值(例如5),则将此基因融合断点A和断点B合并为一个基因融合断点。从而最终得到基因融合检测结果。
在另一个方面中,本发明还提供一种检测基因融合的方法,其包括以下步骤:
测序数据获取步骤,用于获取测序数据;优选地,所述测序数据是采用双端测序(Paired-end Sequencing,PE测序)方法获得的测序数据;
比对步骤:将获取的测序数据与参考序列进行比对,获取测序片段在基因中对应的位置;优选地,该步骤可以利用bwa软件,查找测序片段在基因中对应的位置,并形成bam格式文件;优选地,该bam文件中,包括每条测序片段的描述信息(qname),序列信息(seq)、比对位置(POS),位标识(flag),比对质量值(MAPQ),简要比对表达信息(Cigar),模板长度(Tlen);
区分步骤:区分可能发生基因融合的测序片段和不可能发生基因融合的测序片段;
真实融合断点判断步骤:判断所述可能发生基因融合的测序片段是否为真实融合断点;以及
输出步骤:输出基因融合检测结果,所述检测结果可以包括左右断点位置、染色体编号(或者基因名称)、各自支持数等信息。
优选地,所述区分步骤例如可以包括以下子步骤:
长度过滤子步骤:过滤软剪切(soft-clipping)长度小于设定值的测序片段;所述设定值的选择与测序长度有关,通常为15~40bp,如选择PE75测序策略,则筛选长度可以设置为20bp左右;
比对结果模式判断子步骤:根据所述比对步骤的比对结果,对于两个片段描述信息(qname)相同的测序片段R1和R2,根据其cigar信息,分别确定该两个测序片段的比对信息,若测序片段左侧发生软剪切,则比对结果模式为“SM”,若测序片段右侧发生软剪切,则比对结果模式为“MS”,若测序片段无软剪切,则比对结果模式为“MM”,将测序片段中发生软剪切的部分与正常比对部分的结合处作为断点;
融合区分子步骤:根据所述测序片段R1和R2的比对结果模式信息和参考序列编号信息,判断与上述片段描述信息对应的DNA片段是否可能存在基因融合,对于判断为可能发生融合的DNA片段,从所述R1和R2分别获取所述断点上游的序列信息和所述断点下游的序列信息,并将获取的序列信息分别保存至两个文件中;优选地,所述文件可以是例如fastq文件;具体地,当所述R1和R2为下述八种组合时,可以判定上述片段描述信息对应的DNA片段有可能发生基因融合;
(1)R1和R2分别为sm和mm中的一种,且R1和R2不相同;
(2)R1和R2分别为ms和mm中的一种,且R1和R2不相同;
(3)R1和R2分别为ms和sm中的一种,且R1和R2相同;
(4)R1和R2分别为ms和sm中的一种,且R1和R2不相同。
优选地,所述真实融合断点判断步骤可以包括下述子步骤:
再比对子步骤:对所述保存了获取的序列信息两个文件再次进行比对,获取下述信息:每条测序片段的描述信息(qname),序列信息(seq)、位标识(flag),比对位置(POS),比对质量值(MAPQ),简要比对表达信息(Cigar),模板长度(Tlen);优选地,例如可以利用bwa软件对上述两个fastq文件,再次进行比对,形成bam格式文件;所述bam格式文件包含每条测序片段的描述信息(qname),序列信息(seq)、位标识(flag),比对位置(POS),比对质量值(MAPQ),简要比对表达信息(Cigar),模板长度(Tlen);
过滤子步骤:根据位标识(flag)值过滤未成功比对(unmapped)测序片段以及低比对质量值的测序片段;
断点信息获取子步骤:查找具有相同片段描述信息的测序片段,并获取断点信息;
断点筛选子步骤:筛选真实融合断点;
断点初次合并子步骤:将具有相同的断点信息的断点合并为一个断点,并将具有相同断点信息的断点个数作为新合成的断点的支持度;其中,相同的断点信息是指left_chr、left_pos、right_chr和right_pos均相同;
断点再次合并子步骤:将left_chr和right_chr相同、但right_pos或left_pos相差一定值以内的真实融合断点合并为一个基因融合断点。
优选地,所述断点信息包括:
left_chr:断点左侧序列的染色体编号(例如,R1对应的参考序列编号)。
left_pos:断点左侧首个碱基的比对位置(例如,R1对应的比对位置加上R1的序列长度)。
left_seq:断点左侧碱基序列。
right_chr:断点右侧染色体编号。
right_pos:断点右侧首个碱基的比对位置。
right_seq:断点右侧碱基序列。
sup:断点支持度,支持该断点的测序片段个数,默认为1。
优选地,所述断点筛选子步骤按如下规则筛选真实断点:
a.若存在断点A和B,A中left_chr等于B中right_chr,A中right_chr等于B中left_chr,A中left_pos等于B中right_pos,A中right_pos等于B中left_pos,则A和B为同一个断点的两种形式,只要存在此类断点A和B,则该断点A和B判断为同一个基因融合(genefusion)断点,只保留A或B之一;以及
b.若存在断点A,A中sup个数大于一定值(例如5)、且left_seq和right_seq中比对质量值均大于一定值(例如30)、且错配率均小于一定值(例如0.05)、且断点支持度/断点右侧或左侧位置深度所得到的值大于一定值(例如0.1),则该断点A判断为真实的基因融合断点。
优选地,所述断点再次合并子步骤根据上述基因融合断点信息,若存在基因融合断点A中right_pos与断点B中right_pos之差小于一定值(例如5),且断点A中left_pos与断点B中left_pos之差小于一定值(例如5),则将此基因融合断点A和断点B合并为一个基因融合断点。从而最终得到基因融合检测结果。
根据本发明,能够提供一种检测速度快、资源要求低、稳定性高的用于检测基因融合的装置及方法。与现有算法相比,本发明发生算法充分利用了PE测序的优势,首先挑选出了可能发生fusion的reads,大大减少了后续需要比对的reads数量;其次,现有算法的第二次和第三次比对过程中,每次只比对一条序列,长时间占用系统资源,而本算法中不仅只有两次比对,而且第二次比对是同时对所有序列进行比对,提高了系统资源的利用率;再其次,本发明算法不需要对序列进行组装,没有组装导致的不稳定性。
附图说明
图1是本发明的用于检测基因融合的装置的优选实施方式的一例的示意图。
图2现有技术的用于检测基因融合的装置的一例的示意图。
发明的具体实施方式
本说明书中提及的科技术语具有与本领域技术人员通常理解的含义相同的含义,如有冲突以本说明书中的定义为准。
一般而言,本说明书中采用的术语具有如下含义。
参考序列(Refseq):物种参考标准基因组序列。
融合基因(Fusion gene):是指两个基因的全部或一部分的序列相互融合为一个新的基因的过程。其有可能是染色体易位、中间缺失或染色体导致所致的结果。
Reads:指高通量测序中一个反应获得的测序序列。
PE测序:双端测序,一种测序方法。
R1/2:在PE测序下机数据中,Read1简称R1,Read2简称R2。
bwa:一种比对方法软件,用于查找reads所在Refseq中的位置,最终可得到bam格式文件。
adapter序列:测序中DNA片段两侧的接头序列。
断点(breakpoint):融合基因中两个基因序列相互连接的点。
soft-clipping reads:在reads进行比对后,若存在部分序列比对到Refseq某位置,另一部分比对到Refseq另一位置或不能比对到Refseq,则该reads被称为soft-clipping reads。
flag:bam格式文件中,用于描述序列比对模式、方向等信息的一个值
cigar:简要比对信息表达式,其以参考序列为基础,使用数据加字母表示比对结果。
unmapped reads:指reads未比对到Refseq中某一位置。
duplication:重复序列,指由PCR扩增的序列。
片段描述信息:比对片段(template)的描述信息。
错配率:在比对过程中,可以容许reads与Refseq存在一定的差异,差异值与reads长度之比对错配率
比对质量值:表示比对到错误位置的可能性,值越高表示可能性越低。
实施例1本发明的用于检测基因融合的装置
本实施例的用于检测基因融合的装置具备:
测序数据获取模块,用于获取测序数据;所述测序数据是采用双端测序(Paired-end Sequencing,PE测序)方法获得的测序数据。
比对模块:其与所述测序数据获取模块相连接,用于将获取的测序数据与参考序列进行比对,获取测序片段在基因中对应的位置;该模块利用bwa软件,查找测序片段在基因中对应的位置,并形成bam格式文件;该bam文件中包括每条测序片段的描述信息(qname)、序列信息(seq)、比对位置(POS),位标识(flag)、比对质量值(MAPQ)、简要比对表达信息(Cigar)、模板长度(Tlen);
区分模块:其与所述比对模块相连接,用于区分可能发生基因融合的测序片段和不可能发生基因融合的测序片段。
真实融合断点判断模块:其与所述区分模块相连接,用于判断所述可能发生基因融合的测序片段是否为真实融合断点。以及
输出模块:其与所述真实融合断点判断模块相连接,用于输出基因融合检测结果。
所述区分模块例如可以包括以下子模块:
长度过滤子模块:其与所述比对模块相连接,用于过滤软剪切(soft-clipping)长度小于20bp的测序片段;
比对结果模式判断子模块:其与所述长度过滤模块相连接,用于根据所述比对模块的比对结果,对于两个片段描述信息(qname)相同的测序片段R1和R2,根据其cigar信息,分别确定该两个测序片段的比对信息,若测序片段左侧发生软剪切,则比对结果模式为“SM”,若测序片段右侧发生软剪切,则比对结果模式为“MS”,若测序片段无软剪切,则比对结果模式为“MM”,将测序片段中发生软剪切的部分与正常比对部分的结合处作为断点;
融合区分子模块:其与所述比对结果模式判断模块相连接,用于根据所述测序片段R1和R2的比对结果模式信息和参考序列编号信息,判断与上述片段描述信息对应的DNA片段是否可能存在基因融合,对于判断为可能发生融合的DNA片段,从所述R1和R2分别获取所述断点上游的序列信息和所述断点下游的序列信息,并将获取的序列信息分别保存至两个文件中;所述文件是fastq文件;具体地,当所述R1和R2为下述组合时,可以判定上述片段描述信息对应的DNA片段有可能发生基因融合:
(1)R1和R2分别为sm和mm中的一种,且R1和R2不相同;
(2)R1和R2分别为ms和mm中的一种,且R1和R2不相同;
(3)R1和R2分别为ms和sm中的一种,且R1和R2相同;
(4)R1和R2分别为ms和sm中的一种,且R1和R2不相同。
所述真实融合断点判断模块可以包括下述子模块:
再比对子模块:其与所述融合区分子模块相连接,用于对所述保存了获取的序列信息两个文件再次进行比对,获取下述信息:每条测序片段的描述信息(qname),序列信息(seq)、位标识(flag),比对位置(POS),比对质量值(MAPQ),简要比对表达信息(Cigar),模板长度(Tlen);利用bwa软件对上述两个fastq文件,再次进行比对,形成bam格式文件;所述bam格式文件包含每条测序片段的描述信息(qname),序列信息(seq)、位标识(flag),比对位置(POS),比对质量值(MAPQ),简要比对表达信息(Cigar),模板长度(Tlen);
过滤子模块:其与所述再比对子模块相连接,用于根据位标识(flag)值过滤未成功比对(unmapped)测序片段以及低比对质量值的测序片段;
断点信息获取子模块:其与所述过滤子模块相连接,用于查找具有相同片段描述信息的测序片段,并获取断点信息;
断点筛选子模块:其与所述断点信息获取子模块相连接,用于筛选真实融合断点;
断点初次合并子模块:其与所述断点筛选子模块相连接,用于将具有相同的断点信息的断点合并为一个断点,并将具有相同断点信息的断点个数作为新合成的断点的支持度;其中,相同的断点信息是指left_chr、left_pos、right_chr和right_pos均相同;以及
断点再次合并子模块:其与所述断点初次合并子模块相连接,将left_chr和right_chr相同、但right_pos或left_pos相差3bp以内的真实融合断点合并为一个基因融合断点。
所述断点信息包括:
left_chr:断点左侧序列的染色体编号。
left_pos:断点左侧首个碱基的比对位置。
left_seq:断点左侧碱基序列。
right_chr:断点右侧序列的染色体编号。
right_pos:断点右侧首个碱基的比对位置。
right_seq:断点右侧碱基序列。
sup:断点支持度,支持该断点的测序片段个数,默认为1。
所述断点筛选模块按如下规则筛选真实断点:
a.若存在断点A和B,A中left_chr等于B中right_chr,A中right_chr等于B中left_chr,A中left_pos等于B中right_pos,A中right_pos等于B中left_pos,则A和B为同一个断点的两种形式,只要存在此类断点A和B,则该断点A和B判断为同一个基因融合断点,只保留A或B之一;以及
b.若存在断点A,A中sup个数大于一定值、且left_seq和right_seq中比对质量值均大于一定值、且错配率均小于一定值、且断点支持度/断点右侧或左侧位置深度所得到的值大于一定值,则该断点A判断为真实的基因融合断点。
所述断点再次合并模块根据上述基因融合断点信息,若存在基因融合断点A中right_pos与断点B中right_pos小于5,且断点A中left_pos与断点B中left_pos小于5,则将此基因融合断点A和断点B合并为一个基因融合断点。从而最终得到基因融合检测结果。所述检测结果例如表1:
表1
left_chr |
left_pos |
right_chr |
right_pos |
sup |
融合基因 |
chr22 |
23632011 |
chr9 |
133638693 |
36 |
BCR-ABL1 |
比较例1现有技术的用于检测基因融合的装置
比较例1的用于检测基因融合的装置不具有用于区分可能发生基因融合的测序片段和不可能发生基因融合的测序片段的模块;其第二次和第三次比对过程中,每次只比对一条序列;其需要对序列进行组装。
对于一个融合阳性样本,利用PE测序方法,获取同一批下机数据,同时采用实施例1和比较例1的装置检测基因融合,检测结果如表2所示。
表2
|
检出个数 |
阳性位点个数 |
阳性率 |
比较例1的装置 |
53 |
1 |
2% |
实施例1的装置 |
14 |
1 |
7% |
由表1可知,比较例1中总共检出个数为53个融合断点,实施例1中共检出14个融合断点,两种装置均检测阳性位点,但比较例1中的阳性率为2%,实施例1中阳性率为7%,约为比较例1的3倍左右,明显降低了假阳性率,提高了准确度。
工业实用性
根据本发明,提供了一种检测速度快、资源要求低、稳定性高的用于检测基因融合的装置及方法。