具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在本发明实施例中,通过将测序得到的正反向信息映射到片段连接群上,根据多对正反向信息计算片段连接群之间的平均长度,再根据计算得到的片段连接群之间的平均长度和正负关系即可将各片段连接群构建成完整的scaffold图。
图1示出了本发明实施例提供的片段连接支架(scaffold)构建方法的实现流程,详述如下:
在步骤S101中,将测序得到的正反向信息(也称为正反向reads)映射到片段连接群(contig片段)上。
在本发明实施例中,可以采用任意的测序技术对待测基因组进行测序。但为了降低scaffold构建方法的复杂度,本发明实施例采用具有通量高、测序读长短等特点的第二代测序技术对待测基因组进行测序,得到多个具有正反向关系的短序列(称为正反向信息)。
在将测序得到的正反向信息映射到contig片段上时,可以采用任意一种映射方法进行映射,如soap、eland、maq或者BLAT等映射程序都可以完成该映射。将测序得到的正反向信息映射到contig片段上后,即可得到正反向信息在contig片段上的位置和方向。
假设采用第二代测序技术得到的正反向信息为reads1和reads1’,reads2和reads2’以及reads3和reads3’,则将上述正反向信息映射到contig片段上后的效果如图2所示。
在步骤S102中,根据映射到各contig片段之间的多对正反向信息计算各contig片段之间空位的平均长度,作为contig片段之间的空位大小。
在本发明实施例中,记录跨过两contig片段的正反向信息的数目,标记作为权重,根据实际情况选择特定阏值,并设置权重大于特定阈值的连接为有效连接,以提高连接关系准确度。
在本发明实施例中,根据contig片段之间的多对正反向信息计算contig片段之间空位的平均值,作为contig片段之间的空位大小。请参阅图2,当映射后contig1片段和contig2片段之间有3对正反向信息时,则根据contig1片段和contig2片段之间的3对正反向信息计算contig1片段和contig2片段之间空位的平均长度,并将计算得到的平均长度作为contig1片段和contig2片段之间的空位大小。在计算contig片段之间空位的平均长度时,计算所有有正反向连接关系的contig片段之间空位的平均长度,作为各contig片段之间的空位大小。同时记录contig1片段和contig2片段之间的正反向信息的数目3,将其标记为权重,且当该权重大于预设的特定阀值时,才认为contig1片段和contig2片段之间的连接为有效连接,以提高连接关系准确度
如果根据一对正反向信息计算得到的contig片段之间的空位大小为Xi,其服从期望μ,方差为σ^2的正态分布为
则当根据contig片段之间的N对正反向信息计算得到的contig片段之间的空位大小的平均值服从N(μ,σ^2/N)分布。这样当contig片段上的正反向信息的覆盖度较高时,可以大大的提高scaffold构建中contig之间空位的估计精确度。
在步骤S103中,根据计算得到的contig片段之间的空位大小和contig片段之间的正反向关系,构建各contig片段之间的scaffold,将各contig片段构建成完整的scaffold图。其中各contig片段之间的正反向关系可以根据实验原始数据给出的正反向关系的前后位置关系直接确定
请参阅图2,当根据图2所示的contig1片段与contig2片段之间的3对正反向信息计算得到contig1片段与contig2片段之间的空位大小后,即可根据contig1片段和contig2片段之间的空位大小以及contig1片段和contig2片段之间的正反向关系,构建图2所示的contig1片段与contig2片段之间的scaffold。依次类推,通过根据所有有正反向连接关系的contig片段之间的空位大小以及所有有正反向连接关系的contig片段之间的正反向关系,即可构建所有有正反向连接关系的contig片段之间的scaffold,从而将所有有正反向连接关系的contig片段构建成完整的scaffold图,其效果如图3所示。
按照上述scaffold构建方法构建的scaffold图中可能包括多个重复片段,从而降低基因组测序的准确率,为了提高基因组测序的准确率,在本发明另一实施例中,该scaffold构建方法还包括下述步骤:
在步骤S104中,检测构建的scaffold图中的重复contig片段,并屏蔽检测到的重复contig片段。
在本发明实施例中,如果一个contig片段在同一方向上连接到多个有交叠的contig片段,则认为该contig片段为一个重复contig片段。在检测到重复contig片段时,将检测到的重复contig片段屏蔽。
如果构建的scaffold图如图3所示,则由于contig片段R在反方向上分别连接到contig片段A和B,且contig片段A和B之间有交叠,同时contig片段R在正方向上分别连接到contig片段D、E、F,且contig片段E和F之间有交叠,因此contig片段R为重复的contig片段,将此重复的contig片段R屏蔽。
为了在可控的误差范围内获得充分长度的scaffold,使尽可能多的contig片段确定其相互之间的正确位置关系,在本发明另一实施例中,该scaffold构建方法还包括下述步骤:
在步骤S 105中,根据scaffold图中各contig片段之间的空位大小以及各contig片段的正反向关系对scaffold图进行线性化。
在本发明实施例中,当经步骤S103构建的scaffold图中包括重复片段,则先通过步骤S104屏蔽重复片段,再对屏蔽了重复片段的scaffold图进行线性化,而当经步骤S103构建的scaffold图中未包括重复片段时,则直接对构建的scaffold图进行线性化。其中线性化的步骤具体如下:
根据scaffold图中各contig片段之间的空位大小以及各contig片段之间的正反向关系将各contig片段放入子图的合适位置,如果任意两个contig片段之间没有显著的交叠,则根据这两个contig片段之间的位置关系转化为线性结构。
如果scaffold图如图4a所示,其中已知contig片段A和B之间的空位大小和正反向关系、contig片段E和D之间的空位大小和正反向关系、contig片段A和E之间的空位大小和正反向关系、以及contig片段E和C之间的空位大小和正反向关系,则根据上述片段之间的空位大小以及正反向关系,可以直接得到线性结构关系为AEBCD,即可以直接将图4a所示的scaffold图线性化为图4b所示的scaffold图。
由于对scaffold图进行了线性化,scaffold图中各contig片段之间的空位大小可能反生了变化,此时,为了准确的反映线性化后的scaffold图中各contig片段之间的空位大小,在本发明另一实施例中,该scaffold构建方法还包括下述步骤:
重新计算线性化后scaffold图中各contig片段之间的空位大小。
其中重新计算线性化后scaffold图中各contig片段之间的空位大小的步骤具体为:按线性化以后的scaffold图上contig片段的位置前后关系,直接计算位置相邻的两两contig片段之间的空位大小,并重新连接位置相邻的contig片段,将原先的scaffold图转化为一个真正的线性结构。请参阅图4a和图4b,由图4a中的AB、AC、EC、ED的连接关系转化为图4b中的AE、EB、BC、CD的连接关系后,各contig片段之间的空位大小由原先的已算得空位大小直接加减获得。如AE之间的空位大小可以简单表示为AE=AC-EC。
在对scaffold图进行了重复片段的屏蔽以及子图的线性化后,由于scaffold图中各contig片段之间的空位大小发生了变化,此时,可能之前被屏蔽的contig片段恰好位于两个唯一contig片段之间,此时,为了减少scaffold的内部空位大小,使scaffold能尽可能地被填充,该scaffold构建方法还包括下述步骤:
在步骤S106中,当被屏蔽的重复contig片段位于两个唯一contig片段之间时,恢复被屏蔽的重复contig片段。
请参阅图5,为经步骤S104和步骤S105后得到的scaffold图,如果之前被屏蔽的contig片段R位于该scaffold图中的contig片段A和D两个唯一contig片段之间,则直接恢复之前被屏蔽的重复contig片段R。
图6示出了本发明实施例提供的scaffold构建系统结构,为了便于说明,仅示出了与本发明实施例相关的部分。该scaffold构建系统可以是内置于基因组测序设备中的软件单元、硬件单元或者软硬件相结合的单元,或者作为独立的挂件集成到基因组测序设备或者基因组测序设备的应用系统中。其中:
正反向映射单元61将测序得到的正反向信息映射到contig片段上。
在本发明实施例中,可以采用任意的测序技术对待测基因组进行测序。但为了降低scaffold构建方法的复杂度,本发明实施例采用具有通量高、测序读长短等特点的第二代测序技术对待测基因组进行测序,得到多个具有正反向关系的短序列(称为正反向信息)。
在将测序得到的正反向信息映射到contig片段上时,可以采用任意一种映射方法进行映射,如soap、eland、maq或者BLA等映射程序都可以完成该映射。将测序得到的正反向信息映射到contig片段上后,即可得到正反向信息的位置和方向。将测序得到的正反向信息映射到contig片段上后的效果如图2所示。
空位大小计算单元62根据映射到各contig片段之间的多对正反向信息计算各contig片段之间空位的平均长度,作为contig片段之间的空位大小,并记录跨过两contig片段的正反向信息的数目,标记作为权重。
在本发明实施例中,如果根据一对正反向信息计算得到的contig片段之间的空位大小为Xi,其服从期望μ,方差为σ^2的正态分布为则当根据contig片段之间的N对正反向信息计算得到的contig片段之间的空位大小的平均值服从N(μ,σ^2/N)分布。这样当contig片段上的正反向信息的覆盖度较高时,可以大大的提高scaffold构建中contig之间空位的估计精确度。
Scaffold构建单元63根据计算得到的contig片段之间的空位大小和contig片段之间的正反向关系,构建各contig片段之间的scaffold,将各contig片段构建成完整的scaffold图。其中各contig片段之间的正反向关系可以根据实验原始数据给出的正反向关系的前后位置关系直接确定。
请参阅图2,当根据图2所示的contig1片段与contig2片段之间的3对正反向信息计算得到contig1片段与contig2片段之间的空位大小后,即可根据contig1片段和contig2片段之间的空位大小以及contig1片段和contig2片段之间的正反向关系,构建图2所示的contig1片段与contig2片段之间的scaffold。依次类推,通过根据所有有正反向连接关系的contig片段之间的空位大小以及所有有正反向连接关系的contig片段之间的正反向关系,即可构建所有有正反向连接关系的contig片段之间的scaffold,从而将所有有正反向连接关系的contig片段构建成完整的scaffold图,其效果如图3所示。
按照上述scaffold构建方法构建的scaffold图中可能包括多个重复片段,从而降低基因组测序的准确率,为了提高基因组测序的准确率,在本发明另一实施例中,该按照上述scaffold构建方法构建的scaffold图中可能包括多个重复片段,从而降低基因组测序的准确率,为了提高基因组测序的准确率,在本发明另一实施例中,该scaffold构建系统还包括重复片段屏蔽单元64。该重复片段屏蔽单元64检测构建的scaffold图中的重复片段,并屏蔽检测到的重复片段。在本发明实施例中,如果一个contig片段在同一方向上连接到多个有交叠的contig片段,则认为该contig片段为一个重复contig片段。
为了在可控的误差范围内获得充分长度的scaffold,使尽可能多的contig片段确定其相互之间的正确位置关系,在本发明另一实施例中,该scaffold构建系统还包括线性化单元65。该线性化单元65根据scaffold图中各contig片段之间的空位大小以及各contig片段的正反向关系对scaffold图进行线性化。其具体过程如下:根据scaffold图中各contig片段之间的空位大小以及各contig片段之间的正反向关系将各contig片段放入子图的合适位置,如果任意两个contig片段之间没有显著的交叠,则根据这两个contig片段之间的位置关系转化为线性结构。
由于对scaffold图进行了线性化,scaffold图中各contig片段之间的空位大小可能反生了变化,此时,为了准确的反映线性化后的scaffold图中各contig片段之间的空位大小,在本发明另一实施例中,空位大小计算单元62重新计算线性化后scaffold图中各contig片段之间的空位大小。
其中重新计算线性化后scaffold图中各contig片段之间的空位大小的步骤具体为:按线性化以后的scaffold图上contig的位置前后关系,直接计算位置相邻的两两contig片段之间的空位大小,并重新连接位置相邻的contig片段,从而将原先的scaffold图转化为一个真正的线性结构。请参阅图4a和图4b,由图4a中的AB、AE、AC、ED的连接关系转化为图4b中的AE、EB、BC、CD的连接关系。而线性化之后各contig片段之间的空位大小由原先的已算得的空位大小直接加减获得。如AE之间的空位大小表示为AE=AC-EC。
在对scaffold图进行了重复片段的屏蔽以及子图的线性化后,由于scaffold图中各contig片段之间的空位大小发生了变化,此时,可能之前被屏蔽的contig片段恰好位于两个唯一contig片段之间,此时,为了减少scaffold的内部空位大小,使scaffold能尽可能地被填充,该scaffold构建系统还包括重复片段恢复单元66。该重复片段恢复单元66在被屏蔽的重复contig片段位于两个唯一contig片段之间时,恢复被屏蔽的重复contig片段。
请参阅图5,为经步骤S 104和步骤S105后得到的scaffold图,如果之前被屏蔽的contig片段R位于该scaffold图中的contig片段A和D两个唯一contig片段之间,则直接恢复之前被屏蔽的重复contig片段R。
在本发明实施例中,通过将测序得到的正反向信息映射到contig片段上,再根据各contig片段之间的多对正反向信息计算各contig片段之间的平均长度,作为各contig片段之间的空位大小,从而大大提高了scaffold构建中contig片段之间的空位大小的估计精度,最后再根据计算得到的contig片段之间的空位大小和正反向关系即可将各contig片段构建成完整的scaffold图,从而当采用的基因组测序技术的测序读长较短时,也可以通过上述scaffold构建方法完成测序片段的拼接任务,且降低了测序片段拼接的出错率。同时本发明实施例通过对构建的scaffold图进行重复片段屏蔽处理,从而避免了由于重复片段的影响而导致的scaffold错拼的问题,大大提高了构建scaffold的准确度;通过对构建的scaffold图进行线性化处理,从而确定了contig片段之间的位置关系,提高scaffold的覆盖长度;通过恢复被屏蔽的重复片段,从而充分利用重复片段的信息,尽可能使scaffold的内部空位被填充。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。