CN101149743A

CN101149743A - Dna测序污染序列批量处理工具

Info

Publication number: CN101149743A
Application number: CNA200710144577XA
Authority: CN
Inventors: 匡友谊; 孙效文; 尹家胜
Original assignee: Heilongjiang River Fisheries Research Institute of Chinese Academy of Fishery Sciences
Current assignee: Heilongjiang River Fisheries Research Institute of Chinese Academy of Fishery Sciences
Priority date: 2007-11-09
Filing date: 2007-11-09
Publication date: 2008-03-26
Anticipated expiration: 2027-11-09
Also published as: CN100561479C

Abstract

DNA测序污染序列批量处理工具，涉及到一种分子生物学DNA序列的处理方法。它解决了现有的分子生物学DNA序列的处理方法不能对DNA序列的污染序列进行批量处理的问题。DNA测序污染序列批量处理工具由目录遍历装置、序列文件合并装置、载体污染序列搜索装置、接头污染序列搜索装置、位置确定装置和污染序列去除装置组成。它利用NCBI发布的Blast序列相似性搜索技术将待处理序列在构建好的载体序列库中进行相似性搜索，查找载体序列的位置，自动去除载体序列后，再利用两两序列比对技术查找接头序列的位置，并自动去除接头序列，最终获得无污染序列(包括载体和接头序列)的物种自有的DNA序列。它能够应用到分子生物学领域中对DNA测序获得的序列的处理中。

Description

DNA测序污染序列批量处理工具

技术领域

本发明涉及到一种分子生物学DNA序列的处理方法，具体涉及到将DNA测序后获得的大量序列中，含有污染序列进行批量处理进而获得测序物种自有序列的工具。

背景技术

随着人类基因组计划的实施及分子生物学技术的发展，DNA测序越来越成熟及普及，已成为动植物基因研究、群体遗传学、进化生物学和遗传育种等等研究领域所使用的普遍技术。DNA序列测定前的处理过程是：将目的片段连接上接头，插入到合适的质粒或载体中，然后转化到宿主细胞内进行繁殖扩增，提取质粒或载体，利用质粒或载体通用测序引物或将接头序列作为测序引物进行序列测定，通过这种方案进行测序后获得的序列中含有部分质粒或载体及接头序列，这些序列不是测序物种自有序列，须将这些序列去除后方能进行进一步处理，如序列拼接、比对、功能和结构预测、引物设计及DNA分子标记开发等。目前有一些软件能进行载体序列的处理，但它们均注重于某一最终目的，不能获得单个序列的处理结果。如著名的序列拼接软件Staden和Phrap能根据载体序列库去除待处理序列中的载体序列，但它们注重于序列的拼接，并不能获得待处理序列去除载体序列后的处理结果，而且使用复杂；NCBI网站(http://www.ncbi.nlm.nih.gov)的VecScreen程序通过目的序列与公用载体序列库进行比对，显示是否有污染序列，但它只是给出污染序列的位置，不能自动去除污染序列，更不能进行批量处理，并且对商业用途的载体不能完整的处理。另外，目的序列需要与接头序列连接后才能插入到质粒或载体中进行扩增测序，而接头序列是多样化的，可以根据不同目的人为确定，它不存在于载体序列库中，上述软件均不能对接头序列进行处理或完整处理。因此设计一个能自动批量进行污染序列(包括载体和接头序列)查找、去除，最终获得测序物种自有序列的方法，对DNA测序获得的序列的处理具有重要意义。

发明内容

为了解决现有的分子生物学DNA序列的处理方法不能对DNA序列进行污染序列的批量处理的问题，本发明提了一种DNA测序污染序列批量处理工具。

DNA测序污染序列批量处理工具由以下装置组成：

用于对指定的测序后获得的原始序列文件存放目录及其子目录进行遍历，以获得所述目录中所有指定类型的原始序列文件的目录遍历装置，

用于对目录遍历模块获得的所有原始序列文件进行合并，进而生成一个标准fasta序列格式的原始序列文件集的序列文件合并装置，

用于采用递归算法调用Blast序列相似性搜索程序对原始序列文件集中的每条序列逐一与载体序列库中的载体序列进行相似性搜索，进而获得与对比的载体序列相似性最高、长度最长的一段序列为目标序列的载体污染序列搜索装置，

用于循环调用Blast两两序列比对程序对载体污染已去除序列文件集中的所有序列逐一和接头序列库中的接头序列进行两两比对，进而获得输入序列中与接头序列库中的接头序列有相似性的一段序列为目标序列的接头污染序列搜索装置，

用于根据载体污染序列搜索装置或者接头污染序列搜索装置获得的目标序列在输入序列中的位置，确定待去除污染序列的起始位置和终止位置的位置确定装置，

用于将位置确定装置获得的起始位置和终止位置之间的序列去除的污染序列去除装置。

本发明利用NCBI(美国国家生物技术信息中心)发布的Blast序列相似性搜索技术将待处理序列在构建好的载体序列库中进行相似性搜索，查找载体序列的位置，自动去除载体序列后，再利用两两序列比对技术查找接头序列的位置，并自动去除接头序列，最终获得无污染序列(包括载体和接头序列)的物种自有的DNA序列。

本发明实现了对DNA测序后获得序列的污染序列进行批量自动处理的功能，它能够方便有效的将测序获得的序列中含有的由载体和接头序列组成的污染序列清除，输出只含有测序物种自有序列，大大减轻了物种测序获得的序列处理的工作量，并提高了处理的效率和质量。本发明获得的序列文件的保存与输出均采用标准的fasta序列格式，采用跨平台程序设计语言，使程序可以跨平台运行。

附图说明

图1是载体污染序列在基因序列中前部分的示意图，图2是载体污染序列在基因序列中后部分的示意图；图3是载体污染序列在基因序列中间位置的示意图；图4是具体实施方式二所述的接头序列库的格式；图5是具体实施方式二中通过目录遍历装置和序列文件合并装置获得的合并后的待处理的原始序列文件；图6是图5所示的原始序列文件经过载体污染序列处理装置处理后获得的载体污染序列已去除的序列文件；图7是图6所示的序列文件经过接头污染序列处理装置处理之后获得的物种自有序列文件。

具体实施方式

具体实施方式一：DNA测序污染序列批量处理工具由以下装置组成：

用于对指定的测序后获得的原始序列文件存放目录及其子目录进行遍历，以获得所述目录中所有指定类型的原始序列文件的目录遍历装置；

采用本实施方式所述的DNA测序污染序列批量处理工具对DNA测序污染序列进行处理的过程为：

第一步、根据要处理的DNA序列所在的目录采用目录遍历装置获得所述目录中所有指定类型的原始序列文件；

第二步、通过序列文件合并装置将所述原始序列文件合并成一个标准fasta序列格式的原始序列文件集；

第三步、用载体污染序列搜索装置在原始序列文件集中的所有原始序列中搜索载体污染序列；

第四步、通过位置确定装置确定待去除的载体污染序列的起始位置和终止位置；

第五步、通过污染序列去除装置去除位置确定装置获得的起始位置和终止位置之间的序列，获得载体污染序列已出去的序列文件；

第六步、通过接头污染序列搜索装置在原始序列集中的所有原始序列中搜索接头序列；

第七步、通过位置确定装置确定待去除的接头污染序列的起始位置和终止位置；

第八步、通过污染序列去除装置去除位置确定装置获得的起始位置和终止位置之间的序列，获得已去除污染序列的物种自有序列文件。

参见图1至图3，污染序列在基因序列中的位置一般分三种情况，第一种：是污染序列在基因序列中前部分，如图1所示，疑似污染序列A在污染序列B前面50个碱基以内，污染序列B后面为物种自有序列C；第二种是污染序列在基因序列中后部分，如图2所示，疑似污染序列A在污染序列B后面50个碱基因以内，污染序列B前面的是物种自有序列C；第三种是污染序列在序列中间位置，如图3所示。

所述位置确定装置由以下装置组成：

判断目标序列的起始位置是否位于输入序列前面50个碱基以内的前端位置判断装置，

根据前端位置判断装置的肯定结果，确定污染序列的起始位置为输入序列的起始位置，污染序列的终止位置为目标序列的终止位置的污染序列前端位置确定装置，

判断目标序列的终止位置是否位于输入序列最后50个碱基以内的后端位置判断装置，

根据后端位置判断装置的肯定结果，确定污染序列的终止位置为输入序列的终止位置，污染序列的起始位置为目标序列的起始位置的污染序列后端位置确定装置，

判断目标序列的起始位置是否位于输入序列前面50个碱基以后，同时目标序列的终止位置位于输入序列最后50个碱基因以前的污染序列中间位置判断装置，

根据污染序列中间位置判断装置的肯定结果，确定污染序列的起始位置和终止位置分别为目标序列的起始位置和终止位置的中间污染序列位置确定装置。

具体实施方式二：采用具体实施方式一所述的DNA测序污染序列批量处理工具对一批DNA测序污染序列进行处理，采用NCBI发布的通用载体序列库UniVec作为对比的载体序列库，采用图4所示的自行定义的接头序列库作为对比的接头序列库。则图5为第二步获得的原始序列文件集，图6是图5所示的原始序列文件集经过第五步处理后获得的载体污染序列已去除的序列文件集；图7是图6所示的载体污染序列已去除的序列文件集经过第八步的处理后获得的物种自有序列文件集。

Claims

1.DNA测序污染序列批量处理工具，其特征在于它由以下装置组成：

用于循环调用Blast两两序列比对程序对载体污染已去除序列文件集中的所有序列逐一和接头序列库中的接头序列进行两两比对，进而获得输入序列中与接头序列中的接头序列有相似性的一段序列为目标序列的接头污染序列搜索装置，

2.根据权利要求1所述的DNA测序污染序列批量处理工具，其特征在于所述位置确定装置由以下装置组成：