CN101149743A - Dna测序污染序列批量处理工具 - Google Patents

Dna测序污染序列批量处理工具 Download PDF

Info

Publication number
CN101149743A
CN101149743A CNA200710144577XA CN200710144577A CN101149743A CN 101149743 A CN101149743 A CN 101149743A CN A200710144577X A CNA200710144577X A CN A200710144577XA CN 200710144577 A CN200710144577 A CN 200710144577A CN 101149743 A CN101149743 A CN 101149743A
Authority
CN
China
Prior art keywords
sequence
polluted
joint
carrier
reference position
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA200710144577XA
Other languages
English (en)
Other versions
CN100561479C (zh
Inventor
匡友谊
孙效文
尹家胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Heilongjiang River Fisheries Research Institute of Chinese Academy of Fishery Sciences
Original Assignee
Heilongjiang River Fisheries Research Institute of Chinese Academy of Fishery Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Heilongjiang River Fisheries Research Institute of Chinese Academy of Fishery Sciences filed Critical Heilongjiang River Fisheries Research Institute of Chinese Academy of Fishery Sciences
Priority to CNB200710144577XA priority Critical patent/CN100561479C/zh
Publication of CN101149743A publication Critical patent/CN101149743A/zh
Application granted granted Critical
Publication of CN100561479C publication Critical patent/CN100561479C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

DNA测序污染序列批量处理工具,涉及到一种分子生物学DNA序列的处理方法。它解决了现有的分子生物学DNA序列的处理方法不能对DNA序列的污染序列进行批量处理的问题。DNA测序污染序列批量处理工具由目录遍历装置、序列文件合并装置、载体污染序列搜索装置、接头污染序列搜索装置、位置确定装置和污染序列去除装置组成。它利用NCBI发布的Blast序列相似性搜索技术将待处理序列在构建好的载体序列库中进行相似性搜索,查找载体序列的位置,自动去除载体序列后,再利用两两序列比对技术查找接头序列的位置,并自动去除接头序列,最终获得无污染序列(包括载体和接头序列)的物种自有的DNA序列。它能够应用到分子生物学领域中对DNA测序获得的序列的处理中。

Description

DNA测序污染序列批量处理工具
技术领域
本发明涉及到一种分子生物学DNA序列的处理方法,具体涉及到将DNA测序后获得的大量序列中,含有污染序列进行批量处理进而获得测序物种自有序列的工具。
背景技术
随着人类基因组计划的实施及分子生物学技术的发展,DNA测序越来越成熟及普及,已成为动植物基因研究、群体遗传学、进化生物学和遗传育种等等研究领域所使用的普遍技术。DNA序列测定前的处理过程是:将目的片段连接上接头,插入到合适的质粒或载体中,然后转化到宿主细胞内进行繁殖扩增,提取质粒或载体,利用质粒或载体通用测序引物或将接头序列作为测序引物进行序列测定,通过这种方案进行测序后获得的序列中含有部分质粒或载体及接头序列,这些序列不是测序物种自有序列,须将这些序列去除后方能进行进一步处理,如序列拼接、比对、功能和结构预测、引物设计及DNA分子标记开发等。目前有一些软件能进行载体序列的处理,但它们均注重于某一最终目的,不能获得单个序列的处理结果。如著名的序列拼接软件Staden和Phrap能根据载体序列库去除待处理序列中的载体序列,但它们注重于序列的拼接,并不能获得待处理序列去除载体序列后的处理结果,而且使用复杂;NCBI网站(http://www.ncbi.nlm.nih.gov)的VecScreen程序通过目的序列与公用载体序列库进行比对,显示是否有污染序列,但它只是给出污染序列的位置,不能自动去除污染序列,更不能进行批量处理,并且对商业用途的载体不能完整的处理。另外,目的序列需要与接头序列连接后才能插入到质粒或载体中进行扩增测序,而接头序列是多样化的,可以根据不同目的人为确定,它不存在于载体序列库中,上述软件均不能对接头序列进行处理或完整处理。因此设计一个能自动批量进行污染序列(包括载体和接头序列)查找、去除,最终获得测序物种自有序列的方法,对DNA测序获得的序列的处理具有重要意义。
发明内容
为了解决现有的分子生物学DNA序列的处理方法不能对DNA序列进行污染序列的批量处理的问题,本发明提了一种DNA测序污染序列批量处理工具。
DNA测序污染序列批量处理工具由以下装置组成:
用于对指定的测序后获得的原始序列文件存放目录及其子目录进行遍历,以获得所述目录中所有指定类型的原始序列文件的目录遍历装置,
用于对目录遍历模块获得的所有原始序列文件进行合并,进而生成一个标准fasta序列格式的原始序列文件集的序列文件合并装置,
用于采用递归算法调用Blast序列相似性搜索程序对原始序列文件集中的每条序列逐一与载体序列库中的载体序列进行相似性搜索,进而获得与对比的载体序列相似性最高、长度最长的一段序列为目标序列的载体污染序列搜索装置,
用于循环调用Blast两两序列比对程序对载体污染已去除序列文件集中的所有序列逐一和接头序列库中的接头序列进行两两比对,进而获得输入序列中与接头序列库中的接头序列有相似性的一段序列为目标序列的接头污染序列搜索装置,
用于根据载体污染序列搜索装置或者接头污染序列搜索装置获得的目标序列在输入序列中的位置,确定待去除污染序列的起始位置和终止位置的位置确定装置,
用于将位置确定装置获得的起始位置和终止位置之间的序列去除的污染序列去除装置。
本发明利用NCBI(美国国家生物技术信息中心)发布的Blast序列相似性搜索技术将待处理序列在构建好的载体序列库中进行相似性搜索,查找载体序列的位置,自动去除载体序列后,再利用两两序列比对技术查找接头序列的位置,并自动去除接头序列,最终获得无污染序列(包括载体和接头序列)的物种自有的DNA序列。
本发明实现了对DNA测序后获得序列的污染序列进行批量自动处理的功能,它能够方便有效的将测序获得的序列中含有的由载体和接头序列组成的污染序列清除,输出只含有测序物种自有序列,大大减轻了物种测序获得的序列处理的工作量,并提高了处理的效率和质量。本发明获得的序列文件的保存与输出均采用标准的fasta序列格式,采用跨平台程序设计语言,使程序可以跨平台运行。
附图说明
图1是载体污染序列在基因序列中前部分的示意图,图2是载体污染序列在基因序列中后部分的示意图;图3是载体污染序列在基因序列中间位置的示意图;图4是具体实施方式二所述的接头序列库的格式;图5是具体实施方式二中通过目录遍历装置和序列文件合并装置获得的合并后的待处理的原始序列文件;图6是图5所示的原始序列文件经过载体污染序列处理装置处理后获得的载体污染序列已去除的序列文件;图7是图6所示的序列文件经过接头污染序列处理装置处理之后获得的物种自有序列文件。
具体实施方式
具体实施方式一:DNA测序污染序列批量处理工具由以下装置组成:
用于对指定的测序后获得的原始序列文件存放目录及其子目录进行遍历,以获得所述目录中所有指定类型的原始序列文件的目录遍历装置;
用于对目录遍历模块获得的所有原始序列文件进行合并,进而生成一个标准fasta序列格式的原始序列文件集的序列文件合并装置,
用于采用递归算法调用Blast序列相似性搜索程序对原始序列文件集中的每条序列逐一与载体序列库中的载体序列进行相似性搜索,进而获得与对比的载体序列相似性最高、长度最长的一段序列为目标序列的载体污染序列搜索装置,
用于循环调用Blast两两序列比对程序对载体污染已去除序列文件集中的所有序列逐一和接头序列库中的接头序列进行两两比对,进而获得输入序列中与接头序列库中的接头序列有相似性的一段序列为目标序列的接头污染序列搜索装置,
用于根据载体污染序列搜索装置或者接头污染序列搜索装置获得的目标序列在输入序列中的位置,确定待去除污染序列的起始位置和终止位置的位置确定装置,
用于将位置确定装置获得的起始位置和终止位置之间的序列去除的污染序列去除装置。
采用本实施方式所述的DNA测序污染序列批量处理工具对DNA测序污染序列进行处理的过程为:
第一步、根据要处理的DNA序列所在的目录采用目录遍历装置获得所述目录中所有指定类型的原始序列文件;
第二步、通过序列文件合并装置将所述原始序列文件合并成一个标准fasta序列格式的原始序列文件集;
第三步、用载体污染序列搜索装置在原始序列文件集中的所有原始序列中搜索载体污染序列;
第四步、通过位置确定装置确定待去除的载体污染序列的起始位置和终止位置;
第五步、通过污染序列去除装置去除位置确定装置获得的起始位置和终止位置之间的序列,获得载体污染序列已出去的序列文件;
第六步、通过接头污染序列搜索装置在原始序列集中的所有原始序列中搜索接头序列;
第七步、通过位置确定装置确定待去除的接头污染序列的起始位置和终止位置;
第八步、通过污染序列去除装置去除位置确定装置获得的起始位置和终止位置之间的序列,获得已去除污染序列的物种自有序列文件。
参见图1至图3,污染序列在基因序列中的位置一般分三种情况,第一种:是污染序列在基因序列中前部分,如图1所示,疑似污染序列A在污染序列B前面50个碱基以内,污染序列B后面为物种自有序列C;第二种是污染序列在基因序列中后部分,如图2所示,疑似污染序列A在污染序列B后面50个碱基因以内,污染序列B前面的是物种自有序列C;第三种是污染序列在序列中间位置,如图3所示。
所述位置确定装置由以下装置组成:
判断目标序列的起始位置是否位于输入序列前面50个碱基以内的前端位置判断装置,
根据前端位置判断装置的肯定结果,确定污染序列的起始位置为输入序列的起始位置,污染序列的终止位置为目标序列的终止位置的污染序列前端位置确定装置,
判断目标序列的终止位置是否位于输入序列最后50个碱基以内的后端位置判断装置,
根据后端位置判断装置的肯定结果,确定污染序列的终止位置为输入序列的终止位置,污染序列的起始位置为目标序列的起始位置的污染序列后端位置确定装置,
判断目标序列的起始位置是否位于输入序列前面50个碱基以后,同时目标序列的终止位置位于输入序列最后50个碱基因以前的污染序列中间位置判断装置,
根据污染序列中间位置判断装置的肯定结果,确定污染序列的起始位置和终止位置分别为目标序列的起始位置和终止位置的中间污染序列位置确定装置。
具体实施方式二:采用具体实施方式一所述的DNA测序污染序列批量处理工具对一批DNA测序污染序列进行处理,采用NCBI发布的通用载体序列库UniVec作为对比的载体序列库,采用图4所示的自行定义的接头序列库作为对比的接头序列库。则图5为第二步获得的原始序列文件集,图6是图5所示的原始序列文件集经过第五步处理后获得的载体污染序列已去除的序列文件集;图7是图6所示的载体污染序列已去除的序列文件集经过第八步的处理后获得的物种自有序列文件集。

Claims (2)

1.DNA测序污染序列批量处理工具,其特征在于它由以下装置组成:
用于对指定的测序后获得的原始序列文件存放目录及其子目录进行遍历,以获得所述目录中所有指定类型的原始序列文件的目录遍历装置,
用于对目录遍历模块获得的所有原始序列文件进行合并,进而生成一个标准fasta序列格式的原始序列文件集的序列文件合并装置,
用于采用递归算法调用Blast序列相似性搜索程序对原始序列文件集中的每条序列逐一与载体序列库中的载体序列进行相似性搜索,进而获得与对比的载体序列相似性最高、长度最长的一段序列为目标序列的载体污染序列搜索装置,
用于循环调用Blast两两序列比对程序对载体污染已去除序列文件集中的所有序列逐一和接头序列库中的接头序列进行两两比对,进而获得输入序列中与接头序列中的接头序列有相似性的一段序列为目标序列的接头污染序列搜索装置,
用于根据载体污染序列搜索装置或者接头污染序列搜索装置获得的目标序列在输入序列中的位置,确定待去除污染序列的起始位置和终止位置的位置确定装置,
用于将位置确定装置获得的起始位置和终止位置之间的序列去除的污染序列去除装置。
2.根据权利要求1所述的DNA测序污染序列批量处理工具,其特征在于所述位置确定装置由以下装置组成:
判断目标序列的起始位置是否位于输入序列前面50个碱基以内的前端位置判断装置,
根据前端位置判断装置的肯定结果,确定污染序列的起始位置为输入序列的起始位置,污染序列的终止位置为目标序列的终止位置的污染序列前端位置确定装置,
判断目标序列的终止位置是否位于输入序列最后50个碱基以内的后端位置判断装置,
根据后端位置判断装置的肯定结果,确定污染序列的终止位置为输入序列的终止位置,污染序列的起始位置为目标序列的起始位置的污染序列后端位置确定装置,
判断目标序列的起始位置是否位于输入序列前面50个碱基以后,同时目标序列的终止位置位于输入序列最后50个碱基因以前的污染序列中间位置判断装置,
根据污染序列中间位置判断装置的肯定结果,确定污染序列的起始位置和终止位置分别为目标序列的起始位置和终止位置的中间污染序列位置确定装置。
CNB200710144577XA 2007-11-09 2007-11-09 Dna测序污染序列批量处理工具 Expired - Fee Related CN100561479C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB200710144577XA CN100561479C (zh) 2007-11-09 2007-11-09 Dna测序污染序列批量处理工具

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB200710144577XA CN100561479C (zh) 2007-11-09 2007-11-09 Dna测序污染序列批量处理工具

Publications (2)

Publication Number Publication Date
CN101149743A true CN101149743A (zh) 2008-03-26
CN100561479C CN100561479C (zh) 2009-11-18

Family

ID=39250271

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB200710144577XA Expired - Fee Related CN100561479C (zh) 2007-11-09 2007-11-09 Dna测序污染序列批量处理工具

Country Status (1)

Country Link
CN (1) CN100561479C (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102216934A (zh) * 2008-11-18 2011-10-12 皇家飞利浦电子股份有限公司 基于dna谱图的能带有效搜索dna序列的方法和设备
CN102521529A (zh) * 2011-12-09 2012-06-27 北京市计算中心 基于blast的分布式基因序列比对方法
CN102831330A (zh) * 2011-11-30 2012-12-19 北京诺禾致源生物信息科技有限公司 测序数据的处理方法及装置
CN104462211A (zh) * 2014-11-04 2015-03-25 北京诺禾致源生物信息科技有限公司 重测序数据的处理方法和处理装置
CN105631243A (zh) * 2015-12-28 2016-06-01 深圳先进技术研究院 病原微生物的检测方法及装置
CN111816254A (zh) * 2020-06-01 2020-10-23 上海派森诺生物科技股份有限公司 一种基于perl语言快速批量去除载体序列的方法
CN113593645A (zh) * 2021-08-02 2021-11-02 上海欧易生物医学科技有限公司 一种cDNA文库基因序列移码判断的方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102216934A (zh) * 2008-11-18 2011-10-12 皇家飞利浦电子股份有限公司 基于dna谱图的能带有效搜索dna序列的方法和设备
CN102216934B (zh) * 2008-11-18 2017-05-24 皇家飞利浦电子股份有限公司 基于dna谱图的能带有效搜索dna序列的方法和设备
CN102831330A (zh) * 2011-11-30 2012-12-19 北京诺禾致源生物信息科技有限公司 测序数据的处理方法及装置
CN102521529A (zh) * 2011-12-09 2012-06-27 北京市计算中心 基于blast的分布式基因序列比对方法
CN104462211A (zh) * 2014-11-04 2015-03-25 北京诺禾致源生物信息科技有限公司 重测序数据的处理方法和处理装置
CN104462211B (zh) * 2014-11-04 2018-01-02 北京诺禾致源科技股份有限公司 重测序数据的处理方法和处理装置
CN105631243A (zh) * 2015-12-28 2016-06-01 深圳先进技术研究院 病原微生物的检测方法及装置
CN105631243B (zh) * 2015-12-28 2018-08-14 深圳先进技术研究院 病原微生物的检测方法及装置
CN111816254A (zh) * 2020-06-01 2020-10-23 上海派森诺生物科技股份有限公司 一种基于perl语言快速批量去除载体序列的方法
CN113593645A (zh) * 2021-08-02 2021-11-02 上海欧易生物医学科技有限公司 一种cDNA文库基因序列移码判断的方法

Also Published As

Publication number Publication date
CN100561479C (zh) 2009-11-18

Similar Documents

Publication Publication Date Title
CN100561479C (zh) Dna测序污染序列批量处理工具
Clum et al. DOE JGI metagenome workflow
CN105886616B (zh) 一种用于猪基因编辑的高效特异性sgRNA识别位点引导序列及其筛选方法
CN107194208B (zh) 一种基因分析注释方法和装置
Crawford et al. Identifying gene regulatory elements by genome-wide recovery of DNase hypersensitive sites
Stranneheim et al. Classification of DNA sequences using Bloom filters
van Dijk et al. Genomics in the long-read sequencing era
Ma et al. The analysis of ChIP-Seq data
WO2009155443A2 (en) Method and apparatus for sequencing data samples
WO2012092039A1 (en) Data analysis of dna sequences
Larson et al. A clinician’s guide to bioinformatics for next-generation sequencing
Henke et al. Perspectives for identification of mutations in the zebrafish: making use of next-generation sequencing technologies for forward genetic approaches
Brocal et al. Efficient identification of CRISPR/Cas9-induced insertions/deletions by direct germline screening in zebrafish
CN105426700B (zh) 一种批量计算基因组直系同源基因进化速率的方法
Ortutay et al. Immunome knowledge base (IKB): an integrated service for immunome research
CN110021360B (zh) 基于组学数据挖掘的疾病—药物关联平台
Dettai et al. Conveniently pre-tagged and pre-packaged: extended molecular identification and metagenomics using complete metazoan mitochondrial genomes
Solovyev et al. INFOGENE: a database of known gene structures and predicted genes and proteins in sequences of genome sequencing projects
CN101957860A (zh) 一种发布、搜索信息的方法及装置
CN108504750B (zh) 确定菌群snp位点集合的方法、系统及其应用
Pomraning et al. Library preparation and data analysis packages for rapid genome sequencing
Churcheward et al. MAGNETO: an automated workflow for genome-resolved metagenomics
CN109243531A (zh) 一种批量计算近缘物种间基因组编码区snp位点的方法
Viggiani et al. Genome-wide analysis of DNA synthesis by BrdU immunoprecipitation on tiling microarrays (BrdU-IP-chip) in Saccharomyces cerevisiae
CN115843318B (zh) 基于全基因组分析与基因组编辑的植物物种鉴定方法与应用

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20091118

Termination date: 20101109