CN103049680B - 基因测序数据读取方法及系统 - Google Patents

基因测序数据读取方法及系统 Download PDF

Info

Publication number
CN103049680B
CN103049680B CN201210592061.2A CN201210592061A CN103049680B CN 103049680 B CN103049680 B CN 103049680B CN 201210592061 A CN201210592061 A CN 201210592061A CN 103049680 B CN103049680 B CN 103049680B
Authority
CN
China
Prior art keywords
blocks
files
gene sequencing
task
sequencing data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210592061.2A
Other languages
English (en)
Other versions
CN103049680A (zh
Inventor
孟金涛
魏延杰
成杰峰
冯圣中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Senris Biotechnology Shenzhen Co ltd
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN201210592061.2A priority Critical patent/CN103049680B/zh
Publication of CN103049680A publication Critical patent/CN103049680A/zh
Application granted granted Critical
Publication of CN103049680B publication Critical patent/CN103049680B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及生物信息学技术领域,提出了一种基因测序数据读取方法,包括如下步骤:对用户参数进行解析,确定任务个数;根据任务个数将测序数据分割成相同大小的文件块;对每个文件块的起始地址和终止地址进行调整;各任务对调整后的文件块结果进行读取。本发明还提供了基因测序数据读取系统及设有所述系统的基因测序数据分析装置。本发明实现了基因测序数据的并行读取,且各个文件块大小均匀,还避免了将一个序列分割到两个不同的文件块中。

Description

基因测序数据读取方法及系统
技术领域
本发明涉及生物信息学技术领域,具体涉及一种基因测序数据读取方法及系统。
背景技术
生物大分子的测序自始至终贯穿着生物信息学的发展,尤其是对核酸与蛋白质的测序。生物基因组中包括所有的细胞结构以及生命活动的遗传信息,从根本上指导着生物体的快速发育。精确和实时获取生物体的遗传信息可以有效的指引生命科学的研究。测序技术可以快速获取DNA上的遗传信息,全面阐释基因组的多样性和复杂性,在生物信息研究中扮演着越来越重要的角色。
在最近的几年中,新一代的测序技术给生物信息学带来了巨大变革,在测序原理、操作细节、技术扩展等方面取得了显著发展。相对于传统的Sanger测序法,新一代测序技术平台避免了克隆过程,直接使用接头进行并行PCR、测序反应,因此其数据量得到大幅提高,可以在更短的时间内对更多的DNA进行测序。如使用Sanger测序法绘制第一张人类基因组图谱前后共耗费13年时间和几百台测序仪,而现在新一代测序可以在几个月内时间内完成该工作。此外,新一代测序的成本也大大降低。
由于基因组源序列的长度从10万碱基(如猪痘病毒、大肠杆菌)到10亿碱基(如黄种人、黄瓜、熊猫基因组)大小不等,而复杂环境(如海水、人体大肠等)宏基因组数据甚至会达到上百亿碱基,而对这些样本进行测序其覆盖度要达到30-100倍,这使得产生的基因序列片段剧增。对海量序列数据进行处理会消耗巨大的内存,因此常使用并行处理的方式对海量序列数据进行分割,现有技术中进行基因测序数据分割前要选择合适的序列分割策略,避免将一个序列分割到两个不同的文件块中。
发明内容
本发明旨在解决上述现有技术中存在的问题,提出一种基因测序数据读取方法,包括如下步骤:
步骤a:对用户参数进行解析,确定任务个数;
步骤b:根据任务个数将测序数据分割成相同大小的文件块;
步骤c:对每个文件块的起始地址和终止地址进行调整;
步骤d:各任务对调整后的文件块结果进行读取。
优选地,在所述步骤a之前还包括如下步骤:对任务进行初始化,在所有节点之间建立连接,并对节点信息、任务信息进行统计。
优选地,所述步骤b具体为:根据任务个数将测序数据分割成相同大小的文件块,得到每个文件块的起始位置和终止位置;所述步骤c具体为:将步骤b所得每个文件块的起始位置调整为所述起始位置后第一个序列的起始点;将步骤b所得每个文件块的终止位置调整为所述终止位置后第一个序列的起始点,或调整为所述终止位置后的文件终止符。
优选地,所述步骤d为各任务对调整后的文件块结果进行多视口并行文件读取。
优选地,所述任务为进程,或程序中的线程。
优选地,所述进程为MPI进程。
优选地,所述的用户参数包括硬件性能、基因测序数据总大小、同源基因参考序列长度。
优选地,所述基因测序数据的格式为FASTA格式或FASTQ格式。
本发明还提供了一种基因测序数据读取系统,包括:
参数解析单元,用以对用户参数进行解析,确定任务个数;
分割单元,用以根据任务个数将测序数据分割成相同大小的文件块;
调整单元,用以对每个文件块的起始地址和终止地址进行调整;
结果读取单元,用以各任务对调整后的文件块结果进行读取。
优选地,所述系统还包括:初始化单元,用以对任务进行初始化,在所有节点之间建立连接,并对节点信息、任务信息进行统计。
本发明另提供了一种基因测序数据分析装置,所述基因测序数据分析装置设有上述基因测序数据读取系统。
本发明的有益效果在于,实现了基因测序数据的并行读取,且各个文件块大小均匀,还避免了将一个序列分割到两个不同的文件块中。
附图说明
图1是本发明实施例1提供的基因测序数据读取方法的实现流程图。
图2是FASTA数据格式示例图。
图3是FASTQ数据格式示例图。
图4是本发明实施例2提供的基因测序数据读取方法的实现流程图。
图5是本发明实施例2中的多视口并行读取示意图。
图6是本发明应用例1的文件块中read数量分布图。
图7是本发明应用例2中读取时间随任务数量变化图。
图8是本发明实施例4提供的基因测序数据读取系统的结构框图。
图9是本发明实施例5提供的基因测序数据读取系统的结构框图。
具体实施方式
为了使本领域的技术人员更好的理解本申请的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整的描述。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例首先按照任务的数量将基因测序数据均匀分割成大小相同的各个文件块,再对各个文件块的起始地址和终止地址进行调整,最后通过并行任务分别读取基因测序数据不同的文件块结果。不仅实现了基因测序数据的并行读取,而且各个文件块大小均匀,还避免了将一个序列分割到两个不同的文件块中。
实施例1
本发明的实施例1提供了一种基因测序数据读取方法。如图1所示,该方法包括如下步骤:
步骤S101:对用户参数进行解析,确定任务个数。本实施例中所述用户参数包括硬性性能、基因测序数据总大小、同源基因参考序列长度等,根据用户参数合理选择所需任务的个数。本实施例中的任务为MPI进程。
步骤S102:根据任务个数将测序数据分割成相同大小的文件块。本实施例中具体为根据任务个数将测序数据分割成相同大小的文件块,得到每个文件块的起始位置和终止位置。如任务个数为n,基因测序数据总大小为S,则第i(i=0,1,2,…,n-1)个文件块的起始位置为i*S/n,终止位置为(i+1)*S/n。
步骤S103:对每个文件块的起始地址和终止地址进行调整。本实施例中具体为将步骤S102所得每个文件块的起始位置调整为所述起始位置后第一个序列的起始点;将步骤S102所得每个文件块的终止位置调整为所述终止位置后第一个序列的起始点,或调整为所述终止位置后的文件终止符。即起始位置i*S/n后第一个序列的起始点为start(i),终止位置(i+1)*S/n后第一个序列的起始点为end(i),或终止位置(i+1)*S/n后的文件终止符为end(i)。
步骤S104:各任务对调整后的文件块结果进行读取。本实施例中数量为n的任务与数量为n的文件块一一对应,每个任务都清楚的知道所对应的文件块的准确位置,由起始位置start(i)向终止位置end(i)顺序读取。
本实施例中所述的基因测序数据格式具体为FASTA格式(查询序列文件)或FASTQ格式(质量信息文件)。所述FASTA格式文件如图2所示,存储了每条序列的说明信息以及序列集合信息,对于每一条序列信息,第一行均是以“>”为信息标识,作为该序列的序列标记,并记录了该序列信息来自于物种中染色体位置及其它生物信息,随后的第二条记录了序列本身信息。所述FASTQ格式文件如图3所示,以测序读段为单位存储,每条读段占四行,第一行和第三行由文件识别标志和读段名(ID)组成,第一行以“@”开头,第三行以“+”开头,第二行为碱基序列,第四行为对应的测序质量分数。
本领域的普通技术人员可以理解,实现本实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,所述的存储介质可采用ROM/RAM、磁盘、光盘等。
通过本实施例的方法不仅实现了基因测序数据的并行读取,而且各个文件块大小均匀,还避免了将一个序列分割到两个不同的文件块中。
实施例2
本发明的实施例2提供了一种基因测序数据读取方法。如图4所示,该方法包括如下步骤:
步骤S201:对任务进行初始化,在所有节点之间建立连接,并对节点信息、进程信息进行统计。本实施例中进行任务初始化,获得与计算的所有计算机节点信息、与组通信的任务标识号以及能够参与组通信的所有潜在任务数目进行统计。本实施例中的任务为MPI进程。
步骤S202:对用户参数进行解析,确定任务个数。
步骤S203:根据任务个数将测序数据分割成相同大小的文件块。
步骤S204:对每个文件块的起始地址和终止地址进行调整。
以上步骤在实施例1中已进行详细阐述,在此不一一赘述。
步骤S205:各任务对调整后的文件块结果进行多视口并行文件读取。本实施例中各任务对调整后的文件块结果进行多视口并行文件读取,根据实际需求将数据的文件类型进行分类,再根据不同文件类型限定所述文件类型中的数据是否可被视口访问,不能被视口访问的数据对视口是不可见的。例如可以将文件类型分为基本类型和从基本类型中衍生的其他类型,再限定基本类型为可被视口访问的,其他类型为视口不可见的,如图5所示,从视口看到的数据均为基本类型。当然,也可以对数据进行其他方式的分类,如可将基因测序数据分析中关注的文件类型限定为可被视口访问的,将与基因测序数据分析相关度不高的文件类型限定为视口不可见的。
本领域的普通技术人员可以理解,实现本实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,所述的存储介质可采用ROM/RAM、磁盘、光盘等。
应用例1
利用实施例2的基因测序数据读取方法读取酵母菌Solexa测序仪测序数据。首先根据硬件性能酵母菌基因组测序数据总大小、同源基因参考序列长度等用户参数综合考虑,选择任务数为16。然后根据任务个数将测序数据分割成相同大小的文件块;并对每个文件块的起始地址和终止地址进行调整,文件块信息如表1所示,其中,数据文件中每一位均代表一个字符,单位为bit。
表1酵母菌测序数据文件块信息表
对每个文件块中的read数量进行统计,结果如图6所示,每个文件块中所含read数量相差较小,read数量在各个文件块中分布均匀。
应用例2
利用实施例2的基因测序数据读取方法读取酵母菌Solexa测序仪测序数据。分别设置任务数为1,2,3,4,5,……,16,分别计算基因测序读取时间。结果如图7所示,进程数量为1-10时,读取时间随着进程数量的增加而减少,当进程数量达到10个后,读取时间的变化趋于平缓,因为任务数量达到10个时,存储系统的IO值已经达到极限。
实施例3
本发明的实施例3提供了一种基因测序数据读取方法。本实施例中由一台高性能的大型机利用程序中的不同线程完成基因测序数据的读取,该方法包括如下步骤:
步骤S301:对用户参数进行解析,确定程序的线程个数。
步骤S302:根据程序的线程个数将测序数据分割成相同大小的文件块。
步骤S303:对每个文件块的起始地址和终止地址进行调整。
步骤S304:各线程对调整后的文件块结果进行文件读取。
步骤S302至步骤S304在实施例1中已进行详细阐述,在此不一一赘述。
实施例4
本发明实施例4提供了一种基因测序数据读取系统。如图8所示,为了便于描述,仅示出与本发明实施例相关的部分。
请参阅图8,所述基因测序数据读取系统1包括参数解析单元11、分割单元12、调整单元13和结果读取单元14。
在基因测序数据读取过程中,参数解析单元11对用户参数进行解析,确定任务个数。分割单元12根据参数解析单元11确定的任务个数将测序数据分割成相同大小的文件块。调整单元13对分割单元12所分割的每个文件块的起始地址和终止地址进行调整。结果读取单元14将调整单元13调整后的文件块结果进行读取。
通过分割单元12将基因测序数据分割为大小相同的文件块,可以保证每个文件块中所含有的序列读段数量相当,保证序列读段在每个文件块中的分布均匀。调整单元13将分割单元12分割的每个文件块的起始地址和终止地址进行调整,保证一个序列不会被分割到两个不同的文件块中。结果读取单元14将数量为n的任务与数量为n的文件块一一对应,每个任务都清楚的知道所对应的文件块的准确位置,由调整后的起始位置向调整后的终止位置顺序读取。例如,可对调整后的文件块结果进行多视口并行文件读取。
实施例5
本发明实施例5提供了一种基因测序数据读取系统。如图9所示,为了便于描述,仅示出与本发明实施例相关的部分。
请参阅图8,所述基因测序数据读取系统1包括初始化单元10、参数解析单元11、分割单元12、调整单元13和结果读取单元14。
初始化单元10对MPI程序进行初始化,在所有节点之间建立连接,并对节点信息、进程信息进行统计。本实施例中初始化单元10进行MPI程序初始化,获得与计算的所有计算机节点信息、与组通信的进程标识号以及能够参与组通信的所有潜在进程数目进行统计。
参数解析单元11、分割单元12、调整单元13和结果读取单元14在实施例4中已进行详细阐述,在此不一一赘述。
实施例6
本发明实施例6提供了一种基因测序数据分析装置,该基因测序数据分析装置设有实施例4或实施例5提供的基因测序数据读取系统。具体工作原理如上文所述,在此不一一赘述。
本实施例提供的基因测序数据分析装置实现了基因测序数据的并行分析,而且各个文件块大小均匀,还避免了将一个序列分割到两个不同的文件块中。
以上所述的本发明实施方式,并不构成对本发明保护范围的限定。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明的权利要求保护范围之内。

Claims (4)

1.一种基因测序数据读取方法,其特征在于,包括如下步骤:
步骤a:对用户参数进行解析,确定任务个数;
步骤b:根据任务个数将测序数据分割成相同大小的文件块;
步骤c:对每个文件块的起始地址和终止地址进行调整;
步骤d:各任务对调整后的文件块结果进行读取;
在所述步骤a之前还包括如下步骤:对任务进行初始化,在所有节点之间建立连接,并对节点信息、任务信息进行统计;
所述步骤d为各任务对调整后的文件块结果进行多视口并行文件读取;
所述步骤b具体为:根据任务个数将测序数据分割成相同大小的文件块,得到每个文件块的起始位置和终止位置;所述步骤c具体为:将步骤b所得每个文件块的起始位置调整为所述起始位置后第一个序列的起始点;将步骤b所得每个文件块的终止位置调整为所述终止位置后第一个序列的起始点,或调整为所述终止位置后的文件终止符;所述任务为进程,或程序中的线程。
2.根据权利要求1所述的基因测序数据读取方法,其特征在于,所述进程为MPI进程。
3.根据权利要求1所述的基因测序数据读取方法,其特征在于,所述的用户参数包括硬件性能、基因测序数据总大小、同源基因参考序列长度。
4.根据权利要求1所述的基因测序数据读取方法,其特征在于,所述基因测序数据的格式为FASTA格式或FASTQ格式。
CN201210592061.2A 2012-12-29 2012-12-29 基因测序数据读取方法及系统 Active CN103049680B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210592061.2A CN103049680B (zh) 2012-12-29 2012-12-29 基因测序数据读取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210592061.2A CN103049680B (zh) 2012-12-29 2012-12-29 基因测序数据读取方法及系统

Publications (2)

Publication Number Publication Date
CN103049680A CN103049680A (zh) 2013-04-17
CN103049680B true CN103049680B (zh) 2016-09-07

Family

ID=48062314

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210592061.2A Active CN103049680B (zh) 2012-12-29 2012-12-29 基因测序数据读取方法及系统

Country Status (1)

Country Link
CN (1) CN103049680B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103559020B (zh) * 2013-11-07 2016-07-06 中国科学院软件研究所 一种dna读序数据fastq文件并行压缩和解压缩方法
CN104657627B (zh) * 2013-11-18 2017-12-05 广州中国科学院软件应用技术研究所 Fastq格式读段开头的寻找和判断方法以及系统
CN106603591B (zh) * 2015-10-14 2020-02-07 北京聚道科技有限公司 一种面向基因组检测数据传输和预处理的处理方法及系统
CN106096332A (zh) * 2016-06-28 2016-11-09 深圳大学 面向存储的dna序列的并行快速匹配方法及其系统
CN106407743B (zh) * 2016-08-31 2019-03-05 上海美吉生物医药科技有限公司 一种基于集群的高通量数据分析方法
WO2018071054A1 (en) * 2016-10-11 2018-04-19 Genomsys Sa Method and system for selective access of stored or transmitted bioinformatics data
EP3535678B1 (en) * 2016-11-03 2021-12-22 Illumina, Inc. Systems and methods for outlier significance assessment
CN107145766A (zh) * 2017-03-27 2017-09-08 中国科学院深圳先进技术研究院 基因序列读取方法及读取系统
CN107169313A (zh) * 2017-03-29 2017-09-15 中国科学院深圳先进技术研究院 Dna数据文件的读取方法及计算机可读存储介质
CN109616156B (zh) * 2018-12-03 2021-07-06 郑州云海信息技术有限公司 一种基因测序数据存储方法和装置
CN110750362A (zh) * 2019-12-19 2020-02-04 深圳华大基因科技服务有限公司 生物信息的分析方法、装置和存储介质
CN111326216B (zh) * 2020-02-27 2023-07-21 中国科学院计算技术研究所 一种针对大数据基因测序文件的快速划分方法
CN113192558A (zh) * 2021-05-26 2021-07-30 北京自由猫科技有限公司 用于第三代基因测序数据的读写方法及分布式文件系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于大规模序列比对软件的并行优化方案;郭新 等;《计算机工程》;20090228;第35卷(第3期);第1至4节 *
超大规模序列比对计算的并行优化;曹宗雁 等;《计算机应用》;20111231;第31卷(第增刊2期);全文 *

Also Published As

Publication number Publication date
CN103049680A (zh) 2013-04-17

Similar Documents

Publication Publication Date Title
CN103049680B (zh) 基因测序数据读取方法及系统
Zhang et al. Comprehensive profiling of circular RNAs with nanopore sequencing and CIRI-long
US20220411881A1 (en) Methods and systems for identifying disease-induced mutations
Ye et al. DBG2OLC: efficient assembly of large genomes using long erroneous reads of the third generation sequencing technologies
Spang et al. Complex archaea that bridge the gap between prokaryotes and eukaryotes
Lee et al. Exploiting maximal dependence decomposition to identify conserved motifs from a group of aligned signal sequences
CA2921645C (en) Methods and systems for aligning sequences
AU2014324438B2 (en) Methods and system for detecting sequence variants
Barker et al. Constrained models of evolution lead to improved prediction of functional linkage from correlated gain and loss of genes
Kiniry et al. Computational methods for ribosome profiling data analysis
Bucchini et al. TRAPID 2.0: a web application for taxonomic and functional analysis of de novo transcriptomes
CN105760706A (zh) 一种二代测序数据的压缩方法
Wang et al. Improving contig binning of metagenomic data using d 2 S d _2^ S oligonucleotide frequency dissimilarity
Zhang et al. Benchmarking genome assembly methods on metagenomic sequencing data
Qu et al. Simultaneous profiling of chromatin architecture and transcription in single cells
Leung et al. IDBA-MTP: a hybrid metatranscriptomic assembler based on protein information
Saggese et al. STAble: a novel approach to de novo assembly of RNA-seq data and its application in a metabolic model network based metatranscriptomic workflow
Buza et al. RECORD: reference-assisted genome assembly for closely related genomes
Pan et al. Whole genome mapping with feature sets from high-throughput sequencing data
Wong et al. SpliceWiz: interactive analysis and visualization of alternative splicing in R
Li et al. On de novo Bridging Paired-end RNA-seq Data
Lu et al. Hybrid Clustering of Long and Short-read for Improved Metagenome Assembly
Čalounová De novo transcriptomics and its use in non-model organisms
Li Bridging Paired-end RNA-seq reads
Fléglová 3D Genome Structure Visualisation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Meng Jintao

Inventor after: Wei Yanjie

Inventor after: Cheng Jiefeng

Inventor after: Feng Shengzhong

Inventor before: Meng Jintao

Inventor before: Wei Yanjie

Inventor before: Cheng Jiefeng

Inventor before: Feng Shengzhong

TR01 Transfer of patent right

Effective date of registration: 20211202

Address after: 518000 A-301, office building, Shenzhen Institute of advanced technology, No. 1068, Xue Yuan Avenue, Shenzhen University Town, Shenzhen, Guangdong, Nanshan District, China

Patentee after: Shenzhen shen-tech advanced Cci Capital Ltd.

Address before: 1068 No. 518055 Guangdong city in Shenzhen Province, Nanshan District City Xili University School Avenue

Patentee before: SHENZHEN INSTITUTES OF ADVANCED TECHNOLOGY

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220118

Address after: 518000 b402, blocks a and B, Nanshan medical device Industrial Park, No. 1019, Nanhai Avenue, Yanshan community, merchants street, Nanshan District, Shenzhen, Guangdong

Patentee after: Shenzhen hongzhituoxin venture capital enterprise (L.P.)

Address before: 518000 A-301, office building, Shenzhen Institute of advanced technology, No. 1068, Xue Yuan Avenue, Shenzhen University Town, Shenzhen, Guangdong, Nanshan District, China

Patentee before: Shenzhen shen-tech advanced Cci Capital Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220429

Address after: 518000 b402, blocks a and B, Nanshan medical device Industrial Park, No. 1019, Nanhai Avenue, Yanshan community, merchants street, Nanshan District, Shenzhen, Guangdong

Patentee after: Senris Biotechnology (Shenzhen) Co.,Ltd.

Address before: 518000 b402, blocks a and B, Nanshan medical device Industrial Park, No. 1019, Nanhai Avenue, Yanshan community, merchants street, Nanshan District, Shenzhen, Guangdong

Patentee before: Shenzhen hongzhituoxin venture capital enterprise (L.P.)

TR01 Transfer of patent right