CN110797082A - 基因测序数据的存储读取方法及系统 - Google Patents

基因测序数据的存储读取方法及系统 Download PDF

Info

Publication number
CN110797082A
CN110797082A CN201911015162.1A CN201911015162A CN110797082A CN 110797082 A CN110797082 A CN 110797082A CN 201911015162 A CN201911015162 A CN 201911015162A CN 110797082 A CN110797082 A CN 110797082A
Authority
CN
China
Prior art keywords
file
encoding
encoded
data
fastq
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911015162.1A
Other languages
English (en)
Inventor
张爽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujian Herui Gene Technology Co Ltd
Original Assignee
Fujian Herui Gene Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujian Herui Gene Technology Co Ltd filed Critical Fujian Herui Gene Technology Co Ltd
Priority to CN201911015162.1A priority Critical patent/CN110797082A/zh
Publication of CN110797082A publication Critical patent/CN110797082A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开的实施例提供了基因测序数据的存储方法、装置、设备和计算机可读存储介质。所述方法包括读取基因测序仪测序产生的FASTQ文件;将所述FASTQ文件包括的测序序列分割重组为待编码数据;对所述待编码数据分别进行编码,生成编码文件;对所述编码文件进行压缩、打包及存储。以此方式,可以将所需的存储空间进一步压缩到FASTQ.gz格式的1/2左右,减少了对存储空间的需求。

Description

基因测序数据的存储读取方法及系统
技术领域
本公开的实施例一般涉及生物信息领域,并且更具体地,涉及基因测序数据的存储读取方法、装置、设备和计算机可读存储介质。
背景技术
生物信息学的主要任务之一是采集和分析大量的基因数据。这些数据对于基因研究来说至关重要,有助于确定防止或导致疾病产生的基因组件,并研究出具有针对性的疗法。
测序,简单来说就是将DNA化学信号转变为计算机可处理的数字信号。高通量的测序方法和设备产生海量的短的读序数据。存储、管理和传输DNA读序数据的常用方法是采用FASTQ文件格式。FASTQ格式是一种基于文本的存储生物序列和对应碱基(或氨基酸)质量的文件格式。最初由桑格研究所(Wellcome Trust Sanger Institute)开发出来,现已成为存储高通量测序数据的事实标准。
FASTQ文件由多条测序序列(reads)组成,每条测序序列由4行字符构成:
第一行为信息头:必须以@开头,后面跟着序列的唯一ID以及相关说明内容。
第二行为Base值:核酸序列,是由碱基ATCGN字符组成。
第三行为分隔符:“+”开头,内容和第一行@后面的一样。
第四行为质量值:对第二行中的碱基的质量评分(quality score)进行编码并具有相同长度,是用ASCII码来表示的。质量评分代表在对应碱基中被编码成可打印字符的根据弗瑞德标准(Phred scale)的对应碱基的估计出错概率。
相比其它DNA数据的存储格式(例如FASTA),FASTQ格式能存储更多的信息,但这同时也使得文件大小和存储空间急剧增长。
测序数据的增长速度远远超过了处理器和存储设备的增长速度,存储和分析测序技术和大型基因组项目所产生的数据“海啸”已经成为制约测序产业进一步发展的一个重要瓶颈。
一般将FASTQ文件压缩成.gz格式文件。尽管行业很多软件可直接读取.gz格式的FASTQ文件,但对于长期存储的数据,该格式依旧占用大量存储空间。
发明内容
根据本公开的实施例,提供了一种基因测序数据的存储读取方案。
在本公开的第一方面,提供了一种基因测序数据的存储方法。该方法包括:读取基因测序仪测序产生的FASTQ文件;将所述FASTQ文件包括的测序序列分割重组为待编码数据;对所述待编码数据分别进行编码,生成编码文件;对所述编码文件进行压缩、打包及存储。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述待编码数据包括头信息、x坐标信息、y坐标信息、index信息、碱基信息、质量值信息;所述编码文件包括头信息编码文件、x编码文件、y编码文件、index编码文件、碱基编码文件、质量值编码文件。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述头信息包括所述FASTQ文件中每个读段的“the unique instrument name”、“the run id”、“theflowcell id”、“flowcell lane”、“tile number within the flowcell lane”、“themember of a pair,1or 2(paired-end or mate-pair reads only)”、“Y if the read isfiltered,N otherwise”、“0when none of the control bits are on,otherwise it isan even number”;X坐标信息包括FASTQ文件中每个读段的“‘x’-coordinate of thecluster within the tile”部分;Y坐标信息包括FASTQ文件中每个读段的“‘y’-coordinate of the cluster within the tile”;index信息包括FASTQ文件中每个读段的“index sequence”;碱基信息包括FASTQ文件中每个读段的Base值;质量值信息包括FASTQ文件中每个读段的质量值。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述头信息文件的编码规则为各lane号value值递减存储策略;所述X文件的编码规则为二进制存储策略;所述Y文件的编码规则为差值存储策略;所述index文件的编码规则为仅记录不一致碱基策略;所述碱基文件的编码规则为二比特存储策略;所述质量值文件的编码规则为三字节存储策略。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,对所述待编码文件分别进行编码,生成编码文件包括:根据头信息、x坐标信息、y坐标信息、index信息、碱基信息、质量值信息的编码规则分别进行编码,生成头信息编码文件、x编码文件、y编码文件、index编码文件、碱基编码文件、质量值编码文件。
在本公开的第二方面,提供了一种基因测序数据的读取方法。该方法包括:接收用户的读取请求,从数据库中获取对应的根据上述方法存储的文件;对所述文件进行解包及解压缩操作,得到对应的编码文件;利用预设解码规则对所述编码文件进行解码;得到对应的解码数据;对所述解码数据进行分割重组,并进行压缩得到FASTQ文件。
在本公开的第三方面,提供了一种基因测序数据的存储装置。该装置包括:读取模块,用于读取基因测序仪测序产生的FASTQ文件;分割重组模块,用于将所述FASTQ文件包括的测序序列分割重组为待编码数据;编码模块,用于对所述待编码数据分别进行编码,生成编码文件;存储模块,用于对所述编码文件进行压缩、打包及存储。
在本公开的第四方面,提供了一种基因测序数据的读取装置。该装置包括:获取模块,用于接收用户的读取请求,从数据库中获取对应的根据上述方法存储的文件;预处理模块,用于对所述文件进行解包及解压缩操作,得到对应的编码数据;解码模块,用于利用预设解码规则对所述编码数据进行解码;得到对应的解码文件;分割重组模块,用于对所述解码文件进行分割重组,并进行压缩得到FASTQ文件。
在本公开的第五方面,提供了一种电子设备。该电子设备包括:存储器和处理器,所述存储器上存储有计算机程序,所述处理器执行所述程序时实现如以上所述的方法。
在本公开的第六方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如根据本公开的第一方面的方法。
应当理解,发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征,亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。
附图说明
结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标记表示相同或相似的元素,其中:
图1示出了根据本公开的实施例的基因测序数据的存储方法的流程图;
图2示出了根据本公开的实施例的基因测序数据的读取方法的流程图;
图3示出了根据本公开的实施例的基因测序数据的存储装置的方框图;
图4示出了根据本公开的实施例的基因测序数据的读取装置的方框图;
图5示出了能够实施本公开的实施例的示例性电子设备的方框图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例,都属于本公开保护的范围。
另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
图1示出了根据本公开的实施例的基因测序数据的存储方法的流程图;
在框105,读取基因测序仪测序产生的FASTQ文件;
在框110,将所述FASTQ文件包括的测序序列分割重组为待编码数据;所述待编码数据包括头信息、x坐标信息、y坐标信息、index信息、碱基信息、质量值信息;
在框115,对所述待编码数据分别进行编码,生成编码文件;所述编码文件包括头信息编码文件、x编码文件、y编码文件、index编码文件、碱基编码文件、质量值编码文件;
在框120,对所述编码文件进行压缩、打包及存储。
在一些实施例中,在框105,读取基因测序仪测序产生的FASTQ文件;
所述FASTQ文件为.gz文件,对所述FASTQ文件进行解压,得到其中的读段。
基因测序仪测序产生成千上万条读段(read),这些读段存储于FASTQ格式的文件中,所述FASTQ文件包含基因测序产生的所有信息,其中,每条读段由4行字符构成:
第一行为信息头:必须以@开头,后面跟着序列的唯一ID以及相关说明内容。
第二行为Base值:核酸序列,是由碱基ATCGN字符组成。
第三行为分隔符:“+”开头,内容和第一行“@”后面的一样。
第四行为质量值:对第二行中的碱基的质量评分(quality score)进行编码并具有相同长度。
其中,第一行的命名方式以FASTQ v1.4后为例,如
@M00001:22:000000000-FC706VJ:1:1101:20899:2936 1:N:0:TAAGTAA。
所述信息头中,如表1所示,包括以下内容:
Figure BDA0002245453370000061
表1
其中,“the unique instrument name”、“the run id”、“the flowcell id”、“themember of a pair,1or 2(paired-end or mate-pair reads only)”、“Y if the read isfiltered,N otherwise”、“0when none of the control bits are on,otherwise it isan even number”为固定变量中,在整个FASTQ文件中都不会发生变化。
在一些实施例中,在框110,将所述FASTQ文件的所有读段分割重组为待编码数据,所述待编码数据包括头信息、x坐标信息、y坐标信息、index信息、碱基信息、质量值信息;
在一些实施例中,由于每个读段的第三行“+”后面的内容和第一行“@”后面的内容一样,因此对第三行做丢弃处理,以减少处理量,减少编码、压缩时间以及所占用的存储空间。
在一些实施例中,头信息包括FASTQ文件中每个读段的“the unique instrumentname”、“the run id”、“the flowcell id”、“flowcell lane”、“tile number within theflowcell lane”、“the member of a pair,1or 2(paired-end or mate-pair readsonly)”、“Y if the read is filtered,N otherwise”、“0when none of the controlbits are on,otherwise it is an even number”;X坐标信息包括FASTQ文件中每个读段的“‘x’-coordinate of the cluster within the tile”部分;Y坐标信息包括FASTQ文件中每个读段的“‘y’-coordinate of the cluster within the tile”;index信息包括FASTQ文件中每个读段的“index sequence”;碱基信息包括FASTQ文件中每个读段的Base值;质量值信息包括FASTQ文件中每个读段的质量值。
通过上述操作,将FASTQ文件中的所有读段根据其中内容的不同,分割重组为不同的待编码数据,便于后续根据其特点分别进行编码。
在一些实施例中,在框115,根据预设的编码规则对所述待编码数据分别进行编码,生成编码文件;所述编码文件包括头信息编码文件、x编码文件、y编码文件、index编码文件、碱基编码文件、质量值编码文件。
其中,头信息编码规则为各lane号value值递减存储策略,具体如下:
对“the flowcell lane”与“tile number within the flowcell lane”进行编码,其他部分不进行编码,直接以二进制形式输出。
由于FASTQ.gz的“the flowcell lane”编号是顺序输出的,即各“the flowcelllane”编号输出不会存在交叉,故其中“the flowcell lane”的编码规则为:Lane号、计数作为key和value方式写入到固定信息头的数组中,当反向解析过程中,每读取一个Lane号,其value都进行减1操作,直至为0。Key value从数组中移除,进入下一个key value值;例如:
Map<byte,uint>maplane,存储时
key:1value:204000
key:2value:3021991
key:3value:2911201
key:4value:198221;
“tile number within the flowcell lane”的处理方式与“the flowcell lane”相同,不做赘述;
根据上述编码规则,得到头信息编码文件。
X坐标信息编码规则为二进制存储策略,具体如下:
由于对大量FASTQ.gz的观察、测试,不论哪个品牌的测序仪下机数据后转换的FASTQ.gz其X值都无任何规律可言,因此对所有x值进行二进制存储即可。
Y坐标信息编码规则差值存储策略,具体如下:
部分测序仪下机后转换的FASTQ文件中,存在连续读段之间的y值是递增关系、且递增差值在65535范围内,及2Byte即可;因此对这部分的y值进行了如下编码:
第一个y值以短整型方式输出,占据2个字节;
第二个y值减去第一个y值,控制在255内,即存储差值占据1个字节,以此类推;
若有差值超过255则终止当前压缩策略,直接采用与x值相同策略行二进制存储即可;
Index坐标信息编码规则为仅记录不一致碱基策略,具体如下:
由于index在整个FASTQ文件中均为定长,且有部分重复,即使有不一致也并非完全不一致,只是部分碱基值有所差异,因此记录index中不一致的碱基即可,从而节省存储空间;
例如:第一个读段的index为:TGCATGA,第30个读段的index为:TGCATCA,第40个读段的index为:TCGATCA……
存储方式为:30TGCATGA 10 6C 10 2C3G……
即:第一个数值为第一个Index出现的个数,以int类型输出、第二个字符串输出第一个Index数值,从第三个数值开始为与前一Index不一致的Index出现的次数,第四个为该index与前一index的具体差异(6表示第六个字符,C表示不一致的为C),以此类推,每个不一致的Index都是计数+空格+差异(差异字符索引,差异字符)。
Base碱基编码规则二比特存储策略,具体如下:
对于Base碱基,采用2Bit的方式存储,即:A 00,C 01,G 10,T 11;在计算机中最基本存储单位为bit,而一个字节占用8bit,因此一字节可存储4个碱基数值,相比较以ASCII码存储要节省了4倍存储空间;
对于Base碱基中的N则采用跳过处理,N出现的位置由质量编码负责进行处理。
质量值信息编码规则为三字节存储策略,具体如下:
质量编码是还原FASTQ中读段的关键核心,由于碱基采用了2bit编码策略,无法处理N值,故碱基编码后是一组不含N的序列,还原过程中需要质量值准确无误的记录碱基序列;
质量值编码采用三字节存储策略:即前一个质量值与后一个质量值一致,则输出两个相同质量值,并跟随连续一致的质量值计数,计数不超过255个,控制存储在一个字节中;因此一个连续的质量值不超过257个,可用三个字节存储;若有后一个质量值与前一个质量值不一致的内容时,则直接输出后一个质量值;例如:对AAAAA#EEEEEEAEEE/EEEEEEEE/E/EEEEEEEE编码后的质量值编码文件为:AA3#EE4AEE1/EE6/E/EE6/。
根据上述编码规则,得到头信息、x坐标信息、y坐标信息、index信息、碱基信息、质量值信息对应的头信息编码文件、x编码文件、y编码文件、index编码文件、碱基编码文件、质量值编码文件。
在一些实施例中,采用线程级并行编程方式来处理上述文件的编码过程,例如,对所述头信息、x坐标信息、y坐标信息、index信息、碱基信息、质量值信息同时进行编码处理;或,将所述头信息、x坐标信息、y坐标信息、index信息、碱基信息、质量值信息划分为不同的部分再同时进行编码处理,以加快编码速度。
在一些实施例中,在框120,对所述编码文件进行压缩及打包,生成存储文件。
在一些实施例中,对所述头信息编码文件、x编码文件、y编码文件、index编码文件、碱基编码文件、质量值编码文件分别进行压缩,例如使用谷歌Lzma压缩工具,得到压缩文件;
在一些实施例中,将所述压缩文件利用gzip的tar工具进行打包,形成一个整体文件,以扩展名.bzf作为最终的整体存储文件进行存储。
本实施例所述方法在FASTQ.gz文件的基础上进行了数据拆分和编码优化,在此基础上进行二次压缩,带来了以下有益效果:
可将所需的存储空间进一步压缩到FASTQ.gz格式文件的1/2左右,减少了对存储空间的需求;例如,如表2所示:
Figure BDA0002245453370000111
Figure BDA0002245453370000121
表2
另外,通过多线程、多进程方式,对单张芯片的多个Fasgq.gz进行压缩和解压缩,可大幅度提升整张芯片的处理速度;而通过集群方式调度,充分发挥集群CPU多核性能,高IO并发,进一步提升对海量Fastq.gz的压缩与解压缩的处理量和处理速度。
图2示出了根据本公开的实施例的基因测序数据的读取方法的流程图;
在框205,接收用户的读取请求,从数据库中获取对应的存储文件;
在框210,对所述存储文件进行解包及解压缩操作,得到对应的编码文件;
在框215,利用预设解码规则对所述编码文件进行解码;得到对应的解码数据;
在框220,对所述解码数据进行分割重组,并进行压缩得到生成为FASTQ文件。
在一些实施例中,在框205,所述存储文件为上述方法100所生成的存储文件。
在一些实施例中,在框210,
利用gzip的tar工具对所述存储文件进行解包,得到解包后的压缩文件,包括头信息编码文件、x编码文件、y编码文件、index编码文件、碱基编码文件、质量值编码文件的压缩文件。
利用谷歌Lzma压缩工具对上述压缩文件进行解压缩,得到头信息编码文件、x编码文件、y编码文件、index编码文件、碱基编码文件、质量值编码文件。
在一些实施例中,在框215,
利用预设的与各编码文件的编码规则对应的解码规则,对所述编码文件进行解码,得到对应的解码文件,所述解码文件包括头信息、x坐标信息、y坐标信息、index信息、碱基信息、质量值信息。
在一些实施例中,在框220,
对所述头信息、x坐标信息、y坐标信息、index信息、碱基信息、质量值信息进行分割重组,生成原始的读段,并进行压缩得到FASTQ文件。
其中,上述步骤所得到的FASTQ文件与方法100中进行处理的FASTQ文件相同,保证了数据的有效性。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本公开并不受所描述的动作顺序的限制,因为依据本公开,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作和模块并不一定是本公开所必须的。
以上是关于方法实施例的介绍,以下通过装置实施例,对本公开所述方案进行进一步说明。
图3示出了根据本公开的实施例的基因测序数据的存储装置300的方框图。如图3所示,存储装置300包括:
读取模块305,用于读取基因测序仪测序产生的FASTQ文件;
分割重组模块310,用于将所述FASTQ文件包括的测序序列分割重组为待编码数据;
编码模块315,用于对所述待编码数据分别进行编码,生成编码文件;
存储模块320,用于对所述编码文件进行压缩、打包及存储。
图4示出了根据本公开的实施例的基因测序数据的读取装置400的方框图。如图4所示,装置400包括:
获取模块405,用于接收用户的读取请求,获取对应的根据所述存储装置300存储的文件;
预处理模块410,用于对所述文件进行解包及解压缩操作,得到对应的编码文件;
解码模块415,用于利用预设解码规则对所述编码文件进行解码;得到对应的解码数据;
分割重组模块420,用于对所述解码数据进行分割重组,生成为FASTQ文件。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,所述描述的模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
图5示出了可以用来实施本公开的实施例的电子设备500的示意性框图。设备500可以用于实现图3的存储装置300和图4的读取装置400中的至少一个。如图所示,设备500包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的计算机程序指令或者从存储单元508加载到随机访问存储器(RAM)503中的计算机程序指令,来执行各种适当的动作和处理。在RAM 503中,还可以存储设备500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
设备500中的多个部件连接至I/O接口505,包括:输入单元506,例如键盘、鼠标等;输出单元507,例如各种类型的显示器、扬声器等;存储单元508,例如磁盘、光盘等;以及通信单元509,例如网卡、调制解调器、无线通信收发机等。通信单元509允许设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
处理单元501执行上文所描述的各个方法和处理,例如方法100、200。例如,在一些实施例中,方法100、200可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元508。在一些实施例中,计算机程序的部分或者全部可以经由ROM 502和/或通信单元509而被载入和/或安装到设备500上。当计算机程序加载到RAM 503并由CPU 501执行时,可以执行上文描述的方法100、200的一个或多个步骤。备选地,在其他实施例中,CPU501可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行方法100、200。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)等等。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
此外,虽然采用特定次序描绘了各操作,但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行,或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地,在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims (10)

1.一种基因测序数据的存储方法,其特征在于,包括:
读取基因测序仪测序产生的FASTQ文件;
将所述FASTQ文件包括的测序序列分割重组为待编码数据;
对所述待编码数据分别进行编码,生成编码文件;
对所述编码文件进行压缩、打包及存储。
2.根据权利要求1所述的方法,其特征在于,
所述待编码数据包括头信息、x坐标信息、y坐标信息、index信息、碱基信息、质量值信息;
所述编码文件包括头信息编码文件、x编码文件、y编码文件、index编码文件、碱基编码文件、质量值编码文件。
3.根据权利要求2所述的方法,其特征在于,
所述头信息包括所述FASTQ文件中每个读段的“the unique instrument name”、“therun id”、“the flowcell id”、“flowcell lane”、“tile number within the flowcelllane”、“the member of a pair,1or 2(paired-end or mate-pair reads only)”、“Y ifthe read is filtered,N otherwise”、“0when none of the control bits are on,otherwise it is an even number”;
X坐标信息包括FASTQ文件中每个读段的“‘x’-coordinate of the cluster withinthe tile”部分;
Y坐标信息包括FASTQ文件中每个读段的“‘y’-coordinate of the cluster withinthe tile”;
Index信息包括FASTQ文件中每个读段的“index sequence”;
碱基信息包括FASTQ文件中每个读段的Base值;
质量值信息包括FASTQ文件中每个读段的质量值。
4.根据权利要求3所述的方法,其特征在于,所述头信息的编码规则为各lane号value值递减存储策略;
所述X文件的编码规则为二进制存储策略;
所述Y文件的编码规则为差值存储策略;
所述index文件的编码规则为仅记录不一致碱基策略;
所述碱基文件的编码规则为二比特存储策略;
所述质量值文件的编码规则为三字节存储策略。
5.根据权利要求4所述的方法,其特征在于,对所述待编码文件分别进行编码,生成编码文件包括:
根据头信息、x坐标信息、y坐标信息、index信息、碱基信息、质量值信息的编码规则分别进行编码,生成头信息编码文件、x编码文件、y编码文件、index编码文件、碱基编码文件、质量值编码文件。
6.一种基因测序数据的读取方法,其特征在于,包括:
接收用户的读取请求,获取对应的根据权利要求1-6所述方法存储的文件;
对所述文件进行解包及解压缩操作,得到对应的编码文件;
利用预设解码规则对所述编码文件进行解码;得到对应的解码数据;
对所述解码数据进行分割重组,并进行压缩得到FASTQ文件。
7.一种基因测序数据的存储装置,其特征在于,包括:
读取模块,用于读取基因测序仪测序产生的FASTQ文件;
分割重组模块,用于将所述FASTQ文件包括的测序序列分割重组为待编码数据;
编码模块,用于对所述待编码数据分别进行编码,生成编码文件;
存储模块,用于对所述编码文件进行压缩、打包及存储。
8.一种基因测序数据的读取装置,其特征在于,包括:
获取模块,用于接收用户的读取请求,获取对应的根据权利要求1-6所述方法存储的文件;
预处理模块,用于对所述文件进行解包及解压缩操作,得到对应的编码文件;
解码模块,用于利用预设解码规则对所述编码文件进行解码;得到对应的解码数据;
分割重组模块,用于对所述解码数据进行分割重组,并进行压缩得到FASTQ文件。
9.一种电子设备,包括存储器和处理器,所述存储器上存储有计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1~6中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1~6中任一项所述的方法。
CN201911015162.1A 2019-10-24 2019-10-24 基因测序数据的存储读取方法及系统 Pending CN110797082A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911015162.1A CN110797082A (zh) 2019-10-24 2019-10-24 基因测序数据的存储读取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911015162.1A CN110797082A (zh) 2019-10-24 2019-10-24 基因测序数据的存储读取方法及系统

Publications (1)

Publication Number Publication Date
CN110797082A true CN110797082A (zh) 2020-02-14

Family

ID=69441102

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911015162.1A Pending CN110797082A (zh) 2019-10-24 2019-10-24 基因测序数据的存储读取方法及系统

Country Status (1)

Country Link
CN (1) CN110797082A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111767255A (zh) * 2020-05-22 2020-10-13 北京和瑞精准医学检验实验室有限公司 从fastq文件分离出样本read数据的优化方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105786916A (zh) * 2014-12-26 2016-07-20 中国电信股份有限公司 一种基于大容量表的分层目录的存储方法及系统
CN106484881A (zh) * 2016-10-14 2017-03-08 北京百度网讯科技有限公司 文件处理方法和装置
CN106687966A (zh) * 2014-08-05 2017-05-17 伊卢米纳剑桥有限公司 用于数据分析和压缩的方法和系统
CN107565975A (zh) * 2017-08-30 2018-01-09 武汉古奥基因科技有限公司 Fastq格式文件无损压缩的方法
CN108038018A (zh) * 2017-12-22 2018-05-15 杭州闪捷信息科技有限公司 可扩展的日志数据存储方法及装置
CN110021349A (zh) * 2017-07-31 2019-07-16 北京哲源科技有限责任公司 基因数据的编码方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106687966A (zh) * 2014-08-05 2017-05-17 伊卢米纳剑桥有限公司 用于数据分析和压缩的方法和系统
CN105786916A (zh) * 2014-12-26 2016-07-20 中国电信股份有限公司 一种基于大容量表的分层目录的存储方法及系统
CN106484881A (zh) * 2016-10-14 2017-03-08 北京百度网讯科技有限公司 文件处理方法和装置
CN110021349A (zh) * 2017-07-31 2019-07-16 北京哲源科技有限责任公司 基因数据的编码方法
CN107565975A (zh) * 2017-08-30 2018-01-09 武汉古奥基因科技有限公司 Fastq格式文件无损压缩的方法
CN108038018A (zh) * 2017-12-22 2018-05-15 杭州闪捷信息科技有限公司 可扩展的日志数据存储方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111767255A (zh) * 2020-05-22 2020-10-13 北京和瑞精准医学检验实验室有限公司 从fastq文件分离出样本read数据的优化方法
CN111767255B (zh) * 2020-05-22 2023-10-13 北京和瑞精湛医学检验实验室有限公司 从fastq文件分离出样本read数据的优化方法

Similar Documents

Publication Publication Date Title
EP2608096B1 (en) Compression of genomic data file
KR20130069427A (ko) 차세대 시퀀싱을 이용하여 획득된 유전 정보를 압축 및 압축해제하는 방법 및 장치
KR20190069469A (ko) 생물정보학 데이터의 인덱싱을 위한 방법 및 시스템
US8972200B2 (en) Compression of genomic data
US10810239B2 (en) Sequence data analyzer, DNA analysis system and sequence data analysis method
US20110288785A1 (en) Compression of genomic base and annotation data
CN110995273B (zh) 电力数据库的数据压缩方法、装置、设备及介质
CN109460398B (zh) 时间序列数据的补全方法、装置及电子设备
CN110797082A (zh) 基因测序数据的存储读取方法及系统
CN109656712B (zh) 一种提取grib码数据的方法及系统
CN113568836B (zh) 多时间序列的样本特征提取方法以应用其的软件检测方法
CN110442557B (zh) 数据压缩及解压缩方法、电子设备和计算机可读存储介质
CN111507430B (zh) 基于矩阵乘法的特征编码方法、装置、设备及介质
CN107092530B (zh) 一种基于分布式内存的信令数据处理方法及系统
CN112580825A (zh) 一种无监督的数据分箱方法及装置
CN112733551A (zh) 文本分析方法、装置、电子设备及可读存储介质
US20200243162A1 (en) Method, system, and computing device for optimizing computing operations of gene sequencing system
JP2011090526A (ja) 圧縮プログラム、方法及び装置、並びに解凍プログラム、方法及び装置
CN111651514A (zh) 数据导入方法及装置
CN111415200A (zh) 数据处理方法及装置
CN111190896A (zh) 数据处理方法、装置、存储介质和计算机设备
CN113611358B (zh) 样品病原细菌分型方法和系统
CN114328486A (zh) 基于模型的数据质量核查方法及装置
US20210202038A1 (en) Memory Allocation to Optimize Computer Operations of Seeding for Burrows Wheeler Alignment
KR20220089211A (ko) 문자 빈도 기반 서열 재정렬을 통한 fastq 데이터 압축 방법 및 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200214

RJ01 Rejection of invention patent application after publication