CN109360605B - 基因组测序数据归档方法、服务器及计算机可读存储介质 - Google Patents
基因组测序数据归档方法、服务器及计算机可读存储介质 Download PDFInfo
- Publication number
- CN109360605B CN109360605B CN201811114193.8A CN201811114193A CN109360605B CN 109360605 B CN109360605 B CN 109360605B CN 201811114193 A CN201811114193 A CN 201811114193A CN 109360605 B CN109360605 B CN 109360605B
- Authority
- CN
- China
- Prior art keywords
- file
- sequence
- data
- gene sequences
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明适用于计算机技术领域,提供了基因组测序数据归档方法、服务器及计算机可读存储介质,其中方法包括:获取基因组测序文件中的序列文件;其中,所述序列文件用于存储序列数据,所述序列数据由至少两个基因序列排列而成;确定所述序列数据中每两个所述基因序列之间的相似度;基于所述相似度对所述基因序列进行重新排列,使所述序列数据中相似度大于预设相似度阈值的所述基因序列紧邻排列;对重新排列了所述基因序列的所述序列文件进行压缩处理,得到归档序列文件。本发明中,服务器对基因组测序数据进行压缩归档时,其压缩率更高,可以极大地减少对存储资源的占用,降低存储成本。
Description
技术领域
本发明属于计算机技术领域,尤其涉及基因组测序数据归档方法、服务器及计算机可读存储介质。
背景技术
基因测序技术是一种新型的基因检测技术,用于分析测定基因全序列。高通量测序技术是目前最常用的基因测序技术,其可以一次并行对几十万到几百万条基因份子进行序列测定。通常,通过高通量测序技术进行测序会产生海量的基因组测序数据,基因组测序数据一般包括序列数据、序列比对数据、日志数据以及注释数据,不同的数据存储在不同的文件中。其中,序列数据包含大量的基因序列,这些基因序列中通常会存在一些相似度较高的基因序列。
在通过高通量测序技术对基因进行测序后,需要对测序得到的海量基因组测序数据进行归档。现有的基因组测序数据归档方法通常先采用通用的压缩方式对基因组数据进行压缩,再对压缩后的基因组数据进行归档。而通用的压缩方式是直接基于序列数据中基因序列的原始顺序对这些数据进行压缩,这样会存在压缩率低,需要占用大量存储资源的问题。
发明内容
有鉴于此,本发明实施例提供了基因组测序数据归档方法、服务器及计算机可读介质,以解决现有的基因组测序数据归档方法存在的数据压缩率低,需要占用大量存储资源的问题。
本发明实施例的第一方面提供了一种基因组测序数据归档方法,包括:
获取基因组测序文件中的序列文件;其中,所述序列文件用于存储序列数据,所述序列数据由至少两个基因序列排列而成;
确定所述序列数据中每两个所述基因序列之间的相似度;
基于所述相似度对所述基因序列进行重新排列,使所述序列数据中相似度大于预设相似度阈值的所述基因序列紧邻排列;
对重新排列了所述基因序列的所述序列文件进行压缩处理,得到归档序列文件;
将所述归档序列文件存储至数据库。
本发明实施例的第二方面提供了一种服务器,包括:
第一获取单元,用于获取基因组测序文件中的序列文件;
确定单元,用于确定所述序列数据中每两个所述基因序列之间的相似度;
排列单元,用于基于所述相似度对所述基因序列进行重新排列,使所述序列数据中相似度大于预设相似度阈值的所述基因序列紧邻排列;
第一压缩单元,用于对重新排列了所述基因序列的所述序列文件进行压缩处理,得到归档序列文件;
第一存储单元,用于将所述归档序列文件存储至数据库。
本发明实施例的第三方面提供了一种服务器,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤
本发明实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
本发明实施例与现有技术相比存在的有益效果是:
在本发明实施例中,服务器获取基因组测序文件中的序列文件,确定序列文件所存储的序列数据中每两个基因序列之间的相似度,基于每两个基因序列之间的相似度对基因序列进行重新排列,将序列数据中相似度大于预设相似度阈值的所述基因序列紧邻排列,从而使得序列数据中相似度较高的基因序列排列在一起后进行压缩处理得到归档序列文件,并存储至数据库,相较于按照序列数据中基因序列的原始顺序对序列文件进行压缩后再存储,其压缩率更高,可以极大地减少对存储资源的占用,降低存储成本。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明第一实施例提供的基因组测序数据归档方法的实现流程图;
图2是本发明第二实施例提供的基因组测序数据归档方法的实现流程图;
图3是本发明第三实施例提供的基因组测序数据归档方法的实现流程图;
图4是本发明第四实施例提供的服务器的示意图;
图5是本发明第五实施例提供的服务器的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
请参阅图1,图1是本发明第一实施例提供的一种基因组数据归档方法的实现流程图。本实施例中的基因组数据归档方法的执行主体为服务器,具体可以为用于存储数据的数据服务器。如图所述的基因组数据归档方法可包括:
S101,获取基因组测序文件中的序列文件;其中,所述序列文件用于存储序列数据,所述序列数据由至少两个基因序列排列而成。
在S101中,基因组测序文件用于存储基因组测序数据,基因组测序数据为通过高通量测序技术对基因组数据进行测序之后产生的数据。其中,基因组测序数据主要包括序列数据、序列比对数据、注释数据以及日志数据。
其中,序列数据由至少两个基因序列排列而成,基因序列包括大量非编码序列,非编码序列存在大量重复的序列片段,序列数据中基因序列的原始排列顺序由基因所表达的遗传信息所决定。序列数据主要包括对基因组数据进行测序后得到的关于基因组序列的核酸序列信息、对基因组数据进行测序的公司以及对基因组数据进行测序的机器标识。
序列比对数据包括对基因组数据进行测序后得到的基因组序列与参考基因组进行比对之后的比对数据信息。
注释数据及日志数据则分别包括对基因组中的突变数据进行解释说明的记录信息及从包括对序列数据在内的各种分析数据中提取得到的统计信息。
相应的,基因组测序文件包括分别用于存储序列数据、序列比对数据、注释数据以及日志数据的序列文件、序列比对文件、注释文件及日志文件。序列文件可以为后缀名为.fasta或.fastq的文件;序列比对文件可以为后缀名为.sam或.bam的文件;注释文件后缀名为.vcf或.gvcf的文件;日志文件为后缀名.log或.stat的文件。
在需要对基因测序数据进行归档时,可以先将需要进行归档的基因组测序数据上传至服务器中,并触发用于对基因组测序数据进行归档的归档请求,服务器接收到归档请求时,获取待归档的基因组测序数据,并从基因组测序数据中获取文件后缀名为.fasta或.fastq的序列文件。
S102,确定所述序列数据中每两个所述基因序列之间的相似度。
在S102中,在获取到序列文件后,服务器可以将序列数据中每两个基因序列的组成成分进行比对,进而确定序列数据中每两个基因序列的相似度。
S103,基于所述相似度对所述基因序列进行重新排列,使所述序列数据中相似度大于预设相似度阈值的所有所述基因序列紧邻排列。
在S103中,服务器基于确定的所有两个基因序列之间的相似度对基因序列进行重新排列,使序列数据中相似度大于预设相似度阈值的所有基因序列紧邻排列,因此序列数据中达到预设相似度条件的基因序列会被排列在一起。服务器具体可以通过预存于服务器中的FaStore算法去实现基于相似度对基因序列进行重新排列,并将序列数据中相似度大于预设相似度阈值的所有基因序列紧邻排列的目的。
S104,对重新排列了所述基因序列的所述序列文件进行压缩处理,得到归档序列文件。
在S104中,在对于重新排列了基因序列的序列文件进行压缩处理时,服务器具体可以通过FaStore算法对压缩序列文件进行压缩得到归档序列文件。由于在重新排列了基因序列的序列文件中,相似度大于预设相似度阈值的所有基因序列紧邻排列,服务器在对重新排列了基因序列的序列文件进行压缩处理得到归档序列文件并存储至数据库时,相较于现有技术中按照序列数据中基因序列的原始顺序对序列文件进行压缩后再存储,其压缩率会更高,可以极大地减少对存储资源的占用,降低存储成本。
S105,将所述归档序列文件存储至数据库。
在S105中,服务器将该归档序列文件存储至专门用于存储基因组测序数据的数据库中,实现将归档序列文件存储至数据库中的目的。
以上可以看出,服务器获取基因组测序文件中的序列文件,确定序列文件所存储的序列数据中每两个基因序列之间的相似度,基于每两个基因序列之间的相似度对基因序列进行重新排列,将序列数据中相似度大于预设相似度阈值的所述基因序列紧邻排列,从而使得序列数据中相似度较高的基因序列排列在一起后进行压缩处理得到归档序列文件,并存储至数据库,相较于按照序列数据中基因序列的原始顺序对序列文件进行压缩后再存储,其压缩率更高,可以极大地减少对存储资源的占用,降低存储成本。
作为本发明一实施例,序列文件还用于存储序列数据的数据来源信息、数据量信息以及数据质量信息,因此,在S102之前,基因组测序数据归档方法还可以包括以下步骤:
提取所述序列文件中的所述数据来源信息、所述数据量信息以及所述数据质量信息。
对于需要进行归档的序列文件,服务器通过服务器中预设的脚本从序列文件的数据中获取数据来源信息、数据量信息以及数据质量信息,该预设的脚本可以识别并获取数据来源信息、数据量信息以及数据质量信息,服务器会将数据来源信息、数据量信息以及数据质量信息存储至数据库。其中上述数据来源信息主要包括测序公司和测序机器号等信息;上述数据量信息包括序列数目和碱基数据等信息,上述数据质量包括覆盖度、捕获特异度、平均深度、深度分布以及碱基识别质量等信息。
在本实施例中,S104具体包括以下步骤:
将所述数据来源信息、数据量信息以及数据质量信息与所述归档序列文件关联存储至数据库。
对于获取的序列文件中的数据来源信息、数据量信息以及数据质量信息,服务器还将序列文件中的数据来源信息、数据量信息以及数据质量信息与该序列文件对应的归档序列文件关联存储至数据库。通过在序列文件提取出相关的资料信息,使得该序列文件对应的归档序列文件在不需要解压的情况下,也能根据数据来源信息、数据量信息以及数据质量信息实现对序列文件进行总览和统计。
作为本发明一实施例,在S102之前,基因组数据的归档方法还可以包括以下步骤:
获取所述序列数据对应的基因序列的排序信息。
服务器在确定序列数据中所有两个基因序列之间的相似度之前,服务器获取该序列文件中的基因序列的排序信息,即该序列文件中的原始基因序列的排列顺序,在对序列文件进行压缩时,为了提高压缩率,需要改变部分基因序列的排列顺序,但是序列文件包含的所有基因序列信息没有发生变化。
本实施例中,S104具体包括:
将所述基因序列的排序信息与所述归档序列文件关联存储至数据库。
服务器在对序列文件进行压缩时,为了提高压缩率,改变了部分基因序列的排列顺序,由于改变部分基因序列的排列顺序会对后续处理中的分析结果有影响,会影响数据的二次挖掘。为了避免由于部分基因序列的排列顺序变化带来的影响,服务器通过获取序列文件在压缩之前的基因序列的排序信息,并将该基因序列的排序信息与该序列文件对应的归档序列文件关联存储至数据库,便于后续能根据基因序列的排序信息对序列文件中基因序列的排列顺序进行调整。
参阅图2,图2是本发明第二实施例提供的基因组测序数据归档方法的实现流程图。本实施例与第一实施例的区别在于,本实施例中在步骤S204之后还包括步骤S205~S208。其中步骤S201~S204的内容具体请参阅上一实施例中步骤S101~S104的相关描述,此处不赘述。S205~S208具体如下:
S205,获取读档请求,所述读档请求包括待读取的目标归档序列文件的标识信息。
在S205中,用户需要查找对应的某个目标归档序列文件时,通过终端向服务器发起读档请求,服务器获取该读档请求,其中该读档请求中包括工作人员要获取的待读取的目标归档文件的标识信息,该标识信息具体可以为目标归档文件的名称或编号。
S206,基于所述目标归档序列文件的标识信息,从所述数据库中获取所述目标归档序列文件。
在S206中,服务器基于目标归档序列文件的标识信息,从数据库中查找到与该标识信息相匹配的文件作为目标归档序列文件,并获取查找到的目标归档序列文件。
S207,对所述目标归档序列文件进行解压,得到解压序列文件。
在S207中,服务器对获取到的目标归档序列文件进行解压得到对应的解压序列文件,由于服务器在对序列文件进行压缩时,将序列数据中相似度大于预设相似度阈值的所有基因序列紧邻排列,因此服务器直接解压得到的解压序列文件对后续处理中的分析结果会有影响,从而影响到数据的二次挖掘,因此需要将解压序列文件的基因序列的排列顺序还原至序列文件中原始的基因序列的排列顺序。
S208,基于所述基因序列的排序信息对所述解压序列文件中的基因序列的排序顺序进行调整,得到目标序列文件。
在S208中,服务器根据存储的基因序列的排序信息对解压序列文件中的基因序列的排列顺序进行调整得到目标序列文件,从而实现对解压序列文件中的基因序列的排列顺序还原至原始的基因序列的排列顺序,从而不会影响到数据的二次挖掘。
作为本发明一实施例,在S205之前,基因组测序数据归档方法还可以包括以下步骤:
对所述归档序列文件进行解压得到解压文件。
基于所述基因序列的排序信息对所述解压文件中的基因序列的排列顺序进行调整,得到校验文件。
将所述校验文件中的数据与所述序列文件中的数据进行比对,得到比对结果。
服务器对于压缩得到的归档序列文件,在将归档序列文件存储至数据库之前,需要校验该归档序列文件是否为进行无损压缩后所得到的压缩文件。
服务器对归档序列文件进行校验的方法具体为:对归档序列文件进行解压,得到解压后的解压文件。如前所述,由于为了获得更好地压缩率对序列文件中的序列顺序进行了重排,因此需要基于基因序列的排序信息对解压文件中的基因序列的排列顺序进行调整,将解压文件中基因序列的排列顺序还原至序列文件中原始的基因序列的排列顺序,得到校验文件。再将校验文件中的数据与序列文件中的数据进行比对,判断校验文件中的数据与序列文件中的数据是否一致,得到比对结果。其中,在判断校验文件中的数据与序列文件中的数据是否一致时,服务器具体是通过MD5消息摘要算法对校验文件进行处理得到第一校验码,并通过MD5消息摘要算法对序列文件进行处理得到第二校验码。比较两个校验码是否一致确定校验文件中的数据与所述序列文件中的数据是否一致,当两个校验码一致时,则说明校验文件中的数据与所述序列文件中的数据一致,服务器确定该归档序列文件为进行无损压缩后所得到的压缩文件;当个校验码不一致时,则说明校验文件中的数据与所述序列文件中的数据不一致,服务器确定该归档序列文件不是进行无损压缩后所得到的压缩文件。
本实施例中,所述S205具体包括以下步骤:
若所述比对结果为所述校验文件中的数据与所述序列文件中的数据一致,则将所述归档序列文件存储至数据库。
若比对结果为校验文件中的数据与序列文件中的数据一致,则说明该归档序列文件是进行无损压缩后所得到的压缩文件,服务器将该归档序列文件存储至数据库。当比对结果为校验文件中的数据与序列文件中的数据不一致,服务器确定该归档序列文件不是进行无损压缩后所得到的压缩文件,对于不是进行无损压缩后所得到的归档序列文件,服务器需要重新对该归档序列文件对应的序列文件进行压缩处理。
参阅图3,图3是本发明第三实施例提供的基因组测序数据归档方法的实现流程图。本实施例与第二实施例的区别在于,还包括步骤S301~S304。S301~S304具体如下:本实施例中的基因组测序数据归档方法,还包括:
S301,获取所述基因组测序文件中除所述序列文件之外的第一文件。
在S301中,基因组测序数据在除了序列数据之外,还包括序列比对数据、注释数据以及日志数据,因此在对基因组测序数据进行压缩存储时,还需要对除序列比对数据之外的序列比对数据、注释数据以及日志数据进行压缩存储。
当工作人员将基因组测序数据输入至服务器中时,服务器会获取基因组测序文件中除序列文件之外的第一文件,其中该第一文件包括序列比对文件、注释文件以及日志文件。
S302,基于所述第一文件的文件格式确定与所述第一文件相匹配的压缩方式。
本实施例中,服务器中存储有第一文件的文件格式与压缩方式的预设对应关系,服务器根据第一文件的文件格式与压缩方式的对应关系确定与第一文件相匹配的压缩方式。其中,服务器具体根据第一文件的文件后缀名来确定该第一文件的文件格式,服务器确定得到第一文件的文件格式具体为.sam、.bam、.vcf、.gvcf、.log以及.stat中的哪一种。
进一步地,对于后缀名为.fasta或.fastq的序列对比文件,服务器确定通过预存在服务器中的Samtools算法来进行压缩的压缩方式执行对序列对比文件进行压缩;对于后缀名为.vcf或.gvcf的注释文件,确定通过gzip进行压缩的压缩方式执行对注释文件进行压缩;而对于后缀名为.log或.stat的日志文件,确定通过gzip进行压缩的压缩方式执行对日志文件进行压缩。
进一步地,当第一文件的文件格式为.sam或.bam时,则说明该第一文件为序列比对文件,则服务器在对序列比对文件进行压缩之前,会先从序列比对文件包含的数据中提取的比对质量信息;其中,上述比对质量信息包括比对序列百分比、比对质量分布、比对区域特异度以及区域有效深度等信息。服务器在将序列比对文件进行压缩后得到归档序列比对文件时,服务器将比对质量信息与归档序列比对文件关联存储至数据库中。
进一步地,当第一文件的文件格式为.sam或.bam时,则说明该第一文件为序列比对文件,当第一文件的文件格式为.vcf或.gvcf时,则说明该第一文件为注释文件。则服务器在对序列比对文件或注释文件进行压缩之前,服务器还将从序列比对文件或注释文件中提取数据来源信息、数据量信息以及数据质量信息并进行存储。对于需要进行归档的序列比对文件或注释文件,服务器通过服务器中预设的脚本从序列比对文件的数据中获取数据来源信息、数据量信息以及数据质量信息,该预设的脚本可以识别并获取数据来源信息、数据量信息以及数据质量信息,服务器会将数据来源信息、数据量信息以及数据质量信息存储至数据库。其中上述数据来源信息主要包括测序公司和测序机器号等信息;上述数据量信息包括序列数目和碱基数据等信息,上述数据质量包括覆盖度、捕获特异度、平均深度、深度分布以及碱基识别质量等信息。
S303,基于与所述第一文件相匹配的压缩方式对所述第一文件进行压缩处理,得到第一归档文件。
在S303中,服务器基于与第一文件相匹配的压缩方式对第一文件进行压缩处理,得到第一归档文件,该第一归档文件包括归档序列比对文件、归档日志文件以及归档注释文件。
S304,将所述第一归档文件存储至数据库。
在S304中,服务器将得到第一归档文件存储至专门用于存储基因组测序数据的数据库中。
进一步地,本实施例中的基因组测序数据归档方法,所述S302之前,包括:
检测预设的删除文件格式列表中是否包含所述第一文件的文件格式;
由于基因组测序数据中还包括在对基因组数据进行测序时所保留的中间文件,该中间文件仅在对基因组数据进行测序时有用,在测序完成之后,不需要进行存储,因此在对基因组测序数据进行存储时,需要删除掉这些中间文件。服务器预设由这些中间文件的文件格式所组成的删除文件格式列表,由于除序列文件之外的第一文件,其还包括中间文件,对于待归档的第一文件,服务器检测预设的删除文件格式列表中是否包含第一文件的文件格式。
进一步地,本实施例中的基因组测序数据归档方法,所述S204,包括:
若检测预设的删除文件格式列表中不包含所述第一文件的文件格式,则根据所述第一文件的文件格式确定对所述第一文件进行压缩的压缩方式。
若服务器检测预设的删除文件格式列表中不包含第一文件的文件格式,则服务器根据第一文件的文件格式确定对第一文件进行压缩的压缩方式;若服务器检测预设的删除文件格式列表中包含第一文件的文件格式,则服务器将该第一文件进行删除,避免将不需要进行存储的中间文件存储至数据库中,从而节省存储空间。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
参阅图4,图4是本发明第四实施例提供的一种服务器的示意图。本实施例的服务器100包括的各单元用于执行图1对应的实施例中的各步骤,具体请参阅图1以及图1对应的实施例中的相关描述,此处不赘述。本实施例的服务器100包括:第一获取单元101,确定单元102、排列单元103、第一压缩单元104以及第一存储单元105。
第一获取单元101,用于获取基因组测序文件中的序列文件。
确定单元102,用于确定所述序列数据中每两个所述基因序列之间的相似度。
排列单元103,用于基于所述相似度对所述基因序列进行重新排列,将所述序列数据中相似度大于预设相似度阈值的所有所述基因序列紧邻排列,得到压缩序列文件。
第一压缩单元104,用于对所述目标序列文件进行压缩得到归档序列文件。
第一存储单元105,用于将所述归档序列文件存储至数据库。
作为本发明一实施例,所述服务器还包括:
提取单元,用于提取所述序列文件中的数据来源信息、数据量信息以及数据质量信息。
所述第一存储单元还用于将所述数据来源信息、数据量信息以及数据质量信息与所述归档序列文件关联存储至数据库。
作为本发明一实施例,所述服务器还包括:
第二获取单元,用于获取所述序列数据对应的基因序列的排序信息。
所述第一存储单元还用于将所述基因序列顺序信息与所述归档序列文件关联存储至数据库。
作为本发明一实施例,所述服务器还包括:
第三获取单元,用于获取读档请求,所述读档请求包括待读取的目标归档序列文件的标识信息。
第四获取单元,用于基于所述目标归档序列文件的标识信息,从所述数据库中获取所述目标归档序列文件。
第一解压单元,用于对所述目标归档序列文件进行解压,得到解压序列文件。
第一调整单元,用于基于所述基因序列的排序信息对所述解压序列文件中的基因序列的排序顺序进行调整,得到目标序列文件。
作为本发明一实施例,所述服务器还包括:
第二解压单元,用于对所述归档序列文件进行解压得到解压文件;
第二调整单元,用于基于所述基因序列的排序信息对所述解压文件中的基因序列的排列顺序进行调整,得到校验文件;
比对单元,用于将所述校验文件中的数据与所述序列文件中的数据进行比对,得到比对结果。
所述存储单元还用于若所述比对结果为所述比对文件中的数据与所述序列文件中的数据一致,则将所述归档序列文件存储至数据库。
作为本发明一实施例,所述服务器还包括:
第五获取单元,用于获取所述基因组测序文件中除所述序列文件之外的第一文件。
确定单元,用于基于所述第一文件的文件格式确定与所述第一文件相匹配的压缩方式。
第二压缩单元,用于基于与所述第一文件相匹配的压缩方式对所述第一文件进行压缩处理,得到第一归档文件。
第二存储单元,用于将所述第一归档文件存储至数据库。
作为本发明一实施例,所述服务器还包括:
检测单元,用于检测预设的删除文件格式列表中是否包含所述第一文件的文件格式。
所述确定单元还用于若检测到预设的删除文件格式列表中不包含所述第一文件的文件格式,则基于所述第一文件的文件格式确定与所述第一文件相匹配的压缩方式。
以上可以看出,服务器获取基因组测序文件中的序列文件,确定序列文件所存储的序列数据中每两个基因序列之间的相似度,基于每两个基因序列之间的相似度对基因序列进行重新排列,将序列数据中相似度大于预设相似度阈值的所述基因序列紧邻排列,从而使得序列数据中相似度较高的基因序列排列在一起后进行压缩处理得到归档序列文件,并存储至数据库,相较于按照序列数据中基因序列的原始顺序对序列文件进行压缩后再存储,其压缩率更高,可以极大地减少对存储资源的占用,降低存储成本。
图5是本发明第五实施例提供的服务器的示意图。如图5所示,该实施例的服务器5包括:处理器50、存储器51以及存储在所述存储器51中并可在所述处理器50上运行的计算机程序52,例如基因组测序数据归档方法的程序。所述处理器50执行所述计算机程序52时实现上述各个基因组测序数据归档方法实施例中的步骤,例如图1所示的S101至S105。或者,所述处理器50执行所述计算机程序52时实现上述各装置实施例中各单元的功能,例如图5所示单元101至105的功能。
示例性的,所述计算机程序52可以被分割成一个或多个单元,所述一个或者多个单元被存储在所述存储器51中,并由所述处理器50执行,以完成本发明。所述一个或多个单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序52在所述服务器5中的执行过程。例如,所述计算机程序52可以被分割成第一获取单元、确定单元、排列单元、第一压缩单元以及第一存储单元,各单元具体功能如上所述。
所述服务器可以是云端的数据服务器等计算设备。所述服务器可包括但不仅限于处理器50、存储器51。本领域技术人员可以理解,图5仅仅是服务器5的示例,并不构成对服务器5的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述服务器还可以包括输入输出设备、网络接入设备、总线等。
所称处理器50可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器51可以是所述服务器5的内部存储单元,例如服务器5的硬盘或内存。所述存储器51也可以是所述服务器5的外部存储设备,例如所述服务器5上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器51还可以既包括所述服务器5的内部存储单元也包括外部存储设备。所述存储器51用于存储所述计算机程序以及所述服务器所需的其他程序和数据。所述存储器51还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元完成,即将所述装置的内部结构划分成不同的功能单元,以完成以上描述的全部或者部分功能。实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的服务器和方法,可以通过其它的方式实现。例如,以上所描述的服务器实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (9)
1.一种基因组测序数据归档方法,其特征在于,包括:
获取基因组测序文件中的序列文件;其中,所述序列文件用于存储序列数据,所述序列数据由至少两个基因序列排列而成;
获取所述序列数据对应的基因序列的排序信息;
确定所述序列数据中每两个所述基因序列之间的相似度;
基于所述相似度对所述基因序列进行重新排列,使所述序列数据中相似度大于预设相似度阈值的所述基因序列紧邻排列;
对重新排列了所述基因序列的所述序列文件进行压缩处理,得到归档序列文件;
将所述归档序列文件存储至数据库;
所述将所述归档序列文件存储至数据库,包括:
将所述基因序列的排序信息与所述归档序列文件关联存储至数据库。
2.根据权利要求1所述的基因组测序数据归档方法,其特征在于,包括:
所述序列文件还用于存储所述序列数据的数据来源信息、数据量信息以及数据质量信息;
所述确定所述序列数据中每两个所述基因序列之间的相似度之前,还包括:
提取所述序列文件中的所述数据来源信息、所述数据量信息以及所述数据质量信息;
所述将所述归档序列文件存储至数据库,包括:
将所述数据来源信息、所述数据量信息以及所述数据质量信息与所述归档序列文件关联存储至数据库。
3.根据权利要求1所述的基因组测序数据归档方法,其特征在于,所述将所述归档序列文件存储至数据库之后,包括:
获取读档请求,所述读档请求包括待读取的目标归档序列文件的标识信息;
基于所述目标归档序列文件的标识信息,从所述数据库中获取所述目标归档序列文件;
对所述目标归档序列文件进行解压,得到解压序列文件;
基于所述基因序列的排序信息对所述解压序列文件中的基因序列的排列顺序进行调整,得到目标序列文件。
4.根据权利要求1所述的基因组测序数据归档方法,其特征在于,所述将所述归档序列文件存储至数据库之前,包括:
对所述归档序列文件进行解压得到解压文件;
基于所述基因序列的排序信息对所述解压文件中的基因序列的排列顺序进行调整,得到校验文件;
对所述校验文件处理得到第一校验码以及对所述序列文件处理得到第二校验码,将所述第一校验码与所述第二校验码进行比对,得到比对结果;
所述将所述归档序列文件存储至数据库,包括:
若所述比对结果为所述第一校验码与所述第二校验码一致,则将所述归档序列文件存储至数据库。
5.根据权利要求1所述的基因组测序数据归档方法,其特征在于,还包括:
获取所述基因组测序文件中除所述序列文件之外的第一文件;
基于所述第一文件的文件格式确定与所述第一文件相匹配的压缩方式;
基于与所述第一文件相匹配的压缩方式对所述第一文件进行压缩处理,得到第一归档文件;
将所述第一归档文件存储至数据库。
6.根据权利要求5所述的基因组测序数据归档方法,其特征在于,所述基于所述第一文件的文件格式确定与所述第一文件相匹配的压缩方式之前,包括:
检测预设的删除文件格式列表中是否包含所述第一文件的文件格式;
所述基于所述第一文件的文件格式确定与所述第一文件相匹配的压缩方式,包括:
若检测到预设的删除文件格式列表中不包含所述第一文件的文件格式,则基于所述第一文件的文件格式确定与所述第一文件相匹配的压缩方式。
7.一种服务器,其特征在于,包括:
第一获取单元,用于获取基因组测序文件中的序列文件;其中,所述序列文件用于存储序列数据,所述序列数据由至少两个基因序列排列而成;
第二获取单元,获取所述序列数据对应的基因序列的排序信息;
确定单元,用于确定所述序列数据中每两个所述基因序列之间的相似度;
排列单元,用于基于所述相似度对所述基因序列进行重新排列,使所述序列数据中相似度大于预设相似度阈值的所述基因序列紧邻排列;
第一压缩单元,用于对重新排列了所述基因序列的所述序列文件进行压缩处理,得到归档序列文件;
第一存储单元,用于将所述归档序列文件存储至数据库;
所述第一存储单元,还用于将所述基因序列的排序信息与所述归档序列文件关联存储至数据库。
8.一种服务器,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述方法的步骤。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811114193.8A CN109360605B (zh) | 2018-09-25 | 2018-09-25 | 基因组测序数据归档方法、服务器及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811114193.8A CN109360605B (zh) | 2018-09-25 | 2018-09-25 | 基因组测序数据归档方法、服务器及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109360605A CN109360605A (zh) | 2019-02-19 |
CN109360605B true CN109360605B (zh) | 2020-10-20 |
Family
ID=65351361
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811114193.8A Active CN109360605B (zh) | 2018-09-25 | 2018-09-25 | 基因组测序数据归档方法、服务器及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109360605B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111723089B (zh) * | 2019-03-21 | 2024-09-20 | 北京沃东天骏信息技术有限公司 | 一种基于列式存储格式处理数据的方法和装置 |
CN110322931B (zh) * | 2019-05-29 | 2024-05-14 | 南昌大学 | 一种碱基识别方法、装置、设备及存储介质 |
CN117795605A (zh) * | 2022-07-25 | 2024-03-29 | 深圳华大基因科技服务有限公司 | 处理fastq数据的方法及装置、电子设备和存储介质 |
CN115691682B (zh) * | 2022-10-26 | 2024-09-10 | 广州基迪奥生物科技有限公司 | 基因深度信息数据压缩方法、装置、电子设备及存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2595076B1 (en) * | 2011-11-18 | 2019-05-15 | Tata Consultancy Services Limited | Compression of genomic data |
CN104123300B (zh) * | 2013-04-26 | 2017-10-13 | 上海云人信息科技有限公司 | 数据分布式存储系统及方法 |
CN106096332A (zh) * | 2016-06-28 | 2016-11-09 | 深圳大学 | 面向存储的dna序列的并行快速匹配方法及其系统 |
CN107506618B (zh) * | 2017-07-07 | 2020-12-08 | 北京中科晶云科技有限公司 | 高通量测序序列的存储方法和查询方法 |
CN108090178B (zh) * | 2017-12-15 | 2020-08-25 | 北京锐安科技有限公司 | 一种文本数据分析方法、装置、服务器和存储介质 |
CN108197434B (zh) * | 2018-01-16 | 2020-04-10 | 深圳市泰康吉音生物科技研发服务有限公司 | 去除宏基因组测序数据中人源基因序列的方法 |
-
2018
- 2018-09-25 CN CN201811114193.8A patent/CN109360605B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN109360605A (zh) | 2019-02-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109360605B (zh) | 基因组测序数据归档方法、服务器及计算机可读存储介质 | |
US7743292B2 (en) | Apparatus and method for memory card testing | |
US20140317062A1 (en) | Amethod and apparatus for recovering sqlite file deleted from mobile terminal | |
WO2023000674A1 (zh) | 云硬盘数据压缩备份及恢复方法、装置、设备及存储介质 | |
CN110995273B (zh) | 电力数据库的数据压缩方法、装置、设备及介质 | |
KR20150083627A (ko) | 액티비티 문자열 분석에 의한 안드로이드 악성코드 검출 방법 | |
CN110808738A (zh) | 数据压缩方法、装置、设备及计算机可读存储介质 | |
CN114579446A (zh) | 数据处理方法、装置、计算机设备及计算机可读存储介质 | |
CN115357897A (zh) | 一种开源软件识别方法及装置 | |
CN112445769B (zh) | 基于区块链的链上存储方法、装置、终端设备及介质 | |
CN116303297B (zh) | 文件压缩处理方法、装置、设备及介质 | |
CN110096478B (zh) | 文档索引生成方法及设备 | |
CN111078753A (zh) | 基于HBase数据库的时序数据的存储方法及装置 | |
US11360940B2 (en) | Method and apparatus for biological sequence processing fastq files comprising lossless compression and decompression | |
CN108108467B (zh) | 数据删除方法及装置 | |
EP3598738A1 (en) | Video synthesis method, apparatus and device, and video playing method, apparatus and device | |
CN109002710B (zh) | 一种检测方法、装置及计算机可读存储介质 | |
CN112579357B (zh) | 快照差量获取方法、装置、设备及存储介质 | |
CN110570902B (zh) | 一种拷贝数变异分析方法、系统及计算机可读存储介质 | |
CN114240663A (zh) | 数据对账方法、装置、终端及存储介质 | |
CN111158994B (zh) | 一种压测性能测试方法及装置 | |
CN114879985A (zh) | 一种证书文件的安装方法、装置、设备及存储介质 | |
CN110119337B (zh) | 一种数据分析方法、装置及服务器 | |
CN113779932A (zh) | 数字格式化方法、装置、终端设备及存储介质 | |
CN117194355B (zh) | 基于数据库的数据处理方法、装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address | ||
CP03 | Change of name, title or address |
Address after: 518000 a3803, building 11, Shenzhen Bay science and technology ecological park, No. 16, Keji South Road, community, high tech Zone, Yuehai street, Nanshan District, Shenzhen, Guangdong Patentee after: Shenzhen Yaji Technology Co.,Ltd. Address before: 518000 building 6, Baoneng Technology Park, Qinghu community, Longhua street, Longhua District, Shenzhen, Guangdong Province Patentee before: AEGICARE (SHENZHEN) TECHNOLOGY CO.,LTD. |