CN110659252A - 基于云的生物信息数据交付方法、装置和电子设备 - Google Patents

基于云的生物信息数据交付方法、装置和电子设备 Download PDF

Info

Publication number
CN110659252A
CN110659252A CN201910739964.0A CN201910739964A CN110659252A CN 110659252 A CN110659252 A CN 110659252A CN 201910739964 A CN201910739964 A CN 201910739964A CN 110659252 A CN110659252 A CN 110659252A
Authority
CN
China
Prior art keywords
data
biological information
file
information data
cloud
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910739964.0A
Other languages
English (en)
Inventor
杨超
蔡潇潇
刘涛
谢德啸
李志民
李大为
玄兆伶
王海良
王娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Annoyoda Genetic Technology (beijing) Co Ltd
Annuo Uni-Data (yiwu) Medical Inspection Co Ltd
Beijing Annuo Uni-Data Medical Laboratory Co Ltd
Zhejiang Annuo Uni-Data Biotechnology Co Ltd
Annoyoda Institute Of Life Sciences
Original Assignee
Annoyoda Genetic Technology (beijing) Co Ltd
Annuo Uni-Data (yiwu) Medical Inspection Co Ltd
Beijing Annuo Uni-Data Medical Laboratory Co Ltd
Zhejiang Annuo Uni-Data Biotechnology Co Ltd
Annoyoda Institute Of Life Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Annoyoda Genetic Technology (beijing) Co Ltd, Annuo Uni-Data (yiwu) Medical Inspection Co Ltd, Beijing Annuo Uni-Data Medical Laboratory Co Ltd, Zhejiang Annuo Uni-Data Biotechnology Co Ltd, Annoyoda Institute Of Life Sciences filed Critical Annoyoda Genetic Technology (beijing) Co Ltd
Priority to CN201910739964.0A priority Critical patent/CN110659252A/zh
Publication of CN110659252A publication Critical patent/CN110659252A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/06Protocols specially adapted for file transfer, e.g. file transfer protocol [FTP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Signal Processing (AREA)
  • Chemical & Material Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

公开了一种基于云的生物信息数据交付方法、装置和电子设备。该基于云的生物信息数据交付方法包括:获取生物信息数据;将所述生物信息数据进行拆分以获得待上传的生物信息数据;以及,将所述待上传的生物信息数据上传到云平台,所述云平台上存储的所述生物信息数据用于通过响应于用户的请求由用户访问和/或下载而交付给用户。这样,提高了数据交付的便利度和安全性,并降低了数据交付的成本。

Description

基于云的生物信息数据交付方法、装置和电子设备
技术领域
本申请涉及生物信息数据领域,且更为具体地,涉及一种基于云的生物信息数据交付方法、装置和电子设备。
背景技术
高通量测序技术(High-throughput sequencing)又称“下一代”测序技术("Next-generation"sequencing technology),能够一次性并行地对几十万到几百万条DNA分子进行序列测定,以使得对一个物种的转录组和基因组进行细致全貌的分析成为可能。
基于高通量测序技术的高通量测序仪所获得的下机数据通常都是以TB(T比特)级别的数据,并且这些下机数据还可能经过进一步的分析处理以获得其它生物信息数据,而获得这些生物信息数据的一个主要目的就是将其交付给客户。
因此,期望提供能够将大数据量的生物信息数据交付给用户的方案。
发明内容
为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种基于云的生物信息数据交付方法、基于云的生物信息数据交付装置和电子设备,其将生物信息数据进行拆分后上传到云平台,以基于云平台将这些数据交付给用户,从而提高了数据交付的便利度和安全性,并降低了数据交付的成本。
根据本申请的一个方面,提供了一种基于云的生物信息数据交付方法,包括:获取生物信息数据;将所述生物信息数据进行拆分以获得待上传的生物信息数据;以及,将所述待上传的生物信息数据上传到云平台,所述云平台上存储的所述生物信息数据用于通过响应于用户的请求由用户访问和/或下载而交付给用户。
在上述基于云的生物信息数据交付方法中,将所述生物信息数据进行拆分以获得待上传的生物信息数据包括:基于标签和引物序列将多样本混合的生物信息数据拆分为单样本的生物信息数据。
在上述基于云的生物信息数据交付方法中,将所述生物信息数据进行拆分以获得待上传的生物信息数据包括:确定拆分后的数据文件的数目;确定拆分后的数据文件的大小;基于所述拆分后的数据文件的数目和大小编辑指定汇总文件;以及,基于所述指定汇总文件获得所述待上传的生物信息数据。
在上述基于云的生物信息数据交付方法中,基于所述拆分后的数据文件的数目和大小编辑指定汇总文件包括:基于所述拆分后的数据文件的大小对样本数据进行质控分析;响应于所述单样本的生物信息数据的质控分析不合格,重新获取所述样本的生物信息数据;以及,响应于所述单样本的生物信息数据的质控分析合格,将所述生物信息数据汇总到指定文件夹。
在上述基于云的生物信息数据交付方法中,基于所述拆分后的数据文件的大小对样本数据进行质控分析包括:确定所述拆分后的数据文件的大小是否大于或者等于预期数据文件大小的15%;以及,响应于所述拆分后的数据文件的大小大于或者等于预期数据文件大小的15%,确定所述单样本的生物信息数据的质控分析合格。
在上述基于云的生物信息数据交付方法中,基于所述拆分后的数据文件的大小对样本数据进行质控分析包括:确定所述拆分后的数据文件中的N碱基的比例是否小于或等于3%;以及,响应于所述拆分后的数据文件中的N碱基的比例小于或等于3%,确定所述单样本的生物信息数据的质控分析合格。
在上述基于云的生物信息数据交付方法中,将所述待上传的生物信息数据上传到云平台包括:将所述待上传的生物信息数据上传到所述云平台的第一存储空间,所述第一存储空间内存储的生物信息数据配置为允许用户访问和/或下载到第二存储空间而不允许用户更改和/或删除;和,所述第二存储空间内存储的生物信息数据配置为允许用户更改和/或删除。
在上述基于云的生物信息数据交付方法中,所述第二存储空间内存储的生物信息数据配置为允许用户使用所述云平台提供的分析处理工具进行分析处理。
在上述基于云的生物信息数据交付方法中,所述指定汇总文件包括基于二代测序数据的fq格式数据文件或者基于三代测序数据的bam数据文件。
在上述基于云的生物信息数据交付方法中,所述待上传的生物信息数据包括对获得的下机数据进行生物信息统计分析获得的生物信息数据,所述生物信息数据包括以下的至少其中之一:过滤统计结果文件、比对统计结果文件、表达量文件及表达量统计结果文件、差异分析统计结果文件、功能富集分析结果文件、蛋白质相互作用文件、可变剪切文件、新转录本预测文件、异检测文件、转录因子预测文件及其对应的配置文件。
根据本申请的另一方面,提供了一种基于云的生物信息数据交付装置,包括:获取单元,用于获取生物信息数据;处理单元,用于将所述获取单元所获取的所述生物信息数据进行拆分以获得待上传的生物信息数据;以及,上传单元,用于将所述处理单元所获得的所述待上传的生物信息数据上传到云平台,所述云平台上存储的所述生物信息数据用于通过响应于用户的请求由用户访问和/或下载而交付给用户。
在上述基于云的生物信息数据交付装置中,所述处理单元用于:基于标签和引物序列将多样本混合的生物信息数据拆分为单样本的生物信息数据。
在上述基于云的生物信息数据交付装置中,所述处理单元包括:数目确定子单元,用于确定拆分后的数据文件的数目;大小确定子单元,用于确定拆分后的数据文件的大小;文件指定子单元,用于基于所述数目确定子单元和所述大小确定子单元所确定的所述拆分后的数据文件的数目和大小编辑指定汇总文件;以及,数据获得子单元,用于基于所述文件指定子单元所指定的所述指定汇总文件获得所述待上传的生物信息数据。
在上述基于云的生物信息数据交付装置中,所述文件指定子单元包括:质控分析模块,用于基于所述拆分后的数据文件的大小对样本数据进行质控分析;重新获取模块,用于响应于所述质控分析模块的所述单样本的生物信息数据的质控分析不合格,重新获取所述样本的生物信息数据;以及,数据汇总模块,用于响应于所述质控分析模块的所述单样本的生物信息数据的质控分析合格,将所述生物信息数据汇总到指定文件夹。
在上述基于云的生物信息数据交付装置中,所述质控分析模块用于:确定所述拆分后的数据文件的大小是否大于或者等于预期数据文件大小的15%;以及,响应于所述拆分后的数据文件的大小大于或者等于预期数据文件大小的15%,确定所述单样本的生物信息数据的质控分析合格。
在上述基于云的生物信息数据交付装置中,所述质控分析模块用于:确定所述拆分后的数据文件中的N碱基的比例是否小于或等于3%;以及,响应于所述拆分后的数据文件中的N碱基的比例小于或等于3%,确定所述单样本的生物信息数据的质控分析合格。
在上述基于云的生物信息数据交付装置中,所述上传单元用于:将所述待上传的生物信息数据上传到所述云平台的第一存储空间,所述第一存储空间内存储的生物信息数据配置为允许用户访问和/或下载到第二存储空间而不允许用户更改和/或删除;和,所述第二存储空间内存储的生物信息数据配置为允许用户更改和/或删除。
在上述基于云的生物信息数据交付装置中,所述第二存储空间内存储的生物信息数据配置为允许用户使用所述云平台提供的分析处理工具进行分析处理。
在上述基于云的生物信息数据交付装置中,所述指定汇总文件包括基于二代测序数据的fq格式数据文件或者基于三代测序数据的bam数据文件。
在上述基于云的生物信息数据交付装置中,所述待上传的生物信息数据包括对获得的下机数据进行生物信息统计分析获得的生物信息数据,所述生物信息数据包括以下的至少其中之一:过滤统计结果文件、比对统计结果文件、表达量文件及表达量统计结果文件、差异分析统计结果文件、功能富集分析结果文件、蛋白质相互作用文件、可变剪切文件、新转录本预测文件、异检测文件、转录因子预测文件及其对应的配置文件。
根据本申请的再一方面,提供了一种电子设备,包括:处理器;以及,存储器,在所述存储器中存储有计算机程序指令,所述计算机程序指令在被所述处理器运行时使得所述处理器执行如上所述的基于云的生物信息数据交付方法。
根据本申请的又一方面,提供了一种计算机可读介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行如上所述的基于云的生物信息数据交付方法。
与现有技术相比,本申请提供的基于云的生物信息数据交付方法、装置和电子设备将生物信息数据进行拆分后上传到云平台,以基于云平台将这些数据交付给用户,从而提高了数据交付的便利度和安全性,并降低了数据交付的成本。
附图说明
通过结合附图对本申请实施例进行更详细的描述,本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1图示了根据本申请实施例的基于云的生物信息数据交付方法的流程图。
图2图示了根据本申请实施例的基于云的生物信息数据交付方法中的拆分处理过程的示例的流程图。
图3图示了根据本申请实施例的基于云的生物信息数据交付方法中的数据质控分析过程的示例的流程图。
图4图示了根据本申请实施例的基于云的生物信息数据交付装置的框图。
图5图示了根据本申请实施例的电子设备的框图。
具体实施方式
下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
申请概述
如上所述,在将高通量测序仪的下机数据和其它生物信息数据交付给客户的过程中,由于所涉及的数据通常为TB级别,其不同于一般的数据传输,例如电脑到电脑或者到移动终端的数据传输。
之前,因为网络传输速度无法满足大数据量传输的需要,在传统的基因测序领域中,数据交付大都是基于硬盘的交付方式。
具体地,传统的硬盘交付通常是通过移动硬盘邮寄方式来实现交付,其时间周期一般为一周左右,时间长、成本高、风险大(邮寄过程中硬盘损毁等安全性问题)。并且,这种传统的交付方式中数据的拷贝工作也会占用大量数据交付时间。因此,传统交付方式无论从周期、成本、安全上都无法满足客户越来越高的要求。
针对上述技术问题,本申请的基本构思是提供一种基于云的生物信息数据交付方式,其将生物信息数据进行拆分后上传到云平台以由用户访问和/或下载,从而基于云平台将这些数据交付给用户。
具体地,本申请提供的基于云的生物信息数据交付方法、装置和电子设备首先获取生物信息数据,然后将所述生物信息数据进行拆分以获得待上传的生物信息数据,最后将所述待上传的生物信息数据上传到云平台,所述云平台上存储的所述生物信息数据用于通过响应于用户的请求由用户访问和/或下载而交付给用户。
这样,通过本申请提供的基于云的生物信息数据交付方法、装置和电子设备,用户可以通过登录云平台直接获取下机数据以及其它生物信息数据,缩短了数据交付的周期,且同时能够避免邮寄过程中可能出现的安全问题。并且,由于在根据本申请的数据交付过程中减少了邮寄移动硬盘的环节,且不再需要对移动硬盘的投入,采用基于云的交付方式也减少了数据交付的成本。
在介绍了本申请的基本原理之后,下面将参考附图来具体介绍本申请的各种非限制性实施例。
示例性方法
图1图示了根据本申请实施例的基于云的生物信息数据交付方法的流程图。
如图1所示,根据本申请实施例的基于云的生物信息数据交付方法包括以下步骤。
步骤S110,获取生物信息数据。其中,需要说明的是,该生物信息数据可以是基因测序数据,该测序数据可以是根据各种测序方法获得的。进一步地,所述生物信息数据可以是直接从二代或三代测序仪获得的下机数据,也可以是其它基于二代或三代测序仪的下机数据所获得的生物信息数据。
步骤S120,将所述生物信息数据进行拆分以获得待上传的生物信息数据。在本申请实施例中,在将所述生物信息数据上传到云平台之前,由于在所述云平台上所述生物信息数据直接由用户访问,因此需要对原始生物信息数据进行拆分处理。
在一个示例中,在根据本申请实施例的基于云的生物信息数据交付方法中,将所述生物信息数据进行拆分以获得待上传的生物信息数据包括:基于标签和引物序列将多样本混合的生物信息数据拆分为单样本的生物信息数据。
例如,生物信息数据可能包括多个用户的基因测序数据,那么在上传到云平台时,所述多个用户的基因测序数据应该被拆分为每个用户单独的基因测序数据,以在所述云平台上由相应的用户访问。因此,将多样本混合的生物信息数据基于标签和引物序列拆分为单样本的生物信息数据除了能够对于生物信息数据进行分类和整理以外,也可以在上传到云平台之后保证不同样本的生物信息数据之间的隔离性,从而满足数据安全以及用户数据隐私方面的需要。
将在下文中对根据本申请实施例的生物信息数据的拆分处理过程进行进一步的详细说明。
步骤S130,将所述待上传的生物信息数据上传到云平台,所述云平台上存储的所述生物信息数据用于通过响应于用户的请求由用户访问和/或下载而交付给用户。也就是,在所述拆分处理后的待上传的生物信息数据上传到云平台之后,就可以直接由用户请求登录云平台并在云平台上访问数据或者从云平台下载数据。
这样,生物信息数据就通过云平台交付给客户,从而缩短了数据交付的周期,且同时能够避免邮寄过程中可能出现的安全问题。并且,由于在上述数据交付过程中不再需要生物信息数据的存储介质,并且减少了传递存储介质的环节,减少了数据交付的成本。图2图示了根据本申请实施例的基于云的生物信息数据交付方法中的拆分处理过程的示例的流程图。
如图2所示,在如图1所示的实施例的基础上,所述步骤S120进一步包括以下步骤。
步骤S1201,确定拆分后的数据文件的数目。例如,根据所需条件将混合样本拆分成单个样本,所述拆分后的数据文件的数目即对应于原始的下机数据或者其它生物信息数据中的样本数据。当然,在本申请实施例中,也可能将多样本数据按照其它标准进行拆分,例如,将一组样本根据不同单体进行拆分,将一组样本的基因测序数据按照样本的性别拆分为两组基因测序数据,或者将一组样本的基因测序数据按照样本的年龄段拆分为多组基因测序数据,等等。在一些情况下,可以根据索引(index)信息对样本进行拆分,具体地,一般一种index信息代表一个样本,也有10xgenomics建库4种index表示一个样本的,也有混池建库方式将多个相关的样本混合后使用同一种index信息的。
步骤S1202,确定拆分后的各数据文件的大小。也就是,确定上一步骤中每个拆分后的数据文件的大小,可以以文件的大小判断测序数据量是否符合测序的质控标准。
步骤S1203,基于所述拆分后的数据文件的数目和大小编辑指定汇总文件。这里,编辑指定汇总文件可以包括编辑指定汇总文件的文件类型,例如,对于二代测序仪获得的测序数据,通常以fq格式的数据文件形式,而对于三代测序仪获得的测序数据,通常以bam格式的数据文件形式。
因此,在根据本申请实施例的基于云的生物信息数据交付方法中,所述指定汇总文件包括基于二代测序数据的fq格式数据文件或者基于三代测序数据的bam数据文件。
另外,编辑指定汇总文件还包括获得针对测序仪的下机数据的直接或者间接结果数据,例如统计分析结果、数据图表、注释文件等。
步骤S1204,基于所述指定汇总文件获得所述待上传的生物信息数据。也就是,如图2所示的拆分处理过程的示例涉及将拆分后的生物信息数据进行进一步的整理,从而能够使得待上传的生物信息数据基于整理获得的指定汇总文件。这样,当用户在云平台上访问该生物信息数据或者下载后获得该生物信息数据之后,可以获得整理过后的清晰的生物信息数据,而不至于由于数据本身的混乱造成用户的不便。
在根据本申请实施例的基于云的生物信息数据交付方法中,如图2所示的拆分处理过程的示例除了为了保证上传到云平台的生物信息数据在文件目录结构等方面的清晰度和用户友好度之外,还可以进一步用于保证上传到云平台的生物信息数据符合质量控制需求。
图3图示了根据本申请实施例的基于云的生物信息数据交付方法中的数据质控分析过程的示例的流程图。
如图3所示,在如图2所示的实施例的基础上,所述步骤S1203进一步包括以下步骤。
步骤S12031,基于所述拆分后的数据文件的大小对样本数据进行质控分析。
步骤S12032,响应于所述单样本的生物信息数据的质控分析不合格,重新获取所述样本的生物信息数据。
步骤S12033,响应于所述单样本的生物信息数据的质控分析合格,将所述生物信息数据汇总到指定文件夹。
也就是说,通过如图3所示的数据质控分析过程的示例,可以保证上传到云平台的每个样本的生物信息数据都是符合质控要求的,从而能够避免用户访问和/或下载不合格的生物信息数据。
另外,在本申请实施例中,所述每个样本的生物信息数据可以包括各种的质控要求,也就是说,所述每个样本的生物信息数据需要满足不同类型的质量控制标准,例如,以下提到质量控制标准的两个示例。
在一个示例中,所述质量控制标准为拆分后的数据文件的大小大于或者等于预期数据文件大小的15%。也就是,在根据本申请实施例的基于云的生物信息数据交付方法中,基于所述拆分后的数据文件的大小对样本数据进行质控分析包括:确定所述拆分后的数据文件的大小是否大于或者等于预期数据文件大小的15%;以及,响应于所述拆分后的数据文件的大小大于或者等于预期数据文件大小的15%,确定所述单样本的生物信息数据的质控分析合格。
在另一示例中,所述质量控制标准为拆分后的数据文件中的N碱基的比例小于或等于3%。也就是,在根据本申请实施例的基于云的生物信息数据交付方法中,基于所述拆分后的数据文件的大小对样本数据进行质控分析包括:确定所述拆分后的数据文件中的N碱基的比例是否小于或等于3%;以及,响应于所述拆分后的数据文件中的N碱基的比例小于或等于3%,确定所述单样本的生物信息数据的质控分析合格。
在本申请实施例中,所述待上传的生物信息数据在上传到云平台之后,可以存储到所述云平台的不同存储空间中,以满足用户基于不同的数据权限的操作。
在一个示例中,在根据本申请实施例的基于云的生物信息数据交付方法中,将所述待上传的生物信息数据上传到云平台包括:将所述待上传的生物信息数据上传到所述云平台的第一存储空间,所述第一存储空间内存储的生物信息数据配置为允许用户访问和/或下载到第二存储空间而不允许用户更改和/或删除;和,所述第二存储空间内存储的生物信息数据配置为允许用户更改和/或删除。
也就是,所述生物信息数据首先上传到所述云平台的第一存储空间,例如,在云平台上可以命名为“我的项目”,在“我的项目”中的数据是直接交付给客户的数据,例如分析性结果,且客户可以根据设定的权限打开指定的文件夹,下载数据等,但是不能对数据进行更改和删除。
另外,客户可以将第一存储空间内存储的生物信息数据下载到第二存储空间,例如,在云平台上可以命名为“我的空间”,在“我的空间”中的数据是客户可以按照自己的需要进行操作的,包括修改、删除等。此外,客户还可以利用云平台提供的小工具对数据进行分析处理。
也就是,在根据本申请实施例的基于云的生物信息数据交付方法中,所述第二存储空间内存储的生物信息数据配置为允许用户使用所述云平台提供的分析处理工具进行分析处理。
如上所述,在本申请实施例中,所述生物信息数据包括所述测序仪的下机数据。并且,在如上所述对所述下机数据进行拆分,包括质控之后,可以进一步对拆分后的数据进行生物信息统计分析,以得到其它形式的待上传的生物信息数据。
例如,所述待上传的生物信息数据可以包括结题报告(markdown形式渲染的动态版报告文件)以及对应的配置文件,如过滤统计结果文件、比对统计结果文件、表达量文件及表达量统计结果文件、差异分析统计结果文件、功能富集分析结果文件、蛋白质相互作用文件、可变剪切文件、新转录本预测文件、异检测文件、转录因子预测文件等结果文件。另外,相应的配置文件包括与这些结果文件对应的readme说明等。在本申请实施例中,这些配置文件主要以文档、表格、图片以及特定形式的文件(如bam文件,vcf文件等)的形式提供给用户。
因此,在根据本申请实施例的基于云的生物信息数据交付方法中,所述待上传的生物信息数据包括对获得的下机数据进行生物信息统计分析获得的生物信息数据,所述生物信息数据包括以下的至少其中之一:过滤统计结果文件、比对统计结果文件、表达量文件及表达量统计结果文件、差异分析统计结果文件、功能富集分析结果文件、蛋白质相互作用文件、可变剪切文件、新转录本预测文件、异检测文件、转录因子预测文件及其对应的配置文件。
示例性装置
图4图示了根据本申请实施例的基于云的生物信息数据交付装置的框图。
如图4所示,根据本申请实施例的基于云的生物信息数据交付装置200包括:获取单元210,用于获取生物信息数据;处理单元220,用于将所述获取单元210所获取的所述生物信息数据进行拆分以获得待上传的生物信息数据;以及,上传单元230,用于将所述处理单元220所获得的所述待上传的生物信息数据上传到云平台,所述云平台上存储的所述生物信息数据用于通过响应于用户的请求由用户访问和/或下载而交付给用户。
在一个示例中,在上述基于云的生物信息数据交付装置200中,所述处理单元220用于:基于标签和引物序列将多样本混合的生物信息数据拆分为单样本的生物信息数据。
在一个示例中,在上述基于云的生物信息数据交付装置200中,所述处理单元220包括:数目确定子单元,用于确定拆分后的数据文件的数目;大小确定子单元,用于确定拆分后的数据文件的大小;文件指定子单元,用于基于所述数目确定子单元和所述大小确定子单元所确定的所述拆分后的数据文件的数目和大小编辑指定汇总文件;以及,数据获得子单元,用于基于所述文件指定子单元所指定的所述指定汇总文件获得所述待上传的生物信息数据。
在一个示例中,在上述基于云的生物信息数据交付装置200中,所述文件指定子单元包括:质控分析模块,用于基于所述拆分后的数据文件的大小对样本数据进行质控分析;重新获取模块,用于响应于所述质控分析模块的所述单样本的生物信息数据的质控分析不合格,重新获取所述样本的生物信息数据;以及,数据汇总模块,用于响应于所述质控分析模块的所述单样本的生物信息数据的质控分析合格,将所述生物信息数据汇总到指定文件夹。
在一个示例中,在上述基于云的生物信息数据交付装置200中,所述质控分析模块用于:确定所述拆分后的数据文件的大小是否大于或者等于预期数据文件大小的15%;以及,响应于所述拆分后的数据文件的大小大于或者等于预期数据文件大小的15%,确定所述单样本的生物信息数据的质控分析合格。
在一个示例中,在上述基于云的生物信息数据交付装置200中,所述质控分析模块用于:确定所述拆分后的数据文件中的N碱基的比例是否小于或等于3%;以及,响应于所述拆分后的数据文件中的N碱基的比例小于或等于3%,确定所述单样本的生物信息数据的质控分析合格。
在一个示例中,在上述基于云的生物信息数据交付装置200中,所述上传单元用于:将所述待上传的生物信息数据上传到所述云平台的第一存储空间,所述第一存储空间内存储的生物信息数据配置为允许用户访问和/或下载到第二存储空间而不允许用户更改和/或删除;和,所述第二存储空间内存储的生物信息数据配置为允许用户更改和/或删除。
在一个示例中,在上述基于云的生物信息数据交付装置200中,所述第二存储空间内存储的生物信息数据配置为允许用户使用所述云平台提供的分析处理工具进行分析处理。
在一个示例中,在上述基于云的生物信息数据交付装置200中,所述指定汇总文件包括基于二代测序数据的fq格式数据文件或者基于三代测序数据的bam数据文件。
在一个示例中,在上述基于云的生物信息数据交付装置200中,所述待上传的生物信息数据包括对获得的下机数据进行生物信息统计分析获得的生物信息数据,所述生物信息数据包括以下的至少其中之一:过滤统计结果文件、比对统计结果文件、表达量文件及表达量统计结果文件、差异分析统计结果文件、功能富集分析结果文件、蛋白质相互作用文件、可变剪切文件、新转录本预测文件、异检测文件、转录因子预测文件及其对应的配置文件。
这里,本领域技术人员可以理解,上述基于云的生物信息数据交付装置200中的各个单元和模块的具体功能和操作已经在上面参考图1到图3的基于云的生物信息数据交付方法的描述中得到了详细介绍,并因此,将省略其重复描述。
如上所述,根据本申请实施例的基于云的生物信息数据交付装置200可以实现在各种终端设备中,例如与云平台连接的生物信息数据服务器等。在一个示例中,根据本申请实施例的基于云的生物信息数据交付装置200可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如,该基于云的生物信息数据交付装置200可以是该终端设备的操作系统中的一个软件模块,或者可以是针对于该终端设备所开发的一个应用程序;当然,该基于云的生物信息数据交付装置200同样可以是该终端设备的众多硬件模块之一。
替换地,在另一示例中,该基于云的生物信息数据交付装置200与该终端设备也可以是分立的设备,并且该基于云的生物信息数据交付装置200可以通过有线和/或无线网络连接到该终端设备,并且按照约定的数据格式来传输交互信息。
示例性电子设备
下面,参考图5来描述根据本申请实施例的电子设备。
图5图示了根据本申请实施例的电子设备的框图。
如图5所示,电子设备10包括一个或多个处理器11和存储器12。
处理器13可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备10中的其他组件以执行期望的功能。
存储器12可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器11可以运行所述程序指令,以实现上文所述的本申请的各个实施例的基于云的生物信息数据交付方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如原始下机数据、拆分质控后的单样本生物信息数据、直接或者间接分析结果文件等各种内容。
在一个示例中,电子设备10还可以包括:输入装置13和输出装置14,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
该输入装置13可以包括例如键盘、鼠标等等。
该输出装置14可以向外部输出各种信息,包括待上传的生物信息数据等。该输出装置14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图5中仅示出了该电子设备10中与本申请有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备10还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的基于云的生物信息数据交付方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的基于云的生物信息数据交付方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims (12)

1.一种基于云的生物信息数据交付方法,包括:
获取生物信息数据;
将所述生物信息数据进行拆分以获得待上传的生物信息数据;以及
将所述待上传的生物信息数据上传到云平台,所述云平台上存储的所述生物信息数据用于通过响应于用户的请求由用户访问和/或下载而交付给用户。
2.根据权利要求1所述的基于云的生物信息数据交付方法,其中,将所述生物信息数据进行拆分以获得待上传的生物信息数据包括:
基于标签和/或引物序列将多样本混合的生物信息数据拆分为单样本的生物信息数据。
3.根据权利要求1所述的基于云的生物信息数据交付方法,其中,将所述生物信息数据进行拆分以获得待上传的生物信息数据包括:
确定拆分后的数据文件的数目;
确定拆分后的数据文件的大小;
基于所述拆分后的数据文件的数目和大小编辑指定汇总文件;以及
基于所述指定汇总文件获得所述待上传的生物信息数据。
4.根据权利要求3所述的基于云的生物信息数据交付方法,其中,基于所述拆分后的数据文件的数目和大小编辑指定汇总文件包括:
基于所述拆分后的数据文件的大小对样本数据进行质控分析;
响应于所述单样本的生物信息数据的质控分析不合格,重新获取所述样本的生物信息数据;以及
响应于所述单样本的生物信息数据的质控分析合格,将所述生物信息数据汇总到指定文件夹。
5.根据权利要求4所述的基于云的生物信息数据交付方法,其中,基于所述拆分后的数据文件的大小对样本数据进行质控分析包括:
确定所述拆分后的数据文件的大小是否大于或者等于预期数据文件大小的15%;
响应于所述拆分后的数据文件的大小大于或者等于预期数据文件大小的15%,确定所述单样本的生物信息数据的质控分析合格。
6.根据权利要求4所述的基于云的生物信息数据交付方法,其中,基于所述拆分后的数据文件的大小对样本数据进行质控分析包括:
确定所述拆分后的数据文件中的N碱基的比例是否小于或等于3%;
响应于所述拆分后的数据文件中的N碱基的比例小于或等于3%,确定所述单样本的生物信息数据的质控分析合格。
7.根据权利要求4所述的基于云的生物信息数据交付方法,其中,将所述待上传的生物信息数据上传到云平台包括:
将所述待上传的生物信息数据上传到所述云平台的第一存储空间,所述第一存储空间内存储的生物信息数据配置为允许用户访问和/或下载到第二存储空间而不允许用户更改和/或删除;和
所述第二存储空间内存储的生物信息数据配置为允许用户更改和/或删除。
8.根据权利要求7所述的基于云的生物信息数据交付方法,其中,所述第二存储空间内存储的生物信息数据配置为允许用户使用所述云平台提供的分析处理工具进行分析处理。
9.根据权利要求3所述的基于云的生物信息数据交付方法,其中,所述指定汇总文件包括基于二代测序数据的fq格式数据文件或者基于三代测序数据的bam数据文件。
10.根据权利要求1所述的基于云的生物信息数据交付方法,其中,所述待上传的生物信息数据包括对获得的下机数据进行生物信息统计分析获得的生物信息数据,
所述生物信息数据包括以下的至少其中之一:过滤统计结果文件、比对统计结果文件、表达量文件及表达量统计结果文件、差异分析统计结果文件、功能富集分析结果文件、蛋白质相互作用文件、可变剪切文件、新转录本预测文件、异检测文件、转录因子预测文件及其对应的配置文件。
11.一种基于云的生物信息数据交付装置,包括:
获取单元,用于获取生物信息数据;
处理单元,用于将所述获取单元所获取的所述生物信息数据进行拆分以获得待上传的生物信息数据;以及
上传单元,用于将所述处理单元所获得的所述待上传的生物信息数据上传到云平台,所述云平台上存储的所述生物信息数据用于通过响应于用户的请求由用户访问和/或下载而交付给用户。
12.一种电子设备,包括:
处理器;以及
存储器,在所述存储器中存储有计算机程序指令,所述计算机程序指令在被所述处理器运行时使得所述处理器执行如权利要求1-10中任一项所述的基于云的生物信息数据交付方法。
CN201910739964.0A 2019-08-12 2019-08-12 基于云的生物信息数据交付方法、装置和电子设备 Pending CN110659252A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910739964.0A CN110659252A (zh) 2019-08-12 2019-08-12 基于云的生物信息数据交付方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910739964.0A CN110659252A (zh) 2019-08-12 2019-08-12 基于云的生物信息数据交付方法、装置和电子设备

Publications (1)

Publication Number Publication Date
CN110659252A true CN110659252A (zh) 2020-01-07

Family

ID=69036511

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910739964.0A Pending CN110659252A (zh) 2019-08-12 2019-08-12 基于云的生物信息数据交付方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN110659252A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070195310A1 (en) * 2004-04-30 2007-08-23 Masahiko Kanda System And Process For Sorting Biological Particles
CN103457733A (zh) * 2013-08-15 2013-12-18 中电长城网际系统应用有限公司 一种云计算环境数据共享方法和系统
CN105260672A (zh) * 2015-09-18 2016-01-20 宇龙计算机通信科技(深圳)有限公司 生物信息存储方法、生物信息存储装置和终端
CN106991134A (zh) * 2017-03-13 2017-07-28 人和未来生物科技(长沙)有限公司 一种基于对象存储的大型数据云存储方法
CN107368704A (zh) * 2017-07-21 2017-11-21 上海桑格信息技术有限公司 基于云计算平台的有参考基因组的转录组项目的交互式分析系统及方法
CN107391963A (zh) * 2017-07-21 2017-11-24 上海桑格信息技术有限公司 基于计算云平台的真核无参转录组交互分析系统及其方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070195310A1 (en) * 2004-04-30 2007-08-23 Masahiko Kanda System And Process For Sorting Biological Particles
CN103457733A (zh) * 2013-08-15 2013-12-18 中电长城网际系统应用有限公司 一种云计算环境数据共享方法和系统
CN105260672A (zh) * 2015-09-18 2016-01-20 宇龙计算机通信科技(深圳)有限公司 生物信息存储方法、生物信息存储装置和终端
CN106991134A (zh) * 2017-03-13 2017-07-28 人和未来生物科技(长沙)有限公司 一种基于对象存储的大型数据云存储方法
CN107368704A (zh) * 2017-07-21 2017-11-21 上海桑格信息技术有限公司 基于云计算平台的有参考基因组的转录组项目的交互式分析系统及方法
CN107391963A (zh) * 2017-07-21 2017-11-24 上海桑格信息技术有限公司 基于计算云平台的真核无参转录组交互分析系统及其方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张玉 等: "海洋沉积物中硫酸盐还原菌和硫氧化菌群落分析方法的比较", 《环境科学》 *

Similar Documents

Publication Publication Date Title
CN111506498B (zh) 测试用例的自动生成方法、装置、计算机设备及存储介质
Dobin et al. Mapping RNA‐seq reads with STAR
US20160253321A1 (en) Metadata-driven workflows and integration with genomic data processing systems and techniques
US8812243B2 (en) Transmission and compression of genetic data
JP5939123B2 (ja) 実行制御プログラム、実行制御方法および情報処理装置
US11163726B2 (en) Context aware delta algorithm for genomic files
Oliver et al. Using the iPlant collaborative discovery environment
CN112885412B (zh) 基因组注释方法、装置、可视化平台和存储介质
CN112860706A (zh) 一种业务的处理方法、装置、设备及存储介质
Huang et al. Analyzing large scale genomic data on the cloud with Sparkhit
CN110502506B (zh) 一种数据处理方法、装置、设备和存储介质
WO2013140313A1 (en) Surprisal data reduction of genetic data for transmission, storage, and analysis
Cánovas et al. Csam: Compressed sam format
CN110659252A (zh) 基于云的生物信息数据交付方法、装置和电子设备
JP2021140430A (ja) データベースマイグレーション方法、データベースマイグレーションシステム、及びデータベースマイグレーションプログラム
CN110838338A (zh) 生物分析项目的建立系统、方法、存储介质、及电子设备
He et al. QuickRNASeq: guide for pipeline implementation and for interactive results visualization
CN113138974A (zh) 数据库合规检测的方法和装置
Mölder et al. Rapid T-cell receptor interaction grouping with ting
CN113329091A (zh) 数据管理方法及装置、存储介质、电子设备
Miossec et al. Computational methods for human microbiome analysis
Umylny et al. Beyond the Pipelines: Cloud Computing Facilitates Management, Distribution, Security, and Analysis of High‐Speed Sequencer Data
US20140310214A1 (en) Optimized and high throughput comparison and analytics of large sets of genome data
US20090037549A1 (en) Data management system for an analyzing apparatus
CN113760757B (zh) 一种基于har文件生成测试模型的方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200107