CN111261227A

CN111261227A - 测序数据存储方法、装置、设备及计算机可读存储介质

Info

Publication number: CN111261227A
Application number: CN202010062157.2A
Authority: CN
Inventors: 崔坤磊; 刘羽; 张敏; 杨振宇; 于占乐; 李龙翔; 王倩
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2020-01-20
Filing date: 2020-01-20
Publication date: 2020-06-09
Anticipated expiration: 2040-01-20
Also published as: CN111261227B

Abstract

本发明公开了一种测序数据存储方法，该方法包括以下步骤：对接收到的测序处理项目请求进行解析，得到待测序处理项目中各分业务的业务处理顺序信息；分别获取各分业务对应的测序下机数据；按照业务处理顺序信息分别将各分业务对应的测序下机数据发送到对应的第一级存储或第二级存储中进行处理操作，输出处理结果；将各处理结果和对应的各测序下机数据发送到第三级存储；其中，第一级存储的性能高于第二级存储，且第二级存储的性能高于第三级存储。应用本发明实施例所提供的技术方案，较大地提升了测序数据的处理效率。本发明还公开了一种测序数据存储装置、设备及存储介质，具有相应技术效果。

Description

测序数据存储方法、装置、设备及计算机可读存储介质

技术领域

本发明涉及存储技术领域，特别是涉及一种测序数据存储方法、装置、设备及计算机可读存储介质。

背景技术

测序即测定DNA、RNA序列的技术，一般叫做基因测序技术。具体来讲，是指用双脱氧链末端终止法或化学降解法分析特定序列片段的碱基，并最终获得片段的碱基序列信息。测序数据处理泛指从测序仪得到测序数据后，对测序数据的一系列存储、管理、分析等所有操作步骤。具体有测序数据的存储、数据过滤与质量控制、序列比对、序列组装、排序、去重复、突变检测、结构变异检测、基因注释等操作步骤。

新一代测序的发展和推广应用使生物序列数据增长迅速。研究人员将深入分析各种基因组数据的特点，针对性地研究高效数据压缩和传输的方法，研究新型的数据存储系统构架。研究在压缩空间上进行数据处理的方法，将存储、压缩和处理、应用结合起来考虑，发展适应超大规模基因组数据的搜索方法。探索新的软硬件模型和可能的新型体系结构，探索新的计算服务模型在测序数据存储、传输和处理上的应用。现有的对测序数据的存储是对测序数据进行统一存储，影响测序数据的处理效率。

综上所述，如何有效地解决对测序数据的存储是对测序数据进行统一存储，影响测序数据的处理效率的问题，是目前本领域技术人员急需解决的问题。

发明内容

本发明的目的是提供一种测序数据存储方法，该方法较大地提升了测序数据的处理效率；本发明的另一目的是提供一种测序数据存储装置、设备及计算机可读存储介质。

为解决上述技术问题，本发明提供如下技术方案：

一种测序数据存储方法，包括：

对接收到的测序处理项目请求进行解析，得到待测序处理项目中各分业务的业务处理顺序信息；

分别获取各所述分业务对应的测序下机数据；

按照所述业务处理顺序信息分别将各所述分业务对应的测序下机数据发送到对应的第一级存储或第二级存储中进行处理操作，输出处理结果；

将各所述处理结果和对应的各所述测序下机数据发送到第三级存储；

其中，所述第一级存储的性能高于所述第二级存储，且所述第二级存储的性能高于所述第三级存储。

在本发明的一种具体实施方式中，按照所述业务处理顺序信息分别将各所述分业务对应的测序下机数据发送到对应的第一级存储或第二级存储中进行处理操作，包括：

分别获取各所述分业务的业务属性信息；

根据各所述业务属性信息分别判断各所述分业务的处理操作是否需进行数据索引；

若是，则按照所述业务处理顺序信息，分别将需进行数据索引的各所述分业务对应的预先发送到所述第二级存储的测序下机数据调整到所述第一级存储的数据处理分区中进行处理操作；其中，所述第一级存储的数据存储分区中预存有包含参考基因组数据和数据库数据的待索引数据；

若否，则按照所述业务处理顺序信息，分别将不需进行数据索引的各所述分业务对应的测序下机数据发送到所述第二级存储中进行处理操作。

在本发明的一种具体实施方式中，将各所述处理结果发送到第三级存储，包括：

在各所述分业务处理过程中，将各所述处理结果暂存至所述第一级存储；

当存在分业务处理完成时，将处理完成的所述分业务对应的处理结果迁移至所述第二级存储；

当检测到所述待测序处理项目中各所述分业务均处理完成时，将各所述处理结果从所述第二级存储迁移到所述第三级存储。

在本发明的一种具体实施方式中，分别获取各所述分业务对应的测序下机数据，包括：

通过IB网络分别获取各所述分业务对应的测序下机数据；

按照所述业务处理顺序信息分别将各所述分业务对应的测序下机数据发送到对应的第一级存储或第二级存储中进行处理操作，输出处理结果，包括：

按照所述业务处理顺序信息分别将各所述分业务对应的测序下机数据通过IB网络发送到对应的第一级存储或第二级存储中进行处理操作，输出处理结果；

将各所述处理结果和对应的各所述测序下机数据发送到第三级存储，包括：

通过IB网络将各所述处理结果和对应的各所述测序下机数据发送到第三级存储。

一种测序数据存储装置，包括：

处理顺序获得模块，用于对接收到的测序处理项目请求进行解析，得到待测序处理项目中各分业务的业务处理顺序信息；

下机数据获取模块，用于分别获取各所述分业务对应的测序下机数据；

数据处理模块，用于按照所述业务处理顺序信息分别将各所述分业务对应的测序下机数据发送到对应的第一级存储或第二级存储中进行处理操作，输出处理结果；

结果及数据发送模块，用于将各所述处理结果和对应的各所述测序下机数据发送到第三级存储；

在本发明的一种具体实施方式中，所述数据处理模块包括：

业务属性获得子模块，用于分别获取各所述分业务的业务属性信息；

判断子模块，用于根据各所述业务属性信息分别判断各所述分业务的处理操作是否需进行数据索引；

第一数据处理子模块，用于按照所述业务处理顺序信息，分别将需进行数据索引的各所述分业务对应的预先发送到所述第二级存储的测序下机数据调整到所述第一级存储的数据处理分区中进行处理操作；其中，所述第一级存储的数据存储分区中预存有包含参考基因组数据和数据库数据的待索引数据；

第二数据处理子模块，用于按照所述业务处理顺序信息，分别将不需进行数据索引的各所述分业务对应的测序下机数据发送到所述第二级存储中进行处理操作。

在本发明的一种具体实施方式中，所述结果及数据发送模块包括结果发送子模块，所述结果发送子模块包括：

处理结果暂存单元，用于在各所述分业务处理过程中，将各所述处理结果暂存至所述第一级存储；

第一处理结果迁移单元，用于当存在分业务处理完成时，将处理完成的所述分业务对应的处理结果迁移至所述第二级存储；

第二处理结果迁移单元，用于当检测到所述待测序处理项目中各所述分业务均处理完成时，将各所述处理结果从所述第二级存储迁移到所述第三级存储。

在本发明的一种具体实施方式中，所述下机数据获取模块具体为通过IB网络分别获取各所述分业务对应的测序下机数据的模块；

所述数据处理模块具体为按照所述业务处理顺序信息分别将各所述分业务对应的测序下机数据通过IB网络发送到对应的第一级存储或第二级存储中进行处理操作，输出处理结果的模块；

所述结果及数据发送模块具体为通过IB网络将各所述处理结果和对应的各所述测序下机数据发送到第三级存储的模块。

一种测序数据存储设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如前所述测序数据存储方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如前所述测序数据存储方法的步骤。

应用本发明实施例所提供的方法，对接收到的测序处理项目请求进行解析，得到待测序处理项目中各分业务的业务处理顺序信息；分别获取各分业务对应的测序下机数据；按照业务处理顺序信息分别将各分业务对应的测序下机数据发送到对应的第一级存储或第二级存储中进行处理操作，输出处理结果；将各处理结果和对应的各测序下机数据发送到第三级存储；其中，第一级存储的性能高于第二级存储，且第二级存储的性能高于第三级存储。通过将存储系统进行分级，将待测序处理项目中各分业务对应的测序下机数据下发到相应级别的存储中进行处理，在业务处理完成后，将各处理结果和各原始的测序下机数据发送到第三级存储中进行存储，使得第一级存储和第二级存储得以释放，较大地提升了测序数据的处理效率。

相应的，本发明实施例还提供了与上述测序数据存储方法相对应的测序数据存储装置、设备和计算机可读存储介质，具有上述技术效果，在此不再赘述。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中测序数据存储方法的一种实施流程图；

图2为本发明实施例中测序数据存储方法的另一种实施流程图；

图3为本发明实施例中一种测序数据存储装置的结构框图；

图4为本发明实施例中一种测序数据存储设备的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一：

参见图1，图1为本发明实施例中测序数据存储方法的一种实施流程图，该方法可以包括以下步骤：

S101：对接收到的测序处理项目请求进行解析，得到待测序处理项目中各分业务的业务处理顺序信息。

当需要对待测序处理项目进行测序处理时，可以向测序处理中心发送测序处理项目请求，测序处理项目请求包含有待测序处理项目中各分业务的业务处理顺序信息，测序处理中心可以包含IB交换机和交换网络。测序处理中心接收测序处理项目请求，并对测序处理项目请求进行解析，得到待测序处理项目中各分业务的业务处理顺序信息。业务处理顺序信息可以根据各业务间的前后处理关系或各业务间加载时间顺序进行确定。

S102：分别获取各分业务对应的测序下机数据。

在确定出待测序处理项目中包含的各分业务之后，分别获取各分业务对应的测序下机数据。测序下机数据具体从多个测序仪中获取。

S103：按照业务处理顺序信息分别将各分业务对应的测序下机数据发送到对应的第一级存储或第二级存储中进行处理操作，输出处理结果。

可以将存储系统按照性能进行等级划分，如可以将全闪方案的高性能存储设置为第一级存储，将容量大、性能稳定的企业级SAS硬盘的存储服务器设置为第二级存储。在获取到各分业务对应的测序下机数据和各分业务的业务处理顺序信息之后，按照业务处理顺序信息分别将各分业务对应的测序下机数据发送到对应的第一级存储或第二级存储中进行处理操作，输出处理结果。如可以将不涉及数据索引的业务处理操作发送到第二级存储处理，将涉及数据索引的业务处理操作发送到第一级存储处理。

数据处理可以包括二代比对应用处理、变异检测应用处理、二代组装类应用处理、以及三代组装类应用处理。其中，二代比对应用一般为单机多线程应用，不支持信息传递接口(MPI)进程并行，考虑到其计算量、现代双路计算节点的计算力、硬件成本三个角度，一般一个二代比对任务为其分配一台双路计算节点即可满足其计算需求，即通过双路计算节点与相应级别的存储之间数据交互完成对测序下机数据的处理操作。变异检测应用是比对应用的后续业务，相关应用如一种用于分析基因组的工具箱GATK(Genome Anlysis Toolkit)的并行度较差，一台双路计算节点可以满足多个GATK任务同时运行，即通过双路计算节点与相应级别的存储之间数据交互完成对测序下机数据的处理操作。

二代组装类应用如基因组装工具Soap Denovo，此类应用也不支持MPI并行，经支持单机多线程并行，但因为组装应用的初始数据量较大，约几百GB，再加上其算法要求，对计算节点的内存要求极高，一般需要1TB-2TB的内存才合适，因此此类应用一般运行在四路胖节点上。部分三代组装类应用如三代测序组装工具canu对硬件计算资源的需求与二代组装类似，其内存需求甚至更大一些，一般为3TB-4TB，因此综合考虑，该计算方案中的胖节为4路胖节点，内存配置在3TB以上，最佳为4TB，可同时满足二代组装和部分三代组装应用，即通过四路胖节点与相应级别的存储之间数据交互完成对测序下机数据的处理操作。另一类三代组装类应用如Falcon，其支持基于MPI并行的多机并行，此类任务为其分配多台通用双路计算节点即可，每台节点的配置可与二代比对应用一样，即通过双路计算节点与相应级别的存储之间数据交互完成对测序下机数据的处理操作。各计算机计算一般设置为纯CPU服务器，当然随着硬件技术、软件理论创新的发展，也可以采用异构计算设备。

S104：将各处理结果和对应的各测序下机数据发送到第三级存储。

其中，第一级存储的性能高于第二级存储，且第二级存储的性能高于第三级存储。

可以预先将存储系统划分为第一级存储、第二级存储、以及第三级存储三个等级，且设置第一级存储的性能高于第二级存储，且第二级存储的性能高于第三级存储。在得到各分业务对应的处理结果之后，可以将各处理结果和对应的各测序下机数据发送到第三级存储。可以将超大容量、价格便宜的磁带库设置为第三级存储，用于对已完成业务的永久备份存储。从而使得第一级存储和第二级存储的存储空间得以释放，使得存储系统的各级存储得到充分利用，较大地提升了测序数据的处理效率。

需要说明的是，基于上述实施例一，本发明实施例还提供了相应的改进方案。在后续实施例中涉及与上述实施例一中相同步骤或相应步骤之间可相互参考，相应的有益效果也可相互参照，在下文的改进实施例中不再一一赘述。

实施例二：

参见图2，图2为本发明实施例中测序数据存储方法的另一种实施流程图，该方法可以包括以下步骤：

S201：对接收到的测序处理项目请求进行解析，得到待测序处理项目中各分业务的业务处理顺序信息。

S202：通过IB网络分别获取各分业务对应的测序下机数据。

测序处理中心与各测序仪之间可以通过IB网络建立通信连接，从而测序处理中心通过IB网络分别获取各分业务对应的测序下机数据。通过在测序处理中心与各测序仪之间采用高性能的IB网络互联，较大地提高了对测序数据进行处理的整体性能。

S203：分别获取各分业务的业务属性信息。

在确定出待测序处理项目中包含的各分业务之后，可以分别获取各分业务的业务属性信息。业务属性信息可以根据对各分业务进行处理时是否需要进行数据索引进行划分，即划分为需要进行数据索引的一类分业务，以及不需要进行数据索引的一类分业务。

S204：根据各业务属性信息分别判断各分业务的处理操作是否需进行数据索引，若是，则执行步骤S205，若否，则执行步骤S206。

在分别获取各分业务的业务属性信息之后，可以根据各业务属性信息分别判断各分业务的处理操作是否需进行数据索引，若需要进行数据索引，则继续执行步骤S205，若不需要进行数据索引，则执行步骤S206。

S205：按照业务处理顺序信息，分别将需进行数据索引的各分业务对应的通过IB网络预先发送到第二级存储的测序下机数据调整到第一级存储的数据处理分区中进行处理操作。

其中，第一级存储的数据存储分区中预存有包含参考基因组数据和数据库数据的待索引数据。

参考基因组数据在大多数业务场景中都会用到，且其数据一般不会轻易变动，但引用十分频繁，类似的各种数据库数据也是如此，因此这部分数据可以放在单独的一级存储系统中，以确保其数据安全性、独立性及保证多个任务同时引用的性能。即在第一级存储的数据存储分区中预先存储包含参考基因组数据和数据库数据的待索引数据。在获取到各分业务对应的测序下机数据之后，可以将各分业务对应的测序下机数据均通过IB网络预先发送到第二级存储中。在根据分业务的业务属性信息确定需要进行数据索引时，可以将按照业务处理顺序信息，分别将需进行数据索引的各分业务对应的测序下机数据调整到第一级存储的数据处理分区中进行处理操作。

S206：按照业务处理顺序信息，分别将不需进行数据索引的各分业务对应的测序下机数据通过IB网络发送到第二级存储中进行处理操作。

在根据分业务的业务属性信息确定不需要进行数据索引时，可以按照业务处理顺序信息，分别将不需进行数据索引的各分业务对应的测序下机数据通过IB网络发送到第二级存储中进行处理操作，即直接在第二级存储中进行处理操作。

S207：在各分业务处理过程中，将各处理结果通过IB网络暂存至第一级存储。

对于各输出结果，输出结果文件一般较大，且多任务情况下IO的压力会很大。因此，在对各分业务进行处理的过程中，在第一级存储的存储空间允许的情况下，可以将各处理结果通过IB网络暂存至第一级存储。

S208：当存在分业务处理完成时，将处理完成的分业务对应的处理结果迁移至第二级存储。

当存在分业务处理完成时，可以将处理完成的分业务对应的处理结果迁移至第二级存储，即将处理完成的分业务对应的处理结果从第一级存储迁移至第二级存储。

S209：当检测到待测序处理项目中各分业务均处理完成时，将各处理结果从第二级存储迁移到第三级存储。

当检测到待测序处理项目中各分业务均处理完成时，将各处理结果从第二级存储迁移到第三级存储，从而使得第二级存储的存储空间得以释放，达到经济性的目的。

相应于上面的方法实施例，本发明实施例还提供了一种测序数据存储装置，下文描述的测序数据存储装置与上文描述的测序数据存储方法可相互对应参照。

参见图3，图3为本发明实施例中一种测序数据存储装置的结构框图，该装置可以包括：

处理顺序获得模块31，用于对接收到的测序处理项目请求进行解析，得到待测序处理项目中各分业务的业务处理顺序信息；

下机数据获取模块32，用于分别获取各分业务对应的测序下机数据；

数据处理模块33，用于按照业务处理顺序信息分别将各分业务对应的测序下机数据发送到对应的第一级存储或第二级存储中进行处理操作，输出处理结果；

结果及数据发送模块34，用于将各处理结果和对应的各测序下机数据发送到第三级存储；

应用本发明实施例所提供的装置，对接收到的测序处理项目请求进行解析，得到待测序处理项目中各分业务的业务处理顺序信息；分别获取各分业务对应的测序下机数据；按照业务处理顺序信息分别将各分业务对应的测序下机数据发送到对应的第一级存储或第二级存储中进行处理操作，输出处理结果；将各处理结果和对应的各测序下机数据发送到第三级存储；其中，第一级存储的性能高于第二级存储，且第二级存储的性能高于第三级存储。通过将存储系统进行分级，将待测序处理项目中各分业务对应的测序下机数据下发到相应级别的存储中进行处理，在业务处理完成后，将各处理结果和各原始的测序下机数据发送到第三级存储中进行存储，使得第一级存储和第二级存储得以释放，较大地提升了测序数据的处理效率。

在本发明的一种具体实施方式中，数据处理模块33包括：

业务属性获得子模块，用于分别获取各分业务的业务属性信息；

判断子模块，用于根据各业务属性信息分别判断各分业务的处理操作是否需进行数据索引；

第一数据处理子模块，用于按照业务处理顺序信息，分别将需进行数据索引的各分业务对应的预先发送到第二级存储的测序下机数据调整到第一级存储的数据处理分区中进行处理操作；其中，第一级存储的数据存储分区中预存有包含参考基因组数据和数据库数据的待索引数据；

第二数据处理子模块，用于按照业务处理顺序信息，分别将不需进行数据索引的各分业务对应的测序下机数据发送到第二级存储中进行处理操作。

在本发明的一种具体实施方式中，结果及数据发送模块34包括结果发送子模块，结果发送子模块包括：

处理结果暂存单元，用于在各分业务处理过程中，将各处理结果暂存至第一级存储；

第一处理结果迁移单元，用于当存在分业务处理完成时，将处理完成的分业务对应的处理结果迁移至第二级存储；

第二处理结果迁移单元，用于当检测到待测序处理项目中各分业务均处理完成时，将各处理结果从第二级存储迁移到第三级存储。

在本发明的一种具体实施方式中，下机数据获取模块32具体为通过IB网络分别获取各分业务对应的测序下机数据的模块；

数据处理模块33具体为按照业务处理顺序信息分别将各分业务对应的测序下机数据通过IB网络发送到对应的第一级存储或第二级存储中进行处理操作，输出处理结果的模块；

结果及数据发送模块34具体为通过IB网络将各处理结果和对应的各测序下机数据发送到第三级存储的模块。

相应于上面的方法实施例，参见图4，图4为本发明所提供的测序数据存储设备的示意图，该设备可以包括：

存储器41，用于存储计算机程序；

处理器42，用于执行上述存储器41存储的计算机程序时可实现如下步骤：

对接收到的测序处理项目请求进行解析，得到待测序处理项目中各分业务的业务处理顺序信息；分别获取各分业务对应的测序下机数据；按照业务处理顺序信息分别将各分业务对应的测序下机数据发送到对应的第一级存储或第二级存储中进行处理操作，输出处理结果；将各处理结果和对应的各测序下机数据发送到第三级存储；其中，第一级存储的性能高于第二级存储，且第二级存储的性能高于第三级存储。

对于本发明提供的设备的介绍请参照上述方法实施例，本发明在此不做赘述。

相应于上面的方法实施例，本发明还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时可实现如下步骤：

该计算机可读存储介质可以包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

对于本发明提供的计算机可读存储介质的介绍请参照上述方法实施例，本发明在此不做赘述。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置、设备及计算机可读存储介质而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的技术方案及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种测序数据存储方法，其特征在于，包括：

分别获取各所述分业务对应的测序下机数据；

2.根据权利要求1所述的测序数据存储方法，其特征在于，按照所述业务处理顺序信息分别将各所述分业务对应的测序下机数据发送到对应的第一级存储或第二级存储中进行处理操作，包括：

分别获取各所述分业务的业务属性信息；

3.根据权利要求1或2所述的测序数据存储方法，其特征在于，将各所述处理结果发送到第三级存储，包括：

4.根据权利要求3所述的测序数据存储方法，其特征在于，分别获取各所述分业务对应的测序下机数据，包括：

通过IB网络分别获取各所述分业务对应的测序下机数据；

5.一种测序数据存储装置，其特征在于，包括：

6.根据权利要求5所述的测序数据存储装置，其特征在于，所述数据处理模块包括：

7.根据权利要求5或6所述的测序数据存储装置，其特征在于，所述结果及数据发送模块包括结果发送子模块，所述结果发送子模块包括：

8.根据权利要求7所述的测序数据存储装置，其特征在于，所述下机数据获取模块具体为通过IB网络分别获取各所述分业务对应的测序下机数据的模块；

9.一种测序数据存储设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至4任一项所述测序数据存储方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述测序数据存储方法的步骤。