CN111210879B

CN111210879B - 一种用于超大规模药物数据的分级存储优化方法

Info

Publication number: CN111210879B
Application number: CN202010009950.6A
Authority: CN
Inventors: 刘昊; 杨雁博; 魏志强
Original assignee: Ocean University of China
Current assignee: Ocean University of China
Priority date: 2020-01-06
Filing date: 2020-01-06
Publication date: 2021-03-26
Anticipated expiration: 2040-01-06
Also published as: CN111210879A

Abstract

本发明涉及一种用于超大规模药物数据的分级存储优化方法，属于超大规模数据存储管理领域，步骤为1)构建基于分布式多级存储结构的集群存储资源管理系统，将特定的集群存储资源分配给特定的用户、用户组或作业，2)对作业进行特征化处理，划分作业类别，智能化调度作业到作业所需数据块的服务器上；3)设计数据分类模型，应用该模型对计算机辅助药物设计过程中产生的海量结果数据进行映射存储，并将产生数据分割成数据块分别存储在相应存储级别的服务器上；4)针对各级存储结构及其特征属性设计相应的I/O方法，动态调度I/O请求，优化各级存储结构I/O调度策略。本发明方法提高超算环境下I/O性能，实现超大规模药物数据的异构存储和平台开发利用。

Description

一种用于超大规模药物数据的分级存储优化方法

技术领域

本发明属于超大规模数据存储管理的技术领域，特别是指一种用于计算机辅助药物设计过程中产生的超大规模、多源、异构药物数据的分级存储优化方法。

背景技术

计算机辅助药物设计全过程包括虚拟药物筛选、先导优化、靶标预测、动力学模拟等，全过程涉及药物数据或中间结果数据及结果数据具有规模超大、结构多样、以及阶段过程中各种数据之间具有时间关联性(前一阶段的输出为后一阶段的输入)等特点。针对上述过程药物数据特点，设计多级存储资源管理系统，并通过一系列特征化操作、数据分类模型、I/O调度策略优化，以提高超大规模药物数据的I/O效率。

传统高性能计算机系统的处理器性能提升速度飞快，相较而言，存储设备的访问速度性能提升则较为缓慢，计算、存储发展不匹配导致两者间存储墙的问题越来越显著，而存储系统的性能瓶颈一般在于I/O，但单台设备每秒I/O有限，且整个集群性能在达到一定程度后提升效果缓慢，系统复用性极低，严重影响系统的总体性能。针对海洋药物研发设计全过程涉及药物数据的规模庞大、结构异构多样、阶段关联性强等特点，应用于海洋药物研发的大规模海洋药物数据管理(包括数据存储、数据读取、数据索引等)需要更高访问性能的存储设备的支持，以支撑海洋药物研发的全过程。

发明内容

本发明提供一种用于计算机辅助药物设计过程中涉及到的超大规模药物数据的分级存储优化方法，解决了现有超算环境下超大规模药物数据的I/O问题。

本发明是通过如下技术方案来实现的：

一种用于超大规模药物数据的分级存储优化方法，其主要是通过以下技术方案加以实现的：包括以下步骤：

1)针对超算集群环境的异质性，构建基于分布式多级存储结构的集群存储资源管理系统，将特定的集群存储资源分配给特定的用户、用户组或作业，其中，集群存储资源包括存储集群和计算集群，整个底层存储结构包括四级，分别为：计算集群主存储器，也即是内存储器，该部分I/O速度快，容量小且造价成本高；以HDD+SSD为主的计算机集群辅助存储器，也即是外存储器，该部分较主存I/O速度略慢，容量较大；搭建在存储集群上的分布式大数据服务器集群HDD+SSD，该部分存储容量大，但I/O速度较慢且受带宽影响限制大；光存储结构ODD，该部分存储容量超大，成本低，适合存储少I/O、低利用的冷数据；基于底层集群存储资源构建存储资源管理系统综合管理调度集群存储资源，存储资源以map、reduce任务槽形式表示，根据事先对执行map和reduce任务所需存储资源的理解，对给定集群主机上任务槽进行配置，在框架层实现并行；

2)根据超算环境下作业运行对资源需求的独特属性，对作业进行特征化处理，划分作业类别，智能化调度作业到作业所需数据块的服务器上；经过对已知作业任务的属性的特征化处理，特征化任务类型分别如下：I/O密集型任务、数据存储密集型任务、数据暂存密集型任务、访问性能要求型任务、带宽性能要求型任务和延迟性能要求型任务；利用已划分特征的任务类别，对提交的作业任务进行智能化分类；存储资源管理系统对已划分属性的超算任务进行智能化分级存储分配，根据已知作业任务I/O特征，匹配作业任务计算所需数据块的存储级别进行计算；

3)设计数据分类模型，应用该数据分类模型对计算机辅助药物设计过程中产生的海量结果数据进行映射存储，并将产生数据分割成数据块分别存储在相应存储级别的服务器上；数据分类模型针对作业任务产生结果数据特征匹配多级存储结构，以最优特征匹配为目标值，遍历整个分级存储系统的各级存储，并存储到所匹配的最优存储模块；

4)针对各级存储结构及其特征属性设计相应的I/O方法，针对系统中各级存储资源的状态特性，动态调度I/O请求，优化各级存储结构I/O调度策略，提高各级存储的I/O性能。

本发明基于分布式多级存储结构，搭建包含多类型存储设备以及多层次存储结构的多级存储架构，构建基于分布式多级存储结构的集群存储资源管理系统；多个计算节点作为客户端共同使用分级存储结构的存储资源，集群中存在多个作业同时运行，不同作业任务之间对集群系统资源进行竞争，由于不同作业任务对不同系统资源的需求程度存在差异，依据这种差异性属性，特征化作业任务；依据系统中不同存储资源的特性以及不同作业任务的运行特征条件对系统存储资源进行合理调度，提升系统架构整体的I/O性能。

作为一种优选的实施方案，所述步骤1)中，在存储集群上搭建分布式可扩展数据库管理系统；搭建分布式数据库管理系统采用非关系型数据库MongoDB，采用哈希分片的数据分片策略，多节点间的自动负载均衡，实现对计算机辅助药物设计过程中涉及的海量异构药物数据分布式存储以及针对海量异构药物数据基于分布式数据集群的衍生服务平台开发。

作为一种优选的实施方案，所述步骤1)中，光存储结构ODD在数据保存时长、密度、能耗、成本方面都具有很大优势，利用光存储结构ODD来存储冷数据，所述的冷数据也即是少读取、低利用数据，降低数据存储能耗，实现数据节能存储。

作为一种优选的实施方案，所述步骤1)中，作业任务产生的数据可直接存储在其计算节点本地存储设备上，该部分存储资源无需网络传输，具有低延迟I/O，但需要注意的是，该部分存储资源存储容量较小，不适宜存储需大存储容量作业任务的结果数据。

作为一种优选的实施方案，所述步骤1)中，基于分布式多级存储结构的存储资源管理系统，将超算环境内的所有物理存储设备整合为统一的存储资源，实现分布式集群存储资源的管理，通过统一的存储接口对外提供分布式文件系统高性能数据存取操作，存储设备相互之间通过网络连接在一起，统一的管理系统进行逻辑虚拟化管理、多链路冗余管理和状态监控、故障维护，共同构成多级存储资源。同时管理用户、用户组、作业对存储资源的访问请求，包括认证用户权限，管理用户存储空间，满足客户弹性存储需求等。

作为一种优选的实施方案，所述步骤2)中特征化任务类型步骤如下：对超算环境下作业任务进行数据清洗、数据规范化、以及数据特征衍生与提取得到特征全集，对特征全集进行筛选，递归特征消除法得到最优特征子集。

作为一种优选的实施方案，所述步骤3)中，从已有作业任务产生结果数据数据类型中动态学习得到数据分类模型，通过研究、改进、集成多种技术方法，得到对分布式及流动性数据分类的数据分类模型。

作为一种优选的实施方案，所述步骤3)中，数据分类模型根据特征化作业任务属性，以最优特征匹配为目标值，遍历整个分级存储系统的各级存储，直至匹配到最优特征存储资源模块。

作为一种优选的实施方案，所述步骤4)中，设计优化I/O方法，在I/O调度策略中动态多轮迭代I/O调度请求，使得I/O调度算法获得最优性能，结合多级存储设备的各级性能，分析上层应用对各级存储设备的I/O性能需求，分别为各级存储设备设置相应约束条件，提高各级存储的I/O性能。

本发明与现有技术相比的有益效果：

本发明采用高性能计算集群以及大数据存储服务集群，搭建用于超大规模药物数据的分级存储架构，根据每级存储结构的特征属性，决定每级存储结构存储的数据属性；针对所面向集群服务器所特有环境属性，对所提交作业任务进行特征化预处理，依据用户所提交作业任务的显著属性为其分配计算资源并从多级存储架构中获取相应计算需求数据，对于生成结果数据，数据分类器将其划分到相应存储架构级别模块并进行存储，解决超算特殊环境下的I/O问题，提高多级存储结构的I/O性能。本发明是一种基于高性能计算集群以及大数据存储服务集群，利用国产化的计算机操作平台搭建用于超大规模药物数据的分级存储架构，提高超算环境下的I/O性能，最终实现超大规模药物数据的异构存储和平台开发利用。进一步支撑计算机辅助药物设计的计算机药物模拟、计算和预算药物与受体生物大分子之间的关系，设计和优化先导化合物的方法等过程，进一步加快整个计算机辅助药物设计的全过程。

附图说明

图1为本发明方法的流程图。

具体实施方式

下面将结合本发明的具体实施例对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

本发明提供一种用于计算机辅助药物设计过程中涉及到的超大规模药物数据的分级存储优化方法，流程如图1所示，包括以下步骤：

1)针对超算集群环境的异质性，构建基于分布式多级存储结构的集群资源管理系统，将特定的集群资源分配给特定的用户、用户组或作业；其中，集群存储资源包括存储集群和计算集群，整个底层存储结构包括四级，分别为：计算集群主存储器，也即是内存储器，该部分I/O速度快，容量小且造价成本高；以HDD+SSD为主的计算机集群辅助存储器，也即是外存储器，该部分较主存I/O速度略慢，容量较大；搭建在存储集群上的分布式大数据服务器集群HDD+SSD，该部分存储容量大，但I/O速度较慢且受带宽影响限制大；光存储结构ODD，该部分存储容量超大，成本低，适合存储少I/O、低利用的冷数据；基于底层集群存储资源构建资源管理系统，综合管理调度集群存储资源，存储资源以map、reduce任务槽形式表示，根据一些事先对执行map和reduce任务所需存储资源的理解，对给定集群主机上任务槽进行配置，在框架层实现并行；

2)根据超算环境下作业任务I/O的独特属性，对作业进行预处理，特征化超算环境下的作业任务，划分作业类别；智能化调度作业到作业所需数据块的服务器上；经过对已知作业任务的属性的特征化处理，特征化任务类型分别如下：I/O密集型任务、数据存储密集型任务、数据暂存密集型任务、访问性能要求型任务、带宽性能要求型任务、延迟性能要求型任务等；利用已划分特征的任务类别，对提交的作业任务进行智能化分类；存储资源管理系统对已划分属性的超算任务进行智能化分级存储分配，根据已知作业任务I/O特征，匹配作业任务计算所需数据块的存储级别进行计算；

3)设计数据分类模型，应用该模型对计算机辅助药物设计过程中产生的海量数据进行映射存储，并将产生数据分割成数据块分别存储在相应存储级别的多级存储结构的相应存储模块；数据分类模型针对作业任务产生结果数据的突出特征匹配相应多级存储结构，以最优特征匹配为目标值，遍历整个分级存储系统的各级存储，并存储到所匹配的最优存储模块；

所述步骤1)中，基于各级存储架构及其相应设备属性，构建基于分布式多级存储结构的集群资源管理系统；并对各级存储架构进行特征属性划分。

对于存储架构的各级存储模块，其相应特征为：

计算资源主存储器：该部分具有最高I/O性能，受网络带宽性能影响最小，可匹配超算主存储器对I/O密集型作业任务进行处理及存储；

计算资源外存储器HDD+SSD：该部分I/O性能较高，受网络带宽影响较小，可处理存储数据暂存密集型任务；

大数据服务器集群HDD+SSD：该部分上采用非关系型数据库MongoDB搭建分布式数据库管理系统并开放相应I/O访问接口，针对大规模负载进行处理，采用哈希分片的数据分片策略，多节点间的自动负载均衡，实现对计算机辅助药物设计过程中涉及的海量异构药物数据分布式存储以及针对海量异构药物数据基于分布式数据集群的衍生服务平台开发。可处理存储数据存储密集型以及访问性能要求较高的作业任务；

光存储模块ODD：该部分在数据保存时长、保存风险、兼容性、密度、能耗、成本方面都具有很大优势，利用光存储来存储计算机辅助海洋药物设计过程中产生的大量冷数据(少读取、低利用数据)，降低数据存储能耗，实现数据节能存储。可存储对于访问性能要求较低的作业任务。

所述步骤1)中，在存储集群上搭建分布式可扩展数据库管理系统；搭建分布式数据库管理系统采用非关系型数据库MongoDB，采用哈希分片的数据分片策略，多节点间的自动负载均衡，实现对计算机辅助药物设计过程中涉及的海量异构药物数据分布式存储以及针对海量异构药物数据基于分布式数据集群的衍生服务平台开发。

所述步骤1)中，作业任务产生的数据可直接存储在其计算节点本地存储设备上，该部分存储资源无需网络传输，具有低延迟I/O，但需要注意的是，该部分存储资源存储容量较小，不适宜存储需大存储容量作业任务的结果数据。

所述步骤1)中，基于分布式多级存储结构的存储资源管理系统，将超算环境内的所有物理存储设备整合为统一的存储资源，实现分布式集群存储资源的管理，通过统一的存储接口对外提供分布式文件系统高性能数据存取操作，存储设备相互之间通过网络连接在一起，统一的管理系统进行逻辑虚拟化管理、多链路冗余管理和状态监控、故障维护，共同构成多级存储资源。同时管理用户、用户组、作业对存储资源的访问请求，包括认证用户权限，管理用户存储空间，满足客户弹性存储需求等。

所述步骤2)中，对超算环境下作业任务进行数据清洗、数据规范化、以及数据特征衍生与提取得到特征全集，对特征全集进行筛选，递归特征消除法得到最优特征子集。

所述步骤3)中，从已有作业任务产生结果数据数据类型中动态学习得到数据分类模型，通过研究、改进、集成多种技术方法，得到对分布式及流动性数据分类的数据分类模型。

所述步骤3)中，数据分类模型根据特征化作业任务属性，以最优特征匹配为目标值，遍历整个分级存储系统的各级存储，直至匹配到最优特征存储资源模块。

所述步骤4)中，设计优化I/O方法，在I/O调度策略中动态多轮迭代I/O调度请求，使得I/O调度算法获得最优性能，结合多级存储设备的各级性能，分析上层应用对各级存储设备的I/O性能的不同需求，分别为各级存储设备设置相应约束条件，提高各级存储的I/O性能。

其中，计算资源主存储器部分具有最高I/O性能，受网络带宽性能影响最小；而计算资源外存储器HDD+SSD部分I/O性能较高，受网络带宽影响较小；

大数据服务器集群HDD+SSD部分上采用非关系型数据库MongoDB搭建分布式数据库管理系统并开放相应I/O访问接口，针对大规模负载进行处理，采用哈希分片的数据分片策略，利用均衡器自动将负载分散到集群的所有分片服务器中，实现对计算机辅助药物设计过程中涉及的海量异构药物数据分布式存储，利用这种分布式数据库的分片存储方式实现并行写入、读取数据，提升大数据服务器集群的I/O性能；

光存储模块ODD部分数据读取速度相对较慢，该部分主要存储计算机辅助海洋药物设计过程中产生的大量冷数据(少读取、低利用数据)，重点提升数据写入性能，以页为单位进行并行数据写入，实现超大规模数据的写入。

针对海洋药物研发全过程涉及超大规模多源异构海洋医药大数据，本发明提供一种分级存储优化方法，基于分布式多级存储结构，构建集群资源管理系统，综合管理调度集群存储资源，特征化超算环境下的作业任务，划分作业类别，设计数据分类模型并针对各级存储结构及其特征属性设计相应的I/O方法，提高海洋医药大数据的I/O性能。

利用上述方法对海洋医药大数据来介绍本发明进行分级存储优化的组成步骤及构建方法如下：

对接计算涉及海洋医药大数据包括受体、配体、蛋白质等基础数据以及对接计算生成的打分结果文件，其中配体、受体、蛋白质等分别集成国际上免费公开的ZINC库(1890余万海洋小分子配体数据)、PDB库(上千pdb数据，来源于RCSB Protein Data Bank和其他该领域内权威的数据集网站)等；每一个受体都与1890余万配体小分子对接计算产生约1890余万dok文件，并对对接计算结果dok文件(约20T)进行分级存储，其中，dok文件中含对接计算过程中产生的一系列打分数据，包含ledock软件的分子对接结果，该软件产生的对接计算数据为原始数据。为支持对接结果查询、对接结果三维显示等上层衍生系统的开发，对dok文件进行分级存储，方便用户进行对接结果的查询及展示。

首先进行ZINC库及PDB库数据存储，用户提交对ZINC(Ligands配体)及PDB(pdb受体)存储的作业命令，ZINC库和PDB库需要频繁进行数据读取且数据量较小约50G，数据分类模型遍历资源管理系统下各级存储，匹配最优特征存储资源为计算集群主存储器，进行并行数据写入。

用户通过脚本提交分子对接计算作业，作业预处理模块根据已划分特征任务类型来划分提交作业类型，ZINC库和PDB库需要频繁进行数据读取且数据量较小约50G，属I/O密集型任务，作业所需数据匹配到计算机集群主存储器，向资源管理系统请求数据读取，资源管理系统调度计算机主存储器，并行读取分子计算对接所需数据返回至作业请求方；对分子对接任务产生dok数据进行分级存储，对接计算产生结果数据经过数据分类模型的特征匹配后，资源管理系统对dok数据进行存储，对打分结果较好的结果(小于等于-8)存储利用hash分片方式分片存储至分布式大数据服务器集群中，方便对打分结果进行查询及显示，对打分结果较差(大于-8)的结果以页为单位存储至光存储OOD结构，对使用频率较低的冷数据进行存储备份。

本实施例采用高性能计算集群以及大数据存储服务集群，搭建用于超大规模药物数据的分级存储架构，并基于分布式多级存储结构构建集群存储资源管理系统，对各级存储资源进行综合管理调度；针对所面向集群服务器所特有环境属性，对所提交作业任务进行特征化处理，依据用户所提交作业任务的显著属性从分存储架构级别模块得到相应模块数据块进行处理，并设计数据分类模型对得到结果数据匹配相应模块进行存储，解决超算特殊环境下的I/O问题，提高多级存储结构的I/O性能。本实施例利用国产化的计算机操作平台搭建用于计算机辅助药物设计过程中产生的超大规模药物数据的分级存储架构，提高超算环境下的I/O性能，最终实现超大规模药物数据的异构存储和平台开发利用，进一步支撑计算机辅助药物设计的计算机药物模拟、计算和预算药物与受体生物大分子之间的关系，设计和优化先导化合物的方法等过程，进一步加快整个计算机辅助药物设计的全过程。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用于超大规模药物数据的分级存储优化方法，其特征在于所述方法包括以下步骤：

1)针对超算集群环境的异质性，构建基于分布式多级存储结构的集群存储资源管理系统，将特定的集群存储资源分配给特定的用户、用户组或作业，其中，集群存储资源包括存储集群和计算集群，整个底层存储结构包括四级，分别为：计算集群主存储器，也即是内存储器；以HDD+SSD为主的计算机集群辅助存储器，也即是外存储器；搭建在存储集群上的分布式大数据服务器集群HDD+SSD；光存储结构ODD；基于底层集群存储资源构建存储资源管理系统综合管理调度集群存储资源，存储资源以map、reduce任务槽形式表示，根据事先对执行map和reduce任务所需存储资源的理解，对给定集群主机上任务槽进行配置，在框架层实现并行；

2.根据权利要求1所述的一种用于超大规模药物数据的分级存储优化方法，所述步骤1)中，在存储集群上搭建分布式可扩展数据库管理系统；搭建分布式数据库管理系统采用非关系型数据库MongoDB，采用哈希分片的数据分片策略，多节点间的自动负载均衡，实现对计算机辅助药物设计过程中涉及的海量异构药物数据分布式存储以及针对海量异构药物数据基于分布式数据集群的衍生服务平台开发。

3.根据权利要求1所述的一种用于超大规模药物数据的分级存储优化方法，所述步骤1)中，利用光存储结构ODD来存储冷数据。

4.根据权利要求1所述的一种用于超大规模药物数据的分级存储优化方法，所述步骤1)中，作业任务产生的数据直接存储在其计算节点本地存储设备上，但不适宜存储需大存储容量作业任务的结果数据。

5.根据权利要求1所述的一种用于超大规模药物数据的分级存储优化方法，所述步骤1)中，基于分布式多级存储结构的存储资源管理系统，将超算环境内的所有物理存储设备整合为统一的存储资源，实现分布式集群存储资源的管理，通过统一的存储接口对外提供分布式文件系统高性能数据存取操作，存储设备相互之间通过网络连接在一起，统一的管理系统进行逻辑虚拟化管理、多链路冗余管理和状态监控、故障维护，共同构成多级存储资源，同时管理用户、用户组、作业对存储资源的访问请求，包括认证用户权限，管理用户存储空间，满足客户弹性存储需求。

6.根据权利要求1所述的一种用于超大规模药物数据的分级存储优化方法，所述步骤2)中特征化任务类型步骤如下：对超算环境下作业任务进行数据清洗、数据规范化、以及数据特征衍生与提取得到特征全集，对特征全集进行筛选，递归特征消除法得到最优特征子集，所述最优特征子集包括：I/O密集型任务、数据存储密集型任务、数据暂存密集型任务、访问性能要求型任务、带宽性能要求型任务和延迟性能要求型任务。

7.根据权利要求1所述的一种用于超大规模药物数据的分级存储优化方法，所述步骤3)中，从已有作业任务产生结果数据数据类型中动态学习得到数据分类模型，通过研究、改进、集成多种技术方法，得到对分布式及流动性数据分类的数据分类模型。

8.根据权利要求1所述的一种用于超大规模药物数据的分级存储优化方法，所述步骤3)中，数据分类模型根据特征化作业任务属性，以最优特征匹配为目标值，遍历整个分级存储系统的各级存储，直至匹配到最优特征存储资源模块。

9.根据权利要求1所述的一种用于超大规模药物数据的分级存储优化方法，所述步骤4)中，设计优化I/O方法，在I/O调度策略中动态多轮迭代I/O调度请求，使得I/O调度算法获得最优性能，结合多级存储设备的各级性能，分析上层应用对各级存储设备的I/O性能需求，分别为各级存储设备设置相应约束条件，提高各级存储的I/O性能。