CN111210879B - 一种用于超大规模药物数据的分级存储优化方法 - Google Patents

一种用于超大规模药物数据的分级存储优化方法 Download PDF

Info

Publication number
CN111210879B
CN111210879B CN202010009950.6A CN202010009950A CN111210879B CN 111210879 B CN111210879 B CN 111210879B CN 202010009950 A CN202010009950 A CN 202010009950A CN 111210879 B CN111210879 B CN 111210879B
Authority
CN
China
Prior art keywords
storage
data
cluster
tasks
job
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010009950.6A
Other languages
English (en)
Other versions
CN111210879A (zh
Inventor
刘昊
杨雁博
魏志强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ocean University of China
Original Assignee
Ocean University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ocean University of China filed Critical Ocean University of China
Priority to CN202010009950.6A priority Critical patent/CN111210879B/zh
Publication of CN111210879A publication Critical patent/CN111210879A/zh
Application granted granted Critical
Publication of CN111210879B publication Critical patent/CN111210879B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/90Programming languages; Computing architectures; Database systems; Data warehousing

Landscapes

  • Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种用于超大规模药物数据的分级存储优化方法,属于超大规模数据存储管理领域,步骤为1)构建基于分布式多级存储结构的集群存储资源管理系统,将特定的集群存储资源分配给特定的用户、用户组或作业,2)对作业进行特征化处理,划分作业类别,智能化调度作业到作业所需数据块的服务器上;3)设计数据分类模型,应用该模型对计算机辅助药物设计过程中产生的海量结果数据进行映射存储,并将产生数据分割成数据块分别存储在相应存储级别的服务器上;4)针对各级存储结构及其特征属性设计相应的I/O方法,动态调度I/O请求,优化各级存储结构I/O调度策略。本发明方法提高超算环境下I/O性能,实现超大规模药物数据的异构存储和平台开发利用。

Description

一种用于超大规模药物数据的分级存储优化方法
技术领域
本发明属于超大规模数据存储管理的技术领域,特别是指一种用于计算机辅助药物设计过程中产生的超大规模、多源、异构药物数据的分级存储优化方法。
背景技术
计算机辅助药物设计全过程包括虚拟药物筛选、先导优化、靶标预测、动力学模拟等,全过程涉及药物数据或中间结果数据及结果数据具有规模超大、结构多样、以及阶段过程中各种数据之间具有时间关联性(前一阶段的输出为后一阶段的输入)等特点。针对上述过程药物数据特点,设计多级存储资源管理系统,并通过一系列特征化操作、数据分类模型、I/O调度策略优化,以提高超大规模药物数据的I/O效率。
传统高性能计算机系统的处理器性能提升速度飞快,相较而言,存储设备的访问速度性能提升则较为缓慢,计算、存储发展不匹配导致两者间存储墙的问题越来越显著,而存储系统的性能瓶颈一般在于I/O,但单台设备每秒I/O有限,且整个集群性能在达到一定程度后提升效果缓慢,系统复用性极低,严重影响系统的总体性能。针对海洋药物研发设计全过程涉及药物数据的规模庞大、结构异构多样、阶段关联性强等特点,应用于海洋药物研发的大规模海洋药物数据管理(包括数据存储、数据读取、数据索引等)需要更高访问性能的存储设备的支持,以支撑海洋药物研发的全过程。
发明内容
本发明提供一种用于计算机辅助药物设计过程中涉及到的超大规模药物数据的分级存储优化方法,解决了现有超算环境下超大规模药物数据的I/O问题。
本发明是通过如下技术方案来实现的:
一种用于超大规模药物数据的分级存储优化方法,其主要是通过以下技术方案加以实现的:包括以下步骤:
1)针对超算集群环境的异质性,构建基于分布式多级存储结构的集群存储资源管理系统,将特定的集群存储资源分配给特定的用户、用户组或作业,其中,集群存储资源包括存储集群和计算集群,整个底层存储结构包括四级,分别为:计算集群主存储器,也即是内存储器,该部分I/O速度快,容量小且造价成本高;以HDD+SSD为主的计算机集群辅助存储器,也即是外存储器,该部分较主存I/O速度略慢,容量较大;搭建在存储集群上的分布式大数据服务器集群HDD+SSD,该部分存储容量大,但I/O速度较慢且受带宽影响限制大;光存储结构ODD,该部分存储容量超大,成本低,适合存储少I/O、低利用的冷数据;基于底层集群存储资源构建存储资源管理系统综合管理调度集群存储资源,存储资源以map、reduce任务槽形式表示,根据事先对执行map和reduce任务所需存储资源的理解,对给定集群主机上任务槽进行配置,在框架层实现并行;
2)根据超算环境下作业运行对资源需求的独特属性,对作业进行特征化处理,划分作业类别,智能化调度作业到作业所需数据块的服务器上;经过对已知作业任务的属性的特征化处理,特征化任务类型分别如下:I/O密集型任务、数据存储密集型任务、数据暂存密集型任务、访问性能要求型任务、带宽性能要求型任务和延迟性能要求型任务;利用已划分特征的任务类别,对提交的作业任务进行智能化分类;存储资源管理系统对已划分属性的超算任务进行智能化分级存储分配,根据已知作业任务I/O特征,匹配作业任务计算所需数据块的存储级别进行计算;
3)设计数据分类模型,应用该数据分类模型对计算机辅助药物设计过程中产生的海量结果数据进行映射存储,并将产生数据分割成数据块分别存储在相应存储级别的服务器上;数据分类模型针对作业任务产生结果数据特征匹配多级存储结构,以最优特征匹配为目标值,遍历整个分级存储系统的各级存储,并存储到所匹配的最优存储模块;
4)针对各级存储结构及其特征属性设计相应的I/O方法,针对系统中各级存储资源的状态特性,动态调度I/O请求,优化各级存储结构I/O调度策略,提高各级存储的I/O性能。
本发明基于分布式多级存储结构,搭建包含多类型存储设备以及多层次存储结构的多级存储架构,构建基于分布式多级存储结构的集群存储资源管理系统;多个计算节点作为客户端共同使用分级存储结构的存储资源,集群中存在多个作业同时运行,不同作业任务之间对集群系统资源进行竞争,由于不同作业任务对不同系统资源的需求程度存在差异,依据这种差异性属性,特征化作业任务;依据系统中不同存储资源的特性以及不同作业任务的运行特征条件对系统存储资源进行合理调度,提升系统架构整体的I/O性能。
作为一种优选的实施方案,所述步骤1)中,在存储集群上搭建分布式可扩展数据库管理系统;搭建分布式数据库管理系统采用非关系型数据库MongoDB,采用哈希分片的数据分片策略,多节点间的自动负载均衡,实现对计算机辅助药物设计过程中涉及的海量异构药物数据分布式存储以及针对海量异构药物数据基于分布式数据集群的衍生服务平台开发。
作为一种优选的实施方案,所述步骤1)中,光存储结构ODD在数据保存时长、密度、能耗、成本方面都具有很大优势,利用光存储结构ODD来存储冷数据,所述的冷数据也即是少读取、低利用数据,降低数据存储能耗,实现数据节能存储。
作为一种优选的实施方案,所述步骤1)中,作业任务产生的数据可直接存储在其计算节点本地存储设备上,该部分存储资源无需网络传输,具有低延迟I/O,但需要注意的是,该部分存储资源存储容量较小,不适宜存储需大存储容量作业任务的结果数据。
作为一种优选的实施方案,所述步骤1)中,基于分布式多级存储结构的存储资源管理系统,将超算环境内的所有物理存储设备整合为统一的存储资源,实现分布式集群存储资源的管理,通过统一的存储接口对外提供分布式文件系统高性能数据存取操作,存储设备相互之间通过网络连接在一起,统一的管理系统进行逻辑虚拟化管理、多链路冗余管理和状态监控、故障维护,共同构成多级存储资源。同时管理用户、用户组、作业对存储资源的访问请求,包括认证用户权限,管理用户存储空间,满足客户弹性存储需求等。
作为一种优选的实施方案,所述步骤2)中特征化任务类型步骤如下:对超算环境下作业任务进行数据清洗、数据规范化、以及数据特征衍生与提取得到特征全集,对特征全集进行筛选,递归特征消除法得到最优特征子集。
作为一种优选的实施方案,所述步骤3)中,从已有作业任务产生结果数据数据类型中动态学习得到数据分类模型,通过研究、改进、集成多种技术方法,得到对分布式及流动性数据分类的数据分类模型。
作为一种优选的实施方案,所述步骤3)中,数据分类模型根据特征化作业任务属性,以最优特征匹配为目标值,遍历整个分级存储系统的各级存储,直至匹配到最优特征存储资源模块。
作为一种优选的实施方案,所述步骤4)中,设计优化I/O方法,在I/O调度策略中动态多轮迭代I/O调度请求,使得I/O调度算法获得最优性能,结合多级存储设备的各级性能,分析上层应用对各级存储设备的I/O性能需求,分别为各级存储设备设置相应约束条件,提高各级存储的I/O性能。
本发明与现有技术相比的有益效果:
本发明采用高性能计算集群以及大数据存储服务集群,搭建用于超大规模药物数据的分级存储架构,根据每级存储结构的特征属性,决定每级存储结构存储的数据属性;针对所面向集群服务器所特有环境属性,对所提交作业任务进行特征化预处理,依据用户所提交作业任务的显著属性为其分配计算资源并从多级存储架构中获取相应计算需求数据,对于生成结果数据,数据分类器将其划分到相应存储架构级别模块并进行存储,解决超算特殊环境下的I/O问题,提高多级存储结构的I/O性能。本发明是一种基于高性能计算集群以及大数据存储服务集群,利用国产化的计算机操作平台搭建用于超大规模药物数据的分级存储架构,提高超算环境下的I/O性能,最终实现超大规模药物数据的异构存储和平台开发利用。进一步支撑计算机辅助药物设计的计算机药物模拟、计算和预算药物与受体生物大分子之间的关系,设计和优化先导化合物的方法等过程,进一步加快整个计算机辅助药物设计的全过程。
附图说明
图1为本发明方法的流程图。
具体实施方式
下面将结合本发明的具体实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
本发明提供一种用于计算机辅助药物设计过程中涉及到的超大规模药物数据的分级存储优化方法,流程如图1所示,包括以下步骤:
1)针对超算集群环境的异质性,构建基于分布式多级存储结构的集群资源管理系统,将特定的集群资源分配给特定的用户、用户组或作业;其中,集群存储资源包括存储集群和计算集群,整个底层存储结构包括四级,分别为:计算集群主存储器,也即是内存储器,该部分I/O速度快,容量小且造价成本高;以HDD+SSD为主的计算机集群辅助存储器,也即是外存储器,该部分较主存I/O速度略慢,容量较大;搭建在存储集群上的分布式大数据服务器集群HDD+SSD,该部分存储容量大,但I/O速度较慢且受带宽影响限制大;光存储结构ODD,该部分存储容量超大,成本低,适合存储少I/O、低利用的冷数据;基于底层集群存储资源构建资源管理系统,综合管理调度集群存储资源,存储资源以map、reduce任务槽形式表示,根据一些事先对执行map和reduce任务所需存储资源的理解,对给定集群主机上任务槽进行配置,在框架层实现并行;
2)根据超算环境下作业任务I/O的独特属性,对作业进行预处理,特征化超算环境下的作业任务,划分作业类别;智能化调度作业到作业所需数据块的服务器上;经过对已知作业任务的属性的特征化处理,特征化任务类型分别如下:I/O密集型任务、数据存储密集型任务、数据暂存密集型任务、访问性能要求型任务、带宽性能要求型任务、延迟性能要求型任务等;利用已划分特征的任务类别,对提交的作业任务进行智能化分类;存储资源管理系统对已划分属性的超算任务进行智能化分级存储分配,根据已知作业任务I/O特征,匹配作业任务计算所需数据块的存储级别进行计算;
3)设计数据分类模型,应用该模型对计算机辅助药物设计过程中产生的海量数据进行映射存储,并将产生数据分割成数据块分别存储在相应存储级别的多级存储结构的相应存储模块;数据分类模型针对作业任务产生结果数据的突出特征匹配相应多级存储结构,以最优特征匹配为目标值,遍历整个分级存储系统的各级存储,并存储到所匹配的最优存储模块;
4)针对各级存储结构及其特征属性设计相应的I/O方法,针对系统中各级存储资源的状态特性,动态调度I/O请求,优化各级存储结构I/O调度策略,提高各级存储的I/O性能。
所述步骤1)中,基于各级存储架构及其相应设备属性,构建基于分布式多级存储结构的集群资源管理系统;并对各级存储架构进行特征属性划分。
对于存储架构的各级存储模块,其相应特征为:
计算资源主存储器:该部分具有最高I/O性能,受网络带宽性能影响最小,可匹配超算主存储器对I/O密集型作业任务进行处理及存储;
计算资源外存储器HDD+SSD:该部分I/O性能较高,受网络带宽影响较小,可处理存储数据暂存密集型任务;
大数据服务器集群HDD+SSD:该部分上采用非关系型数据库MongoDB搭建分布式数据库管理系统并开放相应I/O访问接口,针对大规模负载进行处理,采用哈希分片的数据分片策略,多节点间的自动负载均衡,实现对计算机辅助药物设计过程中涉及的海量异构药物数据分布式存储以及针对海量异构药物数据基于分布式数据集群的衍生服务平台开发。可处理存储数据存储密集型以及访问性能要求较高的作业任务;
光存储模块ODD:该部分在数据保存时长、保存风险、兼容性、密度、能耗、成本方面都具有很大优势,利用光存储来存储计算机辅助海洋药物设计过程中产生的大量冷数据(少读取、低利用数据),降低数据存储能耗,实现数据节能存储。可存储对于访问性能要求较低的作业任务。
所述步骤1)中,在存储集群上搭建分布式可扩展数据库管理系统;搭建分布式数据库管理系统采用非关系型数据库MongoDB,采用哈希分片的数据分片策略,多节点间的自动负载均衡,实现对计算机辅助药物设计过程中涉及的海量异构药物数据分布式存储以及针对海量异构药物数据基于分布式数据集群的衍生服务平台开发。
所述步骤1)中,作业任务产生的数据可直接存储在其计算节点本地存储设备上,该部分存储资源无需网络传输,具有低延迟I/O,但需要注意的是,该部分存储资源存储容量较小,不适宜存储需大存储容量作业任务的结果数据。
所述步骤1)中,基于分布式多级存储结构的存储资源管理系统,将超算环境内的所有物理存储设备整合为统一的存储资源,实现分布式集群存储资源的管理,通过统一的存储接口对外提供分布式文件系统高性能数据存取操作,存储设备相互之间通过网络连接在一起,统一的管理系统进行逻辑虚拟化管理、多链路冗余管理和状态监控、故障维护,共同构成多级存储资源。同时管理用户、用户组、作业对存储资源的访问请求,包括认证用户权限,管理用户存储空间,满足客户弹性存储需求等。
所述步骤2)中,对超算环境下作业任务进行数据清洗、数据规范化、以及数据特征衍生与提取得到特征全集,对特征全集进行筛选,递归特征消除法得到最优特征子集。
所述步骤3)中,从已有作业任务产生结果数据数据类型中动态学习得到数据分类模型,通过研究、改进、集成多种技术方法,得到对分布式及流动性数据分类的数据分类模型。
所述步骤3)中,数据分类模型根据特征化作业任务属性,以最优特征匹配为目标值,遍历整个分级存储系统的各级存储,直至匹配到最优特征存储资源模块。
所述步骤4)中,设计优化I/O方法,在I/O调度策略中动态多轮迭代I/O调度请求,使得I/O调度算法获得最优性能,结合多级存储设备的各级性能,分析上层应用对各级存储设备的I/O性能的不同需求,分别为各级存储设备设置相应约束条件,提高各级存储的I/O性能。
其中,计算资源主存储器部分具有最高I/O性能,受网络带宽性能影响最小;而计算资源外存储器HDD+SSD部分I/O性能较高,受网络带宽影响较小;
大数据服务器集群HDD+SSD部分上采用非关系型数据库MongoDB搭建分布式数据库管理系统并开放相应I/O访问接口,针对大规模负载进行处理,采用哈希分片的数据分片策略,利用均衡器自动将负载分散到集群的所有分片服务器中,实现对计算机辅助药物设计过程中涉及的海量异构药物数据分布式存储,利用这种分布式数据库的分片存储方式实现并行写入、读取数据,提升大数据服务器集群的I/O性能;
光存储模块ODD部分数据读取速度相对较慢,该部分主要存储计算机辅助海洋药物设计过程中产生的大量冷数据(少读取、低利用数据),重点提升数据写入性能,以页为单位进行并行数据写入,实现超大规模数据的写入。
针对海洋药物研发全过程涉及超大规模多源异构海洋医药大数据,本发明提供一种分级存储优化方法,基于分布式多级存储结构,构建集群资源管理系统,综合管理调度集群存储资源,特征化超算环境下的作业任务,划分作业类别,设计数据分类模型并针对各级存储结构及其特征属性设计相应的I/O方法,提高海洋医药大数据的I/O性能。
利用上述方法对海洋医药大数据来介绍本发明进行分级存储优化的组成步骤及构建方法如下:
对接计算涉及海洋医药大数据包括受体、配体、蛋白质等基础数据以及对接计算生成的打分结果文件,其中配体、受体、蛋白质等分别集成国际上免费公开的ZINC库(1890余万海洋小分子配体数据)、PDB库(上千pdb数据,来源于RCSB Protein Data Bank和其他该领域内权威的数据集网站)等;每一个受体都与1890余万配体小分子对接计算产生约1890余万dok文件,并对对接计算结果dok文件(约20T)进行分级存储,其中,dok文件中含对接计算过程中产生的一系列打分数据,包含ledock软件的分子对接结果,该软件产生的对接计算数据为原始数据。为支持对接结果查询、对接结果三维显示等上层衍生系统的开发,对dok文件进行分级存储,方便用户进行对接结果的查询及展示。
首先进行ZINC库及PDB库数据存储,用户提交对ZINC(Ligands配体)及PDB(pdb受体)存储的作业命令,ZINC库和PDB库需要频繁进行数据读取且数据量较小约50G,数据分类模型遍历资源管理系统下各级存储,匹配最优特征存储资源为计算集群主存储器,进行并行数据写入。
用户通过脚本提交分子对接计算作业,作业预处理模块根据已划分特征任务类型来划分提交作业类型,ZINC库和PDB库需要频繁进行数据读取且数据量较小约50G,属I/O密集型任务,作业所需数据匹配到计算机集群主存储器,向资源管理系统请求数据读取,资源管理系统调度计算机主存储器,并行读取分子计算对接所需数据返回至作业请求方;对分子对接任务产生dok数据进行分级存储,对接计算产生结果数据经过数据分类模型的特征匹配后,资源管理系统对dok数据进行存储,对打分结果较好的结果(小于等于-8)存储利用hash分片方式分片存储至分布式大数据服务器集群中,方便对打分结果进行查询及显示,对打分结果较差(大于-8)的结果以页为单位存储至光存储OOD结构,对使用频率较低的冷数据进行存储备份。
本实施例采用高性能计算集群以及大数据存储服务集群,搭建用于超大规模药物数据的分级存储架构,并基于分布式多级存储结构构建集群存储资源管理系统,对各级存储资源进行综合管理调度;针对所面向集群服务器所特有环境属性,对所提交作业任务进行特征化处理,依据用户所提交作业任务的显著属性从分存储架构级别模块得到相应模块数据块进行处理,并设计数据分类模型对得到结果数据匹配相应模块进行存储,解决超算特殊环境下的I/O问题,提高多级存储结构的I/O性能。本实施例利用国产化的计算机操作平台搭建用于计算机辅助药物设计过程中产生的超大规模药物数据的分级存储架构,提高超算环境下的I/O性能,最终实现超大规模药物数据的异构存储和平台开发利用,进一步支撑计算机辅助药物设计的计算机药物模拟、计算和预算药物与受体生物大分子之间的关系,设计和优化先导化合物的方法等过程,进一步加快整个计算机辅助药物设计的全过程。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种用于超大规模药物数据的分级存储优化方法,其特征在于所述方法包括以下步骤:
1)针对超算集群环境的异质性,构建基于分布式多级存储结构的集群存储资源管理系统,将特定的集群存储资源分配给特定的用户、用户组或作业,其中,集群存储资源包括存储集群和计算集群,整个底层存储结构包括四级,分别为:计算集群主存储器,也即是内存储器;以HDD+SSD为主的计算机集群辅助存储器,也即是外存储器;搭建在存储集群上的分布式大数据服务器集群HDD+SSD;光存储结构ODD;基于底层集群存储资源构建存储资源管理系统综合管理调度集群存储资源,存储资源以map、reduce任务槽形式表示,根据事先对执行map和reduce任务所需存储资源的理解,对给定集群主机上任务槽进行配置,在框架层实现并行;
2)根据超算环境下作业运行对资源需求的独特属性,对作业进行特征化处理,划分作业类别,智能化调度作业到作业所需数据块的服务器上;经过对已知作业任务的属性的特征化处理,特征化任务类型分别如下:I/O密集型任务、数据存储密集型任务、数据暂存密集型任务、访问性能要求型任务、带宽性能要求型任务和延迟性能要求型任务;利用已划分特征的任务类别,对提交的作业任务进行智能化分类;存储资源管理系统对已划分属性的超算任务进行智能化分级存储分配,根据已知作业任务I/O特征,匹配作业任务计算所需数据块的存储级别进行计算;
3)设计数据分类模型,应用该数据分类模型对计算机辅助药物设计过程中产生的海量结果数据进行映射存储,并将产生数据分割成数据块分别存储在相应存储级别的服务器上;数据分类模型针对作业任务产生结果数据特征匹配多级存储结构,以最优特征匹配为目标值,遍历整个分级存储系统的各级存储,并存储到所匹配的最优存储模块;
4)针对各级存储结构及其特征属性设计相应的I/O方法,针对系统中各级存储资源的状态特性,动态调度I/O请求,优化各级存储结构I/O调度策略,提高各级存储的I/O性能。
2.根据权利要求1所述的一种用于超大规模药物数据的分级存储优化方法,所述步骤1)中,在存储集群上搭建分布式可扩展数据库管理系统;搭建分布式数据库管理系统采用非关系型数据库MongoDB,采用哈希分片的数据分片策略,多节点间的自动负载均衡,实现对计算机辅助药物设计过程中涉及的海量异构药物数据分布式存储以及针对海量异构药物数据基于分布式数据集群的衍生服务平台开发。
3.根据权利要求1所述的一种用于超大规模药物数据的分级存储优化方法,所述步骤1)中,利用光存储结构ODD来存储冷数据。
4.根据权利要求1所述的一种用于超大规模药物数据的分级存储优化方法,所述步骤1)中,作业任务产生的数据直接存储在其计算节点本地存储设备上,但不适宜存储需大存储容量作业任务的结果数据。
5.根据权利要求1所述的一种用于超大规模药物数据的分级存储优化方法,所述步骤1)中,基于分布式多级存储结构的存储资源管理系统,将超算环境内的所有物理存储设备整合为统一的存储资源,实现分布式集群存储资源的管理,通过统一的存储接口对外提供分布式文件系统高性能数据存取操作,存储设备相互之间通过网络连接在一起,统一的管理系统进行逻辑虚拟化管理、多链路冗余管理和状态监控、故障维护,共同构成多级存储资源,同时管理用户、用户组、作业对存储资源的访问请求,包括认证用户权限,管理用户存储空间,满足客户弹性存储需求。
6.根据权利要求1所述的一种用于超大规模药物数据的分级存储优化方法,所述步骤2)中特征化任务类型步骤如下:对超算环境下作业任务进行数据清洗、数据规范化、以及数据特征衍生与提取得到特征全集,对特征全集进行筛选,递归特征消除法得到最优特征子集,所述最优特征子集包括:I/O密集型任务、数据存储密集型任务、数据暂存密集型任务、访问性能要求型任务、带宽性能要求型任务和延迟性能要求型任务。
7.根据权利要求1所述的一种用于超大规模药物数据的分级存储优化方法,所述步骤3)中,从已有作业任务产生结果数据数据类型中动态学习得到数据分类模型,通过研究、改进、集成多种技术方法,得到对分布式及流动性数据分类的数据分类模型。
8.根据权利要求1所述的一种用于超大规模药物数据的分级存储优化方法,所述步骤3)中,数据分类模型根据特征化作业任务属性,以最优特征匹配为目标值,遍历整个分级存储系统的各级存储,直至匹配到最优特征存储资源模块。
9.根据权利要求1所述的一种用于超大规模药物数据的分级存储优化方法,所述步骤4)中,设计优化I/O方法,在I/O调度策略中动态多轮迭代I/O调度请求,使得I/O调度算法获得最优性能,结合多级存储设备的各级性能,分析上层应用对各级存储设备的I/O性能需求,分别为各级存储设备设置相应约束条件,提高各级存储的I/O性能。
CN202010009950.6A 2020-01-06 2020-01-06 一种用于超大规模药物数据的分级存储优化方法 Active CN111210879B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010009950.6A CN111210879B (zh) 2020-01-06 2020-01-06 一种用于超大规模药物数据的分级存储优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010009950.6A CN111210879B (zh) 2020-01-06 2020-01-06 一种用于超大规模药物数据的分级存储优化方法

Publications (2)

Publication Number Publication Date
CN111210879A CN111210879A (zh) 2020-05-29
CN111210879B true CN111210879B (zh) 2021-03-26

Family

ID=70788421

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010009950.6A Active CN111210879B (zh) 2020-01-06 2020-01-06 一种用于超大规模药物数据的分级存储优化方法

Country Status (1)

Country Link
CN (1) CN111210879B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111966644A (zh) * 2020-08-12 2020-11-20 南方科技大学 超级计算机数据存储方法、装置、系统及存储介质
CN111966645A (zh) * 2020-08-12 2020-11-20 南方科技大学 超级计算机数据存储方法、装置、系统及存储介质
CN113177088B (zh) * 2021-04-02 2023-07-04 北京科技大学 一种材料辐照损伤多尺度模拟大数据管理系统
CN114664384A (zh) * 2022-03-22 2022-06-24 山东省计算中心(国家超级计算济南中心) 一种基于超算互联网的生物信息分析系统及方法
CN114743613B (zh) * 2022-04-29 2022-11-25 中国海洋大学 基于异构众核架构的超大规模海洋天然产物分子对接方法
CN114817231B (zh) * 2022-06-30 2022-09-30 深圳中科智能技术有限公司 一种冗余数据识别过滤方法及系统
CN115083538B (zh) * 2022-08-23 2022-11-11 中国海洋大学 一种药物数据的处理系统、运行方法及数据处理方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106993064A (zh) * 2017-06-03 2017-07-28 山东大学 一种基于Openstack云平台实现海量数据可伸缩性存储的系统及其构建方法与应用
CN110533112A (zh) * 2019-09-04 2019-12-03 天津神舟通用数据技术有限公司 车联网大数据跨域分析融合方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2404231A1 (en) * 2009-03-02 2012-01-11 International Business Machines Corporation Method, system and computer program product for managing the placement of storage data in a multi tier virtualized storage infrastructure
US8954435B2 (en) * 2011-04-22 2015-02-10 Symantec Corporation Method and system for reclaiming storage on a shared storage device or independent of the mount state of a file system
CN102915373B (zh) * 2012-11-06 2016-08-10 无锡江南计算技术研究所 一种数据存储方法和装置
US20140258672A1 (en) * 2013-03-08 2014-09-11 Microsoft Corporation Demand determination for data blocks
CN103124299A (zh) * 2013-03-21 2013-05-29 杭州电子科技大学 一种异构环境下的分布式块级别存储系统
CN104216988A (zh) * 2014-09-04 2014-12-17 天津大学 分布式大数据的ssd磁盘和hdd磁盘混合存储方法
CN110019225A (zh) * 2017-12-21 2019-07-16 中国移动通信集团重庆有限公司 数据处理的方法、装置、设备及介质
CN109284258A (zh) * 2018-08-13 2019-01-29 华东计算技术研究所(中国电子科技集团公司第三十二研究所) 基于hdfs的分布式多级存储系统及方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106993064A (zh) * 2017-06-03 2017-07-28 山东大学 一种基于Openstack云平台实现海量数据可伸缩性存储的系统及其构建方法与应用
CN110533112A (zh) * 2019-09-04 2019-12-03 天津神舟通用数据技术有限公司 车联网大数据跨域分析融合方法

Also Published As

Publication number Publication date
CN111210879A (zh) 2020-05-29

Similar Documents

Publication Publication Date Title
CN111210879B (zh) 一种用于超大规模药物数据的分级存储优化方法
US11615091B2 (en) Database system implementation of a plurality of operating system layers
Bakshi Considerations for big data: Architecture and approach
US9223820B2 (en) Partitioning data for parallel processing
Szalay et al. Graywulf: Scalable clustered architecture for data intensive computing
US8229916B2 (en) Method for massively parallel multi-core text indexing
US20040244006A1 (en) System and method for balancing a computing load among computing resources in a distributed computing problem
CN102231121B (zh) 基于内存映射的大数据文件快速并行提取方法
Zhang et al. Efficient graph computation on hybrid CPU and GPU systems
CN1955912A (zh) 海量存储系统中的资源分配方法
Shvachko Apache Hadoop
Moise et al. Terabyte-scale image similarity search: experience and best practice
Senthilkumar et al. A survey on job scheduling in big data
Ma et al. Dependency-aware data locality for MapReduce
CN115083538B (zh) 一种药物数据的处理系统、运行方法及数据处理方法
Kostenetskii et al. Simulation of hierarchical multiprocessor database systems
US20210255793A1 (en) System and method for managing conversion of low-locality data into high-locality data
Liu et al. Brps: A big data placement strategy for data intensive applications
Chen et al. Declustering databases on heterogeneous disk systems
Wang et al. HTD: heterogeneous throughput-driven task scheduling algorithm in MapReduce
Liao et al. Optimizing data query performance of Bi-cluster for large-scale scientific data in supercomputers
US11442643B2 (en) System and method for efficiently converting low-locality data into high-locality data
Zhang et al. DeStager: feature guided in-situ data management in distributed deep memory hierarchies
Shen et al. Bi-cluster: A high-performance data query framework for large-scale scientific data
Lu et al. Time-Aware Data Partition Optimization and Heterogeneous Task Scheduling Strategies in Spark Clusters

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant