CN114217734B - 一种分布式存储系统数据管理方法 - Google Patents

一种分布式存储系统数据管理方法 Download PDF

Info

Publication number
CN114217734B
CN114217734B CN202110480186.5A CN202110480186A CN114217734B CN 114217734 B CN114217734 B CN 114217734B CN 202110480186 A CN202110480186 A CN 202110480186A CN 114217734 B CN114217734 B CN 114217734B
Authority
CN
China
Prior art keywords
data management
management request
request
storage system
mode
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110480186.5A
Other languages
English (en)
Other versions
CN114217734A (zh
Inventor
余婷
何晓斌
陈起
高洁
肖伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuxi Jiangnan Computing Technology Institute
Original Assignee
Wuxi Jiangnan Computing Technology Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuxi Jiangnan Computing Technology Institute filed Critical Wuxi Jiangnan Computing Technology Institute
Priority to CN202110480186.5A priority Critical patent/CN114217734B/zh
Publication of CN114217734A publication Critical patent/CN114217734A/zh
Application granted granted Critical
Publication of CN114217734B publication Critical patent/CN114217734B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/061Improving I/O performance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0629Configuration or reconfiguration of storage systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种分布式存储系统数据管理方法,包括及时任务模式、定时任务模式和策略模式,所述策略模式下的数据管理方法包括以下步骤:S31、发起数据管理请求;S32、接收到数据管理请求;S33、将数据管理请求分发到组成存储系统的每一个服务器上;S34、每台服务器将数据管理请求记录到待执行队列中;S35、服务器上设置定时的状态收集信息库,根据状态信息库提供的状态信息,执行具体操作;S36、如果在最大时限内没有满足条件的时刻,那么在最大时限到达后,根据数据管理请求执行操作;S37、等待所有服务器执行完成。本发明可以降低在线业务与数据管理之间的冲突,保证在线业务的时效性,同时保证数据管理的可靠性。

Description

一种分布式存储系统数据管理方法
技术领域
本发明涉及一种分布式存储系统数据管理方法,属于高性能计算领域。
背景技术
在高性能计算机系统上普遍使用分布式文件系统构建集中共享的存储环境,以满足应用数据存储和访问的需求。为了平衡性能和成本的关系,通常存储系统分级组成,按照性能从高到底,存储系统可能存在由SSD组成的缓存加速系统,磁盘阵列组成的在线存储系统,sata盘阵或者磁带组成的近线存储系统,整套存储系统可能包括以上的两种或是更多种组合。在此基础上,产生了数据在不同介质组成的存储系统中的迁移需求,传统的方式是采用数据拷贝,定期拷贝和并发拷贝等方法,以上方法有以下限制:1、数据的及时拷贝和定时拷贝会对在线业务产生干扰;2、cp命令或是rsync命令是单客户端执行,效率较低;并发的拷贝如dcp使用mpi的并发拷贝,可能会对更多的在线存储服务产生性能竞争。
在高性能环境中存在异构的分布式存储系统,尤其是分为在线、近线、离线等不同级别的存储系统,数据在不同系统中的迁移和删除等管理工作,在不同的负载和不同的网络等状态下,会对在线课题的存储业务产生不同的影响,同时数据的管理操作也会受到影响。
发明内容
本发明的目的是提供一种分布式存储系统数据管理方法,以解决高性能计算机系统中存在的多种存储资源环境的数据管理难题。
为达到上述目的,本发明采用的技术方案是:提供一种分布式存储系统数据管理方法,包括及时任务模式、定时任务模式和策略模式;
当系统资源丰富,或者是数据管理任务优先级较高时,选择及时任务模式;
当系统I/O使用情况相对规律时,选择定时任务模式;
当系统使用模式复杂,需要保障现时任务时,选择策略模式;
所述及时任务模式下的数据管理方法包括以下步骤:
S11、在管理端发起数据管理请求;
S12、分布式存储系统接收到数据管理请求;
S13、将数据管理请求分发到组成存储系统的每一个服务器上;
S14、每台服务器按照数据管理请求要求,执行具体操作;
S15、等待所有服务器执行完成,将结果进行反馈;
所述定时任务模式下的数据管理方法包括以下步骤:
S21、在管理端发起数据管理请求,并设置该数据管理请求的执行时间点,或者是按照指定周期进行执行的定时任务;
S22、时间点到达,或者是定时的时间到达后,分布式存储系统接收到数据管理请求;
S23、将数据管理请求分发到组成存储系统的每一个服务器上;
S24、每台服务器按照数据管理请求要求,执行具体操作;
S25、等待所有服务器执行完成,将结果进行反馈;
所述策略模式下的数据管理方法包括以下步骤:
S31、在管理端发起数据管理请求,选择为策略反馈模式,以及最大时限;
S32、分布式存储系统接收到数据管理请求;
S33、将数据管理请求分发到组成存储系统的每一个服务器上;
S34、每台服务器接收到数据管理请求,并将数据管理请求记录到待执行队列中;
S35、服务器上设置定时的状态收集信息库,根据状态信息库提供的状态信息,包括cpu利用率、iostat的数据访问率,判断当前的可用资源是否足够,如果足够,根据数据管理请求要求,执行具体操作;
S36、如果在最大时限内没有满足条件的时刻,那么在最大时限到达后,根据数据管理请求执行操作;
S37、等待所有服务器执行完成,将结果进行反馈,记录到执行结果中。
上述技术方案中进一步改进的方案如下:
1. 上述方案中,所述数据管理请求包括数据删除请求、数据备份请求、数据迁移请求。
由于上述技术方案的运用,本发明与现有技术相比具有下列优点:
本发明一种分布式存储系统数据管理方法,将数据管理操作分为及时响应和策略响应,策略响应方法根据存储的负载和可用性选择等,择机在不同的服务器上执行,并将完成的执行结果反馈给用户,降低在线业务与数据管理之间的冲突,保证在线业务的时效性,同时保证数据管理的可靠性。
附图说明
附图1为本发明一种分布式存储系统数据管理方法的流程示意图;
附图2为本发明策略模式下的数据管理方法流程示意图。
具体实施方式
实施例:本发明提供一种分布式存储系统数据管理方法,包括及时任务模式、定时任务模式和策略模式;
当系统资源丰富,或者是数据管理任务优先级较高时,选择及时任务模式;
当系统I/O使用情况相对规律时,选择定时任务模式;
当系统使用模式复杂,需要保障现时任务时,选择策略模式;
所述及时任务模式下的数据管理方法包括以下步骤:
S11、在管理端发起数据管理请求;
S12、分布式存储系统接收到数据管理请求;
S13、将数据管理请求分发到组成存储系统的每一个服务器上;
S14、每台服务器按照数据管理请求要求,执行具体操作;
S15、等待所有服务器执行完成,将结果进行反馈;
所述定时任务模式下的数据管理方法包括以下步骤:
S21、在管理端发起数据管理请求,并设置该数据管理请求的执行时间点,或者是按照指定周期进行执行的定时任务;
S22、时间点到达,或者是定时的时间到达后,分布式存储系统接收到数据管理请求;
S23、将数据管理请求分发到组成存储系统的每一个服务器上;
S24、每台服务器按照数据管理请求要求,执行具体操作;
S25、等待所有服务器执行完成,将结果进行反馈;
所述策略模式下的数据管理方法包括以下步骤:
S31、在管理端发起数据管理请求,选择为策略反馈模式,以及最大时限;
S32、分布式存储系统接收到数据管理请求;
S33、将数据管理请求分发到组成存储系统的每一个服务器上;
S34、每台服务器接收到数据管理请求,并将数据管理请求记录到待执行队列中;
S35、服务器上设置定时的状态收集信息库,根据状态信息库提供的状态信息,包括cpu利用率、iostat的数据访问率,判断是否当前的可用资源是否足够,如果足够,根据数据管理请求要求,执行具体操作;
S36、如果在最大时限内没有满足条件的时刻,那么在最大时限到达后,根据数据管理请求执行操作;
S37、等待所有服务器执行完成,将结果进行反馈,记录到执行结果中。
上述数据管理请求包括数据删除请求、数据备份请求、数据迁移请求。
对上述实施例的进一步解释如下:
本发明提出一种基于反馈式的数据管理方法,该方法提供不同的管理选项,根据管理需求,将数据管理操作划分为三种模式:
第一种是及时模式,该模式下数据的管理操作及时响应,可能会对应用产生具体影响;
第二种是定时模式,该模式下的数据管理操作按照用户设置的时间要求,对数据执行相关操作;
第三章是反馈模式,该模式下的数据管理操作将会被挂起,当系统判断当前在线业务的I/O流量较小时,执行数据管理操作,将操作结果进行反馈,避免对在线系统业务产生影响,主要流程如图1所示。
对于及时任务和定时任务都是常见的数据管理操作,本发明主要在此基础上增加策略性任务,因为策略性任务是和系统的状态相关联,根据系统在不同状态下做出不同的策略执行方案。
将大量资源投入单次数据传输,可以大大降低用户的数据迁移时间,但是容易影响统一环境下的其他用户和流程。例如,高负载的CPU在前端系统上可能导致交互式响应时间变长,文件系统过载会降低作业中的I / O速率导致计算资源浪费,通常,更多的用户更充分利用并行化能力的潜力,会给资源带来更多的竞争,以致枯竭。
策略性的数据管理支持多个调控方案,允许用户在使用并行资源的同时保持存储资源稳定。客户端主机可以分别以给定的CPU百分比(目标磁盘),I/O速率和网络速率下进行调节使用率。这些可以由直接访问指定,这样数据管理操作就不会占用太多自己系统的资源,或者可以集中指定所有的数据传输。
策略性的数据管理支持调控全局范围内涉及系统内的所有用户,策略管控可以进行统一的调度,根据优先级或是提交的时间的先后顺序或者是截止时间的先后顺序进行全局管理调度。
采用上述一种分布式存储系统数据管理方法时,其将数据管理操作分为及时响应和策略响应,策略响应方法根据存储的负载和可用性选择等,择机在不同的服务器上执行,并将完成的执行结果反馈给用户,降低在线业务与数据管理之间的冲突,保证在线业务的时效性,同时保证数据管理的可靠性。
上述实施例只为说明本发明的技术构思及特点,其目的在于让熟悉此项技术的人士能够了解本发明的内容并据以实施,并不能以此限制本发明的保护范围。凡根据本发明精神实质所作的等效变化或修饰,都应涵盖在本发明的保护范围之内。

Claims (2)

1.一种分布式存储系统数据管理方法,其特征在于,包括及时任务模式、定时任务模式和策略模式;
当系统资源丰富,或者是数据管理任务优先级较高时,选择及时任务模式;
当系统I/O使用情况相对规律时,选择定时任务模式;
当系统使用模式复杂,需要保障现时任务时,选择策略模式;
所述及时任务模式下的数据管理方法包括以下步骤:
S11、在管理端发起数据管理请求;
S12、分布式存储系统接收到数据管理请求;
S13、将数据管理请求分发到组成存储系统的每一个服务器上;
S14、每台服务器按照数据管理请求要求,执行具体操作;
S15、等待所有服务器执行完成,将结果进行反馈;
所述定时任务模式下的数据管理方法包括以下步骤:
S21、在管理端发起数据管理请求,并设置该数据管理请求的执行时间点,或者是按照指定周期进行执行的定时任务;
S22、时间点到达,或者是定时的时间到达后,分布式存储系统接收到数据管理请求;
S23、将数据管理请求分发到组成存储系统的每一个服务器上;
S24、每台服务器按照数据管理请求要求,执行具体操作;
S25、等待所有服务器执行完成,将结果进行反馈;
所述策略模式下的数据管理方法包括以下步骤:
S31、在管理端发起数据管理请求,选择为策略反馈模式,以及最大时限;
S32、分布式存储系统接收到数据管理请求;
S33、将数据管理请求分发到组成存储系统的每一个服务器上;
S34、每台服务器接收到数据管理请求,并将数据管理请求记录到待执行队列中;
S35、服务器上设置定时的状态收集信息库,根据状态信息库提供的状态信息,包括cpu利用率、iostat的数据访问率,判断当前的可用资源是否足够,如果足够,根据数据管理请求要求,执行具体操作;
S36、如果在最大时限内没有满足条件的时刻,那么在最大时限到达后,根据数据管理请求执行操作;
S37、等待所有服务器执行完成,将结果进行反馈,记录到执行结果中。
2.根据权利要求1所述的一种分布式存储系统数据管理方法,其特征在于:所述数据管理请求包括数据删除请求、数据备份请求、数据迁移请求。
CN202110480186.5A 2021-04-30 2021-04-30 一种分布式存储系统数据管理方法 Active CN114217734B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110480186.5A CN114217734B (zh) 2021-04-30 2021-04-30 一种分布式存储系统数据管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110480186.5A CN114217734B (zh) 2021-04-30 2021-04-30 一种分布式存储系统数据管理方法

Publications (2)

Publication Number Publication Date
CN114217734A CN114217734A (zh) 2022-03-22
CN114217734B true CN114217734B (zh) 2023-10-27

Family

ID=80695833

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110480186.5A Active CN114217734B (zh) 2021-04-30 2021-04-30 一种分布式存储系统数据管理方法

Country Status (1)

Country Link
CN (1) CN114217734B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101464810A (zh) * 2008-12-31 2009-06-24 金蝶软件(中国)有限公司 服务程序处理方法及服务器
CN103338252A (zh) * 2013-06-27 2013-10-02 南京邮电大学 一种分布式数据库并发存储虚拟请求机制
CN104378423A (zh) * 2014-11-13 2015-02-25 普华基础软件股份有限公司 元数据集群分布式存储系统及读取、写入存储数据的方法
CN110737514A (zh) * 2019-09-26 2020-01-31 腾讯科技(深圳)有限公司 一种确保分布式事务最终数据一致性的方法、装置及介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11470146B2 (en) * 2018-08-25 2022-10-11 Panzura, Llc Managing a cloud-based distributed computing environment using a distributed database

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101464810A (zh) * 2008-12-31 2009-06-24 金蝶软件(中国)有限公司 服务程序处理方法及服务器
CN103338252A (zh) * 2013-06-27 2013-10-02 南京邮电大学 一种分布式数据库并发存储虚拟请求机制
CN104378423A (zh) * 2014-11-13 2015-02-25 普华基础软件股份有限公司 元数据集群分布式存储系统及读取、写入存储数据的方法
CN110737514A (zh) * 2019-09-26 2020-01-31 腾讯科技(深圳)有限公司 一种确保分布式事务最终数据一致性的方法、装置及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于云计算的海量图片存储管理系统研究;姚书科;张韧志;;电子设计工程(第11期);全文 *

Also Published As

Publication number Publication date
CN114217734A (zh) 2022-03-22

Similar Documents

Publication Publication Date Title
US7933995B2 (en) Computer program and apparatus for controlling computing resources, and distributed processing system
CN100533387C (zh) 执行作业步的系统和方法
US7516221B2 (en) Hierarchical management of the dynamic allocation of resources in a multi-node system
US7613878B2 (en) Management of number of disk groups that can be activated in storage device
JP2008015888A (ja) 負荷分散制御システム及び負荷分散制御方法
US8892780B2 (en) Management of shared storage I/O resources
US20100223618A1 (en) Scheduling jobs in a cluster
CN102981929B (zh) 磁盘镜像的管理方法和系统
EP1654648B1 (en) Hierarchical management of the dynamic allocation of resources in a multi-node system
WO2021057108A1 (zh) 一种读数据方法、写数据方法及服务器
JP2005196602A (ja) 無共有型データベース管理システムにおけるシステム構成変更方法
US10148531B1 (en) Partitioned performance: adaptive predicted impact
CN104050042A (zh) Etl作业的资源分配方法及装置
CN105005611A (zh) 一种文件管理系统及文件管理方法
JP2021026659A (ja) ストレージシステム及びリソース割当て制御方法
US10033620B1 (en) Partitioned performance adaptive policies and leases
CN114217734B (zh) 一种分布式存储系统数据管理方法
Wang et al. Provision of storage QoS in distributed file systems for clouds
Wei A novel energy optimized and workload adaptive modeling for live migration
CN114201119B (zh) 一种超级计算机作业数据分层存储系统及方法
In et al. SPHINX: A fault-tolerant system for scheduling in dynamic grid environments
CN110399206B (zh) 一种基于云计算环境下idc虚拟化调度节能系统
US20230161620A1 (en) Pull mode and push mode combined resource management and job scheduling method and system, and medium
Yeh et al. Realizing prioritized scheduling service in the Hadoop system
CN112685130A (zh) 分布式存储环境下的虚拟机备份方法、装置和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant