CN114415978B - 多云集群数据读写方法、装置、存储介质及电子设备 - Google Patents

多云集群数据读写方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN114415978B
CN114415978B CN202210317724.3A CN202210317724A CN114415978B CN 114415978 B CN114415978 B CN 114415978B CN 202210317724 A CN202210317724 A CN 202210317724A CN 114415978 B CN114415978 B CN 114415978B
Authority
CN
China
Prior art keywords
data set
information
cloud cluster
configuration information
cloud
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210317724.3A
Other languages
English (en)
Other versions
CN114415978A (zh
Inventor
吴鹏飞
何思源
王鲲
陈飞
邹懋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Vita Technology Beijing Co ltd
Original Assignee
Vita Technology Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Vita Technology Beijing Co ltd filed Critical Vita Technology Beijing Co ltd
Priority to CN202210317724.3A priority Critical patent/CN114415978B/zh
Publication of CN114415978A publication Critical patent/CN114415978A/zh
Application granted granted Critical
Publication of CN114415978B publication Critical patent/CN114415978B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/061Improving I/O performance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0625Power saving in storage systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0629Configuration or reconfiguration of storage systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0646Horizontal data movement in storage systems, i.e. moving data in between storage devices or systems
    • G06F3/0652Erasing, e.g. deleting, data cleaning, moving of data to a wastebasket
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开涉及一种多云集群数据读写方法、装置、存储介质及电子设备,属于信息技术领域,所述方法包括:响应于接收到用于存储数据集的存储请求,根据所述数据集的属性信息,确定预先配置的存储配置信息中对应所述属性信息的目标配置信息,其中,所述目标配置信息包括配置数据集副本数量的第一信息,配置数据集各副本的分布标签的第二信息,以及配置数据集副本在每一所述分布标签上的分布概率的第三信息;根据所述第一信息生成所述数据集的副本;根据各所述云集群预先配置的属性标签,确定与所述第二信息表征的分布标签匹配的目标云集群;根据所述第三信息表征的分布概率向所述目标云集群分发所述数据集的副本。

Description

多云集群数据读写方法、装置、存储介质及电子设备
技术领域
本公开涉及信息技术领域,具体地,涉及一种多云集群数据读写方法、装置、存储介质及电子设备。
背景技术
混合云、多云是未来信息技术基础设施的主流发展方向,但是目前混合云、多云方案落地面临复杂的数据引力问题,而多云数据管理与控制则是处理该问题的核心之一。在相关技术中,传统的内容分发网络(CDN)采用了数据全量分发的方式,存储效率低下,资源消耗巨大,无法满足现有的需求。
发明内容
为了解决相关技术中存在的问题,本公开提供一种多云集群数据读写方法、装置、存储介质及电子设备。
为了实现上述目的,本公开第一方面提供一种多云集群数据读写方法,所述方法包括:
响应于接收到用于存储数据集的存储请求,根据所述数据集的属性信息,确定预先配置的存储配置信息中对应所述属性信息的目标配置信息,其中,所述目标配置信息包括配置数据集副本数量的第一信息,配置数据集各副本的分布标签的第二信息,以及配置数据集副本在每一所述分布标签上的分布概率的第三信息;
根据所述第一信息生成所述数据集的副本;
根据各所述云集群预先配置的属性标签,确定与所述第二信息表征的分布标签匹配的目标云集群;
根据所述第三信息表征的分布概率向所述目标云集群分发所述数据集的副本。
可选地,所述方法包括:
根据用户针对所述数据集中数据的访问情况,调整所述数据集的副本在各所述云集群之间的分布。
可选地,所述分布标签为分布位置标签,
所述根据用户针对所述数据集中数据的访问情况,调整所述数据集的副本在各所述云集群之间的分布包括:
响应于用户在第一位置发起对数据集的访问,确定存储所述数据集的副本的云集群是否包括具有对应于所述第一位置的属性标签的第一云集群;在所述存储所述数据集的副本的云集群中不包括所述第一云集群的情况下,在所述第一云集群中存储一份所述数据集的副本。
可选地,所述根据用户针对所述数据集中数据的访问情况,调整所述数据集的副本在各所述云集群之间的分布包括:
根据所述访问情况确定存储所述数据集的副本的云集群中,所述数据集中的数据最少被访问的云集群为淘汰云集群,或者,从存储所述数据集的副本的云集群中,确定所述属性标签不包括特殊标签的第二云集群,根据所述访问情况确定所述第二云集群中,所述数据集中的数据最少被访问的云集群为淘汰云集群;
将所述淘汰云集群中存储的所述数据集的副本删除。
可选地,所述将所述淘汰云集群中存储的所述数据集的副本删除包括:
将所述淘汰云集群中存储的数据集的副本标注为逻辑删除;
响应于满足预设条件,将标注为逻辑删除的副本进行物理删除。
可选地,所述方法包括:
监控各所述云集群中存储的所述数据集的副本总数量;
响应于监控到所述副本总数量与所述第一信息不匹配,根据所述目标配置信息重新在各所述云集群中存储所述数据集。
可选地,所述存储配置信息包括全局存储配置信息,和范围存储配置信息;
所述根据所述数据集的属性信息,确定预先配置的存储配置信息中,对应所述属性信息的目标配置信息包括:
在所述范围存储配置信息中存在与所述属性信息匹配的配置信息的情况下,将该配置信息作为所述目标配置信息;
范围存储配置信息中不存在与所述属性信息匹配的配置信息的情况下,将所述全局存储配置信息作为所述目标配置信息。
本公开第二方面提供一种多云集群数据读写装置,所述装置包括:
第一确定模块,用于响应于接收到用于存储数据集的存储请求,根据所述数据集的属性信息,确定预先配置的存储配置信息中对应所述属性信息的目标配置信息,其中,所述目标配置信息包括配置数据集副本数量的第一信息,配置数据集各副本的分布标签的第二信息,以及配置数据集副本在每一所述分布标签上的分布概率的第三信息;
生成模块,用于根据所述第一信息生成所述数据集的副本;
第二确定模块,用于根据各所述云集群预先配置的属性标签,确定与所述第二信息表征的分布标签匹配的目标云集群;
分发模块,用于根据所述第三信息表征的分布概率向所述目标云集群分发所述数据集的副本。
本公开第三方面提供一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本公开第一方面中任一项所述方法的步骤。
本公开第四方面提供一种电子设备,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现本公开第一方面中任一项所述方法的步骤。
通过上述技术方案,通过预先对云集群设置属性标签,并根据数据集的属性信息,确定与该属性信息的对应的配置信息,以将该数据集的副本合理地分发至不同的云集群,有效地实现了针对每一个数据集的读写特性动态调整数据副本的存储方案,并且无需在所有多云集群上进行全量复制分发,显著地提高了存储效率,降低了资源损耗。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1是根据一示例性实施例示出的一种多云集群数据读写方法的流程图;
图2是根据一示例性实施例示出的一种多云集群的示意图;
图3是根据一示例性实施例示出的一种多云集群数据读写装置的框图;
图4是根据一示例性实施例示出的一种电子设备的框图;
图5是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
混合云、多云是未来信息技术基础设施的主流发展方向,但是目前混合云、多云方案落地面临复杂的数据引力问题,而多云数据管理与控制则是处理该问题的核心之一。在相关技术中,传统的内容分发网络(CDN)采用了数据全量分发的方式,存储效率低下,资源消耗巨大,无法满足现有的需求。
与传统的内容分发网络不同,多云数据读写要求数据于多云上存在多副本,以加速用户业务,多云数据并不需要在所有多云集群上进行全量复制分发,因为除个别热点公共数据,单一数据集只会被固定单一用户使用。多集群场景下,用户在何处读写数据,通常由系统控制面控制,并不由用户自发决定。
考虑到上述技术问题,本公开提供一种多云集群数据读写方法,图1是根据一示例性实施例示出的一种多云集群数据读写方法的流程图,该方法的执行主体可以是为所述多云集群配置的具备信息处理能力的中央处理器,也可以是该多云集群中的任一集群,或者该多云集群的控制系统。如图1所示,所述方法包括:
S101、响应于接收到用于存储数据集的存储请求,根据所述数据集的属性信息,确定预先配置的存储配置信息中对应所述属性信息的目标配置信息。其中,所述目标配置信息包括配置数据集副本数量的第一信息,配置数据集各副本的分布标签的第二信息,以及配置数据集副本在每一所述分布标签上的分布概率的第三信息。
可以理解的是,该目标配置信息可以是根据预先收集的用户数据访问特性确定的,示例地,若用户数据访问特性表征处于成都的用户针对该类数据集的访问数据较多,北京的较少,则针对该数据集的目标配置信息可以为{数量:4,分布:{[成都,0.5],[上海,0.3],[北京,0.2]}}。其中,4可以表示配置数据集副本数量的第一信息,即该数据集的副本数量为4,成都、上海以及北京表示数据集各副本的分布标签,0.5、0.3以及0.2分别表示配置数据集副本在每一所述分布标签上的分布概率的第三信息,即,副本分布于成都标签的云的概率为0.5,上海标签的云的概率为0.3,北京标签的云的概率为0.2。
其中,该配置数据集副本数量的第一信息可以根据该多云集群中云的数量确定的,例如,该多云集群包括N个云,则可以将第一信息对应的副本数量配置为N。或者,还可以根据标签列表中标签的个数确定该第一信息对应的副本数量,也可以根据实际需求确定,本公开对该配置数据集副本数量的第一信息的具体确定方法不作限定。
同样的,配置数据集副本在每一所述分布标签上的分布概率的第三信息可以是根据实际需求标定的,也可以是均匀分布的,例如,第二信息包括成都、上海以及北京的分布标签,则各个标签的云被分发到副本的概率可以均为1/3,即,本公开对该配置数据集副本在每一所述分布标签上的分布概率的第三信息的具体确定方法不作限定。
S102、根据所述第一信息生成所述数据集的副本。
S103、根据各所述云集群预先配置的属性标签,确定与所述第二信息表征的分布标签匹配的目标云集群。
其中,针对各个云集群,可以预先配置不同的属性标签,例如,可以配置用于表征云集群对应的地理位置的位置标签,如北京、上海、成都、重庆等,还可以根据云的性能标注上低性能标签、高性能标签。另外,针对不同的云,还可以配置相同的标签,若一个标签对应多个云的话,则系统可以直接将同标签云判定为一个云组,例如存在两个云分别位于重庆与成都,则可以将这两个云标注上西部标签,以形成西部云组。
图2为根据一示例性实施例示出的一种多云集群的示意图,如图2所示,该多云集群200包括云集群201、云集群202、云集群203、云集群204以及云集群205,其中云集群201、云集群202以及云集群203均配置有西部标签,即,云集群201、云集群202、云集群203构成了西部云组,云集群201还配置有低性能标签,云集群202配置有重庆标签,云集群203配置有成都标签以及高性能标签,云集群204配置有北京标签,云集群205配置有上海标签。可以理解的是,上述多云集群中各个集群之间通信连接。
S104、根据所述第三信息表征的分布概率向所述目标云集群分发所述数据集的副本。
示例地,以目标配置信息为{数量:4,分布:{[成都,0.5],[上海,0.3],[北京,0.2]}}为例,最终的分发结果可以为{[成都,2],[上海,1],[北京,1]},即该数据集在具备成都标签的云上存储有两个副本,具备上海标签的云上存储有一个副本,具备北京标签的云上存储有一个副本。可以理解的是,若存在多个云的具有成都标签时,例如云A以及云B均具有“成都”标签,则该数据集分发至成都标签的两个副本可以分别存储于云A以及云B。
可选地,还可以为云集群设置定特殊标签,特殊标签可以应用特殊的控制策略,实现策略分级。例如,可以设置“西安”为特殊标签,若目标配置信息为{数量:3,分布:{[成都,0.5],[上海,0.5],西安}},则可以表征该数据集的副本在具备西安标签的云集群中固定存储一个副本,其他的副本的以0.5的概率分布于成都标签对应的云集群,0.5的概率分布于上海标签对应的云集群。
在本公开实施例中,通过预先对云集群设置属性标签,并根据数据集的属性信息,确定与该属性信息的对应的配置信息,以将该数据集的副本合理地分发至不同的云集群,有效地实现了针对每一个数据集的读写特性动态调整数据副本的存储方案,并且无需在所有多云集群上进行全量复制分发,显著地提高了存储效率,降低了资源损耗。
可以理解的是,根据如图1所示的方法,按照目标配置信息的基础控制配置将数据集分发至各个云集群后,基础控制配置可能难以覆盖用户实际的数据访问特性。基于以上技术问题,在一些可选地实施例中,所述方法包括:
根据用户针对所述数据集中数据的访问情况,调整所述数据集的副本在各所述云集群之间的分布。
其中,具体地调整副本在各云集群之间的分布的方式可以是缓存淘汰策略,也可以是通过人工智能算法判断数据读写分布特征最终控制数据位置分布的方式实现的。
采用本方案,可以有效地根据用户针对该数据集的访问情况及时地调整数据集在各云集群之间的分布情况,以适应不同用户的访问,提高用户的访问效率。
可选地,所述分布标签为分布位置标签,所述根据用户针对所述数据集中数据的访问情况,调整所述数据集的副本在各所述云集群之间的分布包括:
响应于用户在第一位置发起对数据集的访问,确定存储所述数据集的副本的云集群是否包括具有对应于所述第一位置的属性标签的第一云集群;在所述存储所述数据集的副本的云集群中不包括所述第一云集群的情况下,在所述第一云集群中存储一份所述数据集的副本。
示例地,若该数据集的副本的分布情况为[成都,2],[上海,1],即具备成都标签的云集群存储有两个该数据集的副本,具备上海标签的云集群存储有一个该数据集的副本。响应于用户在天津发起对数据集的访问,即第一位置为天津,若对应于该第一位置的属性标签为北京,且具备北京标签的云集群未存储有该数据集的副本,则可以在具备北京标签的云集群中存储一份该数据集的副本。
在本公开实施例中,响应于用户访问数据集,根据用户的访问位置,在该访问位置对应的属性标签对应的云集群中存储一份该数据集的副本,能够使得数据副本尽可能接近用户读写的位置,避免频繁长距离移动数据带来成本、性能、体验上的多重开销。
在另一些可选地实施例中,所述根据用户针对所述数据集中数据的访问情况,调整所述数据集的副本在各所述云集群之间的分布包括:
根据所述访问情况确定存储所述数据集的副本的云集群中,所述数据集中的数据最少被访问的云集群为淘汰云集群,或者,从存储所述数据集的副本的云集群中,确定所述属性标签不包括特殊标签的第二云集群,根据所述访问情况确定所述第二云集群中,所述数据集中的数据最少被访问的云集群为淘汰云集群;
将所述淘汰云集群中存储的所述数据集的副本删除。
可选地,为了保证数据集的副本数量的一致性,上述确定数据集中的数据最少被访问的云集群为淘汰云集群的步骤,可以是所述在所述第一云集群中存储一份所述数据集的副本的步骤执行完成后再执行的。
示例地,若数据集的副本当前的分布情况为[成都,2],[上海,1],[北京,1],[西安*,1],其中,西安标签为特殊标签。若存储于上海标签的云集群中的副本的访问量低于成都标签、西安标签以及北京标签的云集群,则可以将存储该副本的位置标签为上海的云集群中存储的副本删除。若存储于西安标签的云集群中的副本的访问量最低,存储于上海标签的云集群中的副本的访问量第二低,则可以保留西安标签的云集群中存储的副本,将上海标签的云集群中存储的副本删除,保证在具备西安标签的云集群对应的地区的用户能够快速地访问到该数据集的副本。
采用本方案,根据用户针对不同的云集群中副本的访问数量,将访问数量最低的云集群中的副本删除,能够有效地节省存储成本,或者,还可以通过对云集群设置特殊标签,实现特殊控制策略,即使特殊标签对应的云集群中的副本的访问量最低,也不删除特殊标签对应的云集群中存储的副本,以保证在具备特殊标签的云集群中存储有该数据集的副本。
在一些可选地实施例中,所述将所述淘汰云集群中存储的所述数据集的副本删除包括:
将所述淘汰云集群中存储的数据集的副本标注为逻辑删除;
响应于满足预设条件,将标注为逻辑删除的副本进行物理删除。
其中,该预设条件例如可以是处理器当前处于空闲状态,或者预设时长内为接收到存储请求以及访问请求等,本公开对此不做限定。
采用本方案,通过将需要删除的副本标注为逻辑删除,仅在满足预设条件时再进行物理删除,应用懒删除模式,当数据副本需要删除时,不主动删除,只做逻辑删除,即标注为删除,本方案考虑到了数据访问位置与分布的调整收敛过程较长,采用逻辑删除大幅地提高了系统性能。
可选地,所述方法包括:
监控各所述云集群中存储的所述数据集的副本总数量;
响应于监控到所述副本总数量与所述第一信息不匹配,根据所述目标配置信息重新在各所述云集群中存储所述数据集。
其中,监控副本总数量的方式可以是通过控制系统或者处理器对多云集群中的每一集群设置探活指针,当某一云因故障下线时,能够及时地检测到数据集的副本数量减少,并及时地根据所述目标配置信息重新在各云集群中存储所述数据集。可选地,若某一云集群因故障下线,则可以出发自修复指令,以使得该故障云进行自身修复,若该故障云自修复失败,则可以上报该云级别故障。
采用本方案,通过监控各个云集群中存储的数据集的副本数量,在副本数量不足时,或者副本数量过多时,能够及时的重新分发该数据集的副本,以保证数据集的副本数量。
可选地,所述存储配置信息包括全局存储配置信息,和范围存储配置信息;
所述根据所述数据集的属性信息,确定预先配置的存储配置信息中,对应所述属性信息的目标配置信息包括:
在所述范围存储配置信息中存在与所述属性信息匹配的配置信息的情况下,将该配置信息作为所述目标配置信息;
范围存储配置信息中不存在与所述属性信息匹配的配置信息的情况下,将所述全局存储配置信息作为所述目标配置信息。
示例地,存储配置信息可以包括:配置1:{数量:4,分布:{[成都,0.5],[上海,0.3],[北京,0.2]},范围:全局};配置2:{数量:3,分布:{[北部,0.5],[上海,0.5],西安},范围:范围A};配置3:{数量:5,分布:{[高性能,0.8],[低性能,0.2]},范围:范围B}。若数据集的属性信息与范围B匹配,则该数据集对应的目标配置信息为配置3,即副本数量为5,分布于高性能标签的云集群的概率为0.8,分布于低性能标签的云集群的概率为0.2。若数据集的属性信息与范围A与范围B均不匹配,则该数据集对应的目标配置信息为配置1,即副本数量为4,分布于成都标签的云集群的概率为0.5,分布于上海标签的概率为0.3,分布于北京标签的概率为0.2。
采用本方案,通过设置存储配置信息的全局存储配置信息以及范围存储配置信息,能够更加精准地控制不同数据集的存储方案,以及副本的分布情况,提高了控制多云数据的灵活性。
应理解的是,在上述多云集群数据读写方法的步骤中,无需针对每一个数据集单独实现主动控制回路。该方法控制回路可以被动触发,即仅在响应于接收到用于存储数据集的存储请求,或者响应于用户在第一位置发起对数据集的访问,或者响应于监控到所述副本总数量与所述第一信息不匹配时才会触发数据的存储以及移动,从而大大减轻系统压力,提高系统的扩展性,以实现多云海量数据级智能控制。
基于相同的发明构思,本公开还提供如图3所示的根据一示例性实施例示出的一种多云集群数据读写装置30的框图,所述装置30包括:
第一确定模块31,用于响应于接收到用于存储数据集的存储请求,根据所述数据集的属性信息,确定预先配置的存储配置信息中对应所述属性信息的目标配置信息,其中,所述目标配置信息包括配置数据集副本数量的第一信息,配置数据集各副本的分布标签的第二信息,以及配置数据集副本在每一所述分布标签上的分布概率的第三信息;
生成模块32,用于根据所述第一信息生成所述数据集的副本;
第二确定模块33,用于根据各所述云集群预先配置的属性标签,确定与所述第二信息表征的分布标签匹配的目标云集群;
分发模块34,用于根据所述第三信息表征的分布概率向所述目标云集群分发所述数据集的副本。
可选地,所述装置30包括:
调整模块,用于根据用户针对所述数据集中数据的访问情况,调整所述数据集的副本在各所述云集群之间的分布。
可选地,所述分布标签为分布位置标签,所述调整模块具体用于:
响应于用户在第一位置发起对数据集的访问,确定存储所述数据集的副本的云集群是否包括具有对应于所述第一位置的属性标签的第一云集群;在所述存储所述数据集的副本的云集群中不包括所述第一云集群的情况下,在所述第一云集群中存储一份所述数据集的副本。
可选地,所述调整模块还用于:
根据所述访问情况确定存储所述数据集的副本的云集群中,所述数据集中的数据最少被访问的云集群为淘汰云集群,或者,从存储所述数据集的副本的云集群中,确定所述属性标签不包括特殊标签的第二云集群,根据所述访问情况确定所述第二云集群中,所述数据集中的数据最少被访问的云集群为淘汰云集群;
将所述淘汰云集群中存储的所述数据集的副本删除。
可选地,所述调整模块还用于:
将所述淘汰云集群中存储的数据集的副本标注为逻辑删除;
响应于满足预设条件,将标注为逻辑删除的副本进行物理删除。
可选地,所述装置30包括:
监控模块,用于监控各所述云集群中存储的所述数据集的副本总数量;
第二分发模块,用于响应于监控到所述副本总数量与所述第一信息不匹配,根据所述目标配置信息重新在各所述云集群中存储所述数据集。
可选地,所述存储配置信息包括全局存储配置信息,和范围存储配置信息;
所述第一确定模块31还用于:
在所述范围存储配置信息中存在与所述属性信息匹配的配置信息的情况下,将该配置信息作为所述目标配置信息;
范围存储配置信息中不存在与所述属性信息匹配的配置信息的情况下,将所述全局存储配置信息作为所述目标配置信息。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图4是根据一示例性实施例示出的一种电子设备400的框图。如图4所示,该电子设备400可以包括:处理器401,存储器402。该电子设备400还可以包括多媒体组件403,输入/输出(I/O)接口404,以及通信组件405中的一者或多者。
其中,处理器401用于控制该电子设备400的整体操作,以完成上述的多云集群数据读写方法中的全部或部分步骤。存储器402用于存储各种类型的数据以支持在该电子设备400的操作,这些数据例如可以包括用于在该电子设备400上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如数据集、数据集的副本、存储配置信息等等。该存储器402可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。多媒体组件403可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器402或通过通信组件405发送。音频组件还包括至少一个扬声器,用于输出音频信号。I/O接口404为处理器401和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件405用于该电子设备400与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near FieldCommunication,简称NFC),2G、3G、4G、NB-IOT、eMTC、或其他5G等等,或它们中的一种或几种的组合,在此不做限定。因此相应的该通信组件405可以包括:Wi-Fi模块,蓝牙模块,NFC模块等等。
在一示例性实施例中,电子设备400可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(DigitalSignal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的多云集群数据读写方法。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的多云集群数据读写方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器402,上述程序指令可由电子设备400的处理器401执行以完成上述的多云集群数据读写方法。
图5是根据一示例性实施例示出的一种电子设备500的框图。例如,电子设备500可以被提供为一服务器。参照图5,电子设备500包括处理器522,其数量可以为一个或多个,以及存储器532,用于存储可由处理器522执行的计算机程序。存储器532中存储的计算机程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理器522可以被配置为执行该计算机程序,以执行上述的多云集群数据读写方法。
另外,电子设备500还可以包括电源组件526和通信组件550,该电源组件526可以被配置为执行电子设备500的电源管理,该通信组件550可以被配置为实现电子设备500的通信,例如,有线或无线通信。此外,该电子设备500还可以包括输入/输出(I/O)接口558。电子设备500可以操作基于存储在存储器532的操作系统,例如Windows ServerTM,Mac OSXTM,UnixTM,LinuxTM等等。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的多云集群数据读写方法的步骤。例如,该非临时性计算机可读存储介质可以为上述包括程序指令的存储器532,上述程序指令可由电子设备500的处理器522执行以完成上述的多云集群数据读写方法。
在另一示例性实施例中,还提供一种计算机程序产品,该计算机程序产品包含能够由可编程的装置执行的计算机程序,该计算机程序具有当由该可编程的装置执行时用于执行上述的多云集群数据读写方法的代码部分。
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。

Claims (11)

1.一种多云集群数据读写方法,其特征在于,所述方法包括:
响应于接收到用于存储数据集的存储请求,根据所述数据集的属性信息,确定存储配置信息中对应所述属性信息的目标配置信息,其中,所述目标配置信息包括配置数据集副本数量的第一信息,配置数据集各副本的分布标签的第二信息,以及配置数据集副本在每一所述分布标签上的分布概率的第三信息,所述存储配置信息是基于用户数据访问特性预先配置的;
根据所述第一信息生成所述数据集的副本;
根据各所述云集群预先配置的属性标签,确定与所述第二信息表征的分布标签匹配的目标云集群;
根据所述第三信息表征的分布概率向所述目标云集群分发所述数据集的副本。
2.根据权利要求1所述的方法,其特征在于,所述方法包括:
根据用户针对所述数据集中数据的访问情况,调整所述数据集的副本在各所述云集群之间的分布。
3.根据权利要求2所述的方法,其特征在于,所述分布标签为分布位置标签,
所述根据用户针对所述数据集中数据的访问情况,调整所述数据集的副本在各所述云集群之间的分布包括:
响应于用户在第一位置发起对数据集的访问,确定存储所述数据集的副本的云集群是否包括具有对应于所述第一位置的属性标签的第一云集群;在所述存储所述数据集的副本的云集群中不包括所述第一云集群的情况下,在所述第一云集群中存储一份所述数据集的副本。
4.根据权利要求2所述的方法,其特征在于,所述根据用户针对所述数据集中数据的访问情况,调整所述数据集的副本在各所述云集群之间的分布包括:
根据所述访问情况确定存储所述数据集的副本的云集群中,所述数据集中的数据最少被访问的云集群为淘汰云集群;
将所述淘汰云集群中存储的所述数据集的副本删除。
5.根据权利要求2所述的方法,其特征在于,所述根据用户针对所述数据集中数据的访问情况,调整所述数据集的副本在各所述云集群之间的分布包括:
从存储所述数据集的副本的云集群中,确定所述属性标签不包括特殊标签的第二云集群,根据所述访问情况确定所述第二云集群中,所述数据集中的数据最少被访问的云集群为淘汰云集群,其中,所述特殊标签为应用特殊的控制策略的属性标签,所述特殊的控制策略包括:在具备所述特殊标签的云集群中固定存储一个副本;
将所述淘汰云集群中存储的所述数据集的副本删除。
6.根据权利要求4或5所述的方法,其特征在于,所述将所述淘汰云集群中存储的所述数据集的副本删除包括:
将所述淘汰云集群中存储的数据集的副本标注为逻辑删除;
响应于满足预设条件,将标注为逻辑删除的副本进行物理删除。
7.根据权利要求1-5任一项所述的方法,其特征在于,所述方法包括:
监控各所述云集群中存储的所述数据集的副本总数量;
响应于监控到所述副本总数量与所述第一信息不匹配,根据所述目标配置信息重新在各所述云集群中存储所述数据集。
8.根据权利要求1-5任一项所述的方法,其特征在于,所述存储配置信息包括全局存储配置信息,和范围存储配置信息;
所述根据所述数据集的属性信息,确定预先配置的存储配置信息中,对应所述属性信息的目标配置信息包括:
在所述范围存储配置信息中存在与所述属性信息匹配的配置信息的情况下,将该配置信息作为所述目标配置信息;
范围存储配置信息中不存在与所述属性信息匹配的配置信息的情况下,将所述全局存储配置信息作为所述目标配置信息。
9.一种多云集群数据读写装置,其特征在于,所述装置包括:
第一确定模块,用于响应于接收到用于存储数据集的存储请求,根据所述数据集的属性信息,确定存储配置信息中对应所述属性信息的目标配置信息,其中,所述目标配置信息包括配置数据集副本数量的第一信息,配置数据集各副本的分布标签的第二信息,以及配置数据集副本在每一所述分布标签上的分布概率的第三信息,所述存储配置信息是基于用户数据访问特性预先配置的;
生成模块,用于根据所述第一信息生成所述数据集的副本;
第二确定模块,用于根据各所述云集群预先配置的属性标签,确定与所述第二信息表征的分布标签匹配的目标云集群;
分发模块,用于根据所述第三信息表征的分布概率向所述目标云集群分发所述数据集的副本。
10.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-8中任一项所述方法的步骤。
11.一种电子设备,其特征在于,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1-8中任一项所述方法的步骤。
CN202210317724.3A 2022-03-29 2022-03-29 多云集群数据读写方法、装置、存储介质及电子设备 Active CN114415978B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210317724.3A CN114415978B (zh) 2022-03-29 2022-03-29 多云集群数据读写方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210317724.3A CN114415978B (zh) 2022-03-29 2022-03-29 多云集群数据读写方法、装置、存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN114415978A CN114415978A (zh) 2022-04-29
CN114415978B true CN114415978B (zh) 2022-06-21

Family

ID=81264128

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210317724.3A Active CN114415978B (zh) 2022-03-29 2022-03-29 多云集群数据读写方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN114415978B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108924203A (zh) * 2018-06-25 2018-11-30 深圳市金蝶天燕中间件股份有限公司 数据副本自适应分布方法、分布式计算系统及相关设备
CN111565234A (zh) * 2020-06-24 2020-08-21 北京中科智咨数据科技有限公司 一种副本文件的云安全存储方法、介质及设备
CN113127267A (zh) * 2021-04-30 2021-07-16 郑州师范学院 一种分布式存储环境下强一致性多副本数据访问回应方法
CN113377733A (zh) * 2021-06-09 2021-09-10 西安理工大学 一种针对Hadoop分布式文件系统的存储优化方法
CN113822112A (zh) * 2021-01-20 2021-12-21 北京沃东天骏信息技术有限公司 用于确定标签权重的方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11188235B2 (en) * 2019-11-26 2021-11-30 International Business Machines Corporation Reducing data replications among storage locations

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108924203A (zh) * 2018-06-25 2018-11-30 深圳市金蝶天燕中间件股份有限公司 数据副本自适应分布方法、分布式计算系统及相关设备
CN111565234A (zh) * 2020-06-24 2020-08-21 北京中科智咨数据科技有限公司 一种副本文件的云安全存储方法、介质及设备
CN113822112A (zh) * 2021-01-20 2021-12-21 北京沃东天骏信息技术有限公司 用于确定标签权重的方法和装置
CN113127267A (zh) * 2021-04-30 2021-07-16 郑州师范学院 一种分布式存储环境下强一致性多副本数据访问回应方法
CN113377733A (zh) * 2021-06-09 2021-09-10 西安理工大学 一种针对Hadoop分布式文件系统的存储优化方法

Also Published As

Publication number Publication date
CN114415978A (zh) 2022-04-29

Similar Documents

Publication Publication Date Title
US8949831B2 (en) Dynamic virtual machine domain configuration and virtual machine relocation management
US20200034339A1 (en) Fast recall for geographically distributed object data
US20180081548A1 (en) Storage device efficiency during data replication
US11442897B2 (en) Optimizing content storage through stubbing
WO2017143905A1 (zh) 一种在线升级方法、装置及系统
CN109690494B (zh) 系统存储装置中的分层容错
US11645237B2 (en) Replicating data utilizing a virtual file system and cloud storage
US20200226107A1 (en) Reinforcement learning for optimizing data deduplication
CN114385561A (zh) 文件管理方法和装置及hdfs系统
CN114415978B (zh) 多云集群数据读写方法、装置、存储介质及电子设备
US11068192B1 (en) Utilizing mutiple snapshot sources for creating new copy of volume in a networked environment wherein additional snapshot sources are reserved with lower performance levels than a primary snapshot source
US20200401313A1 (en) Object Storage System with Priority Meta Object Replication
CN114930281A (zh) 动态自适应分区分割
US11977559B2 (en) Providing instant and distributed access to a source blob via copy-on-read blobs and link blobs
US20220405789A1 (en) Selective data deduplication in a multitenant environment
US11455114B1 (en) Consolidation and migration of cloud data
US10712959B2 (en) Method, device and computer program product for storing data
US11552861B2 (en) Efficient way to perform location SLO validation
US11093465B2 (en) Object storage system with versioned meta objects
US11263237B2 (en) Systems and methods for storage block replication in a hybrid storage environment
US10671597B1 (en) Data management system and method
US20200401312A1 (en) Object Storage System with Meta Object Replication
CN114415980B (zh) 多云集群数据管理系统、方法及装置
CN115982101B (zh) 基于多机房副本放置策略的机房数据迁移方法与装置
US11687492B2 (en) Selective data deduplication in a multitenant environment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant