CN114115697B - 云存储数据处理方法、装置、电子设备和存储介质 - Google Patents

云存储数据处理方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN114115697B
CN114115697B CN202010871838.3A CN202010871838A CN114115697B CN 114115697 B CN114115697 B CN 114115697B CN 202010871838 A CN202010871838 A CN 202010871838A CN 114115697 B CN114115697 B CN 114115697B
Authority
CN
China
Prior art keywords
data
data object
written
size
redundancy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010871838.3A
Other languages
English (en)
Other versions
CN114115697A (zh
Inventor
姚婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Uniview Technologies Co Ltd
Original Assignee
Zhejiang Uniview Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Uniview Technologies Co Ltd filed Critical Zhejiang Uniview Technologies Co Ltd
Priority to CN202010871838.3A priority Critical patent/CN114115697B/zh
Publication of CN114115697A publication Critical patent/CN114115697A/zh
Application granted granted Critical
Publication of CN114115697B publication Critical patent/CN114115697B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0614Improving the reliability of storage systems
    • G06F3/0619Improving the reliability of storage systems in relation to data integrity, e.g. data losses, bit errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1448Management of the data involved in backup or backup restore
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1458Management of the backup or restore process
    • G06F11/1464Management of the backup or restore process for networked environments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0646Horizontal data movement in storage systems, i.e. moving data in between storage devices or systems
    • G06F3/0652Erasing, e.g. deleting, data cleaning, moving of data to a wastebasket
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]

Abstract

本发明实施例公开了一种云存储数据处理方法、装置、电子设备和存储介质。该云存储数据处理方法包括:接收到待写入数据的覆盖写指令后,确定待写入的数据对象;根据所述待写入数据的大小与所述数据对象的大小的比较结果,将所述待写入数据覆盖所述数据对象,并删除所述数据对象在关联的对象存储设备中的已有数据。本发明实施例基于对数据对象的覆盖写指令,直接在已有存储数据的数据对象中将待写入数据写入,省去对数据对象中已有数据恢复重建的过程,并在待写入数据覆盖数据对象后,删除该数据对象在关联的对象存储设备中的已有数据分片。实现待写入数据的冗余和一致性,优化重建和数据迁移过程中的数据写流程。

Description

云存储数据处理方法、装置、电子设备和存储介质
技术领域
本发明实施例涉及存储技术领域,尤其涉及一种云存储数据处理方法、装置、电子设备和存储介质。
背景技术
覆盖写是存储系统中一种常见的数据写入方式,是指在已写入的数据的基础上覆盖新写入的数据。在很多应用场景均采用覆盖写的方式执行写操作,例如在存储节点或磁盘故障的情况下,通常采用覆盖写的方式实现存储节点或磁盘中的数据冗余。
但是现有技术中在采用覆盖写的方式对存储节点或磁盘进行操作时,首先需要对存储节点或磁盘中的已有数据进行数据重建,完成数据重建后才能写入新数据。在数据重建失败的情况下,会造成写入业务无法进行,影响数据覆盖写的效率。
发明内容
本发明实施例提供一种云存储数据处理方法、装置、电子设备和存储介质,以提高云存储的存储节点或磁盘故障时覆盖写的效率。
第一方面,本发明实施例提供了一种云存储数据处理方法,包括:
接收到待写入数据的覆盖写指令后,确定待写入的数据对象;其中,所述数据对象包括如下至少一种:待重建的数据对象、待迁移的数据对象和失效的数据对象;
根据所述待写入数据的大小与所述数据对象的大小的比较结果,将所述待写入数据覆盖所述数据对象,并删除所述数据对象在关联的对象存储设备中的已有数据。
第二方面,本发明实施例还提供了一种云存储数据处理装置,包括:
数据对象确定模块,用于接收到待写入数据的覆盖写指令后,确定待写入的数据对象;其中,所述数据对象包括如下至少一种:待重建的数据对象、待迁移的数据对象和失效的数据对象;
覆盖写模块,用于根据所述待写入数据的大小与所述数据对象的大小的比较结果,将所述待写入数据覆盖所述数据对象,并删除所述数据对象在关联的对象存储设备中的已有数据。
第三方面,本发明实施例还提供了一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明任一实施例所述的云存储数据处理方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任一实施例所述的云存储数据处理方法。
本发明实施例基于对数据对象的覆盖写指令,直接在已有存储数据的数据对象中将待写入数据写入,省去对数据对象中已有数据恢复重建的过程或对象数据迁移的过程,在原有数据对象失效时保证覆盖写继续业务不中断,并在待写入数据覆盖数据对象后,删除该数据对象在关联的对象存储设备中的已有数据分片。实现待写入数据的冗余和一致性,优化重建和数据迁移过程中的数据写流程,保证原有失效数据对象写业务的连续性。
附图说明
图1是本发明实施例一中的云存储数据处理方法的流程图;
图2是本发明实施例二中的云存储数据处理方法的流程图;
图3是本发明实施例三中的云存储数据处理方法的流程图;
图4是本发明实施例三中的数据写入的示意图;
图5是本发明实施例三中的数据写入的示意图;
图6是本发明实施例四中的云存储数据处理装置的结构示意图;
图7是本发明实施例五中的电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1是本发明实施例一中的云存储数据处理方法的流程图,本实施例可适用于对故障或待数据迁移的磁盘或存储节点进行覆盖写的情况。该方法可以由云存储数据处理装置来执行,该装置可以采用软件和/或硬件的方式实现,并可配置在电子设备中,例如设备可以是后台服务器等具有通信和计算能力的设备。如图1所示,该方法具体包括:
步骤101、接收到待写入数据的覆盖写指令后,确定待写入的数据对象;其中,数据对象包括如下至少一种:待重建的数据对象、待迁移的数据对象和失效的数据对象。
其中,覆盖写指令是指在已写入数据的数据对象中用新写入的数据覆盖旧数据,尤其在存储数据的磁盘或节点故障的时候,原有存储在磁盘或节点中的旧数据已不可用,因此需要将待写入的新数据覆盖在旧数据上,以保证数据的冗余。待写入数据是指新数据,可以根据存储需求进行确定。
数据对象(Object)是指云存储底层数据存储和数据组织管理单元,即存储数据的基本单元。待写入的数据对象是指数据对象所在磁盘或存储节点故障或需要进行数据迁移的存储单元,示例性的,在分布式云存储系统中,为了保证数据的冗余性,将存储数据离散分布存储在多个存储设备的多个磁盘中,即通过多幅本或纠删码对离散存储的数据进行数据冗余保护。而当磁盘或存储节点中的数据冗余性不够,即磁盘或存储节点发生故障时,该磁盘或存储节点的数据对象中的旧数据将无法恢复或者数据冗余性较低不具备存储价值,则该数据对象为待写入的数据对象,需要用新数据去覆盖旧数据,以保证数据对象中存储数据的冗余性。
待重建的数据对象包括故障磁盘或节点中的数据对象,而故障磁盘或节点是指存储的数据冗余度达不到标准的存储空间,数据冗余度达不到标准包括两种,其中一种是存储的数据仍存在一定的冗余度,即仍可以根据旧数据进行恢复,但是一旦旧数据中缺少任一数据,则导致数据难以恢复;另外一种是存储的数据已经超过冗余范围,对应的数据对象中的原有数据丢失,无法读写。待迁移的数据对象是指针对云存储磁盘或节点扩容时,数据对象中的数据分布策略发生变更,需要对数据对象中的数据进行重新分布存储,以达到数据的分布均衡。失效的数据对象是指完全故障磁盘或节点中的数据对象,且磁盘或节点中的数据无法恢复。
具体的,接收到待写入数据的覆盖写指令后,确定待写入的故障磁盘或节点中的数据对象。示例性的,可以通过磁盘或节点的故障标志或者对磁盘或节点的冗余度进行判断,从而确定待写入的数据对象,以执行对在该数据对象中覆盖写待写入新数据的指令。
步骤102、根据所述待写入数据的大小与所述数据对象的大小的比较结果,将所述待写入数据覆盖所述数据对象,并删除数据对象在关联的对象存储设备中的已有数据。
由于常用的对故障磁盘或节点进行覆盖写时,需要对故障磁盘或节点中的数据对象中的数据进行先恢复重建,重建完成后再执行覆盖写的动作。而在本申请中确定待写入的数据对象后,直接进行将待写入数据覆盖数据对象的动作,即直接用新数据覆盖数据对象中的旧数据,避免对旧数据的恢复重建。并且在将待写入数据覆盖数据对象后,删除该数据对象在存储关联的对象存储设备中的已有数据。示例性的,按照旧数据的数据分布冗余策略,数据对象在相应的对象存储设备中存在分片数据,则在按照待写入数据对应的新的数据分布冗余策略进行覆盖写时,将新数据写入数据对象,并将数据对象存储在对应的对象存储设备中,达到数据的冗余和一致性。
由于待写入数据的大小不同,所占数据对象的空间也不同,因此根据待写入数据的大小与数据对象的大小的比较结果,确定是否可以对数据对象进行全写,进而根据比较结果将待写入数据覆盖数据对象中。示例性的,若待写入数据可以对数据对象进行全写,则直接将新数据覆盖在旧数据上;若待写入数据不能对数据对象进行全写,则根据新数据和一部分旧数据确定数据对象的写入内容。
在一个可行的实施例中,根据待写入数据的大小与数据对象的大小的比较结果,将待写入数据覆盖数据对象,包括:
若待写入数据的大小大于等于数据对象的大小,则确定待写入数据为数据对象的覆盖写入内容;
若待写入数据的大小小于数据对象的大小,则根据待写入数据和数据对象中的已有数据确定数据对象的覆盖写入内容。
若待写入数据的所占空间大于等于数据对象的存储空间,表明待写入数据可以占满数据对象,则直接根据待写入数据确定数据对象的写入内容。
若待写入数据的所占空间小于数据对象的存储空间,表明仅待写入数据无法占满数据对象的所有空间,则根据待写入的新数据和数据对象中的旧数据确定数据对象的写入内容。示例性的,先将待写入数据覆盖在数据对象中,并提取数据对象中未被覆盖的旧数据,与新数据进行拼接,从而确定数据对象的写入内容。其中,对于数据对象中的旧数据,若数据对象仍存在一定的冗余度,即可以恢复重建,则可以提取旧数据;若数据对象的冗余度超过范围,则表示该数据对象不可被读写,则旧数据可以用预先设置的补充数据进行确定,例如用零进行填充。
本发明实施例基于对数据对象的覆盖写指令,直接在已有存储数据的数据对象中将待写入数据写入,省去对数据对象中已有数据恢复重建的过程或对象数据迁移的过程,在原有数据对象失效时保证覆盖写继续业务不中断,并在待写入数据覆盖数据对象后,删除该数据对象在关联的对象存储设备中的已有数据分片。实现待写入数据的冗余和一致性,优化重建和数据迁移过程中的数据写流程,保证原有失效数据对象写业务的连续性。
实施例二
图2是本发明实施例二中的云存储数据处理方法的流程图,本实施例二在实施例一的基础上进行进一步地优化。如图2所示,所述方法包括:
步骤201、接收到待写入数据的覆盖写指令后,确定待写入的数据对象;其中,数据对象包括如下至少一种:待重建的数据对象、待迁移的数据对象和失效的数据对象。
步骤202、确定数据对象的冗余度和预设冗余范围的比较结果。
其中,为了保证存储数据的高访问性以及提高性能,使得对数据的频繁读写操作可以顺利进行。常用的提高存储数据冗余度的方法有多副本存储和纠删码存储等,多副本存储是云存储数据冗余保护方式,根据冗余度的需要一份数据可以复制1份或多份存放于不同存储节点上,资源利用率最大为50%,纠删码存储也是一种云存储数据冗余保护方式,利用K+M纠删码实现M个存储节点冗余,K为原始存储数据,其资源利用率为K/(K+M)。
但是当存储的数据的资源利用率增加时,表示该存储数据的冗余度出现一定问题,会导致对应数据对象中的存储数据难以恢复重建或者不能读写。例如,对于纠删码2+1冗余保护,当2个存储节点上各故障1个OSD(Object Storage Device,对象存储设备)对应磁盘,此时数据对象上的数据会失效,无法进行读写,若检查对该数据对象上数据进行恢复重建后再进行覆盖写,会导致业务无法进行。
预设冗余范围是指预先设置的表征数据对象中的存储数据能否被恢复重建的冗余度标准。例如,若数据对象的冗余度超出预设冗余度范围,表明磁盘或节点完全故障,无法被恢复重建和读写,存储数据为失效数据;若数据对象的冗余度在预设冗余度范围内,表明磁盘或节点存在一定的故障,可以被恢复重建,但是可能仅支持一次恢复重建,一旦存储数据再受到一点丢失或错误,则该磁盘或节点故障,因此对于这种情况下的磁盘或存储节点的数据对象中的存储数据是不稳定的。
数据对象的冗余度可以根据存储数据的已有内容进行确定,或者根据对应磁盘或节点的故障标识进行确定。
步骤203、根据待写入数据的大小与数据对象的大小的比较结果和数据对象的冗余度和预设冗余范围的比较结果,将待写入数据覆盖数据对象,并删除数据对象在关联的对象存储设备中的已有数据。
由于待写入数据的大小不同,所占数据对象的空间也不同,因此根据待写入数据的大小与数据对象的大小的比较结果,确定是否可以对数据对象进行全写,进而根据比较结果将待写入数据覆盖数据对象中。
并且由于待写入数据对象的冗余度不同,数据对象中已有旧数据的情况也不同,因此在根据待写入数据的大小与数据对象的大小的比较结果的基础上,再结合数据对象冗余度的比较结果,将待写入数据覆盖数据对象中。示例性的,若数据对象的冗余度超过预设范围,则即使待写入数据不能完全对数据对象进行全写,数据对象中也无旧数据可以供补充,此时需要预先设置补充数据,在待写入数据的大小小于数据对象的大小时可以和待写入的新数据进行拼接,共同写入数据对象中。同样,若待写入数据的大小大于等于数据对象的大小,则无论故障磁盘或节点的数据是否可以恢复,都可以直接根据待写入数据确定数据对象的覆盖内容。
在一个可行的实施例中,根据待写入数据的大小与数据对象的大小的比较结果和数据对象的冗余度和预设冗余范围的比较结果,将待写入数据覆盖数据对象,包括:
若待写入数据的大小大于等于数据对象的大小,则确定待写入数据为数据对象的覆盖写入内容;
若待写入数据的大小小于数据对象的大小,且数据对象的冗余度在预设冗余度范围内,则根据待写入数据和数据对象中的已有数据确定数据对象的覆盖写入内容;
若待写入数据的大小小于数据对象的大小,且数据对象的冗余度超出预设冗余度范围,则确定待写入数据为数据对象的覆盖写入内容,并在数据对象的缺失部分补零。
若待写入数据的大小大于等于数据对象的大小,则表示待写入数据可以完全覆盖数据对象,此时不论数据对象中的旧数据是否可以恢复重建,直接将待写入数据作为数据对象的覆盖写入内容,即新数据。
若待写入数据的大小小于数据对象的大小,则表示待写入数据不能完全覆盖数据对象,会造成数据对象中空间空余,则需要根据数据对象的冗余度和预设冗余范围的比较结果进一步确定对数据对象写入的新数据内容。此时,若数据对象的冗余度在预设冗余度范围内,表示数据对象中有剩余空间可进行重建,则根据待写入数据和剩余空间中的旧数据对数据对象进行覆盖写。若数据对象的冗余度超出预设冗余度范围,表示对应磁盘或节点无法读写,则将待写入数据覆盖在数据对象后,在剩余空间处补零。
在一个可行的实施例中,确定数据对象的冗余度和预设冗余范围的比较结果之后,还包括:
确定数据对象分布是否变更;
若否,则根据数据对象是否在数据重建列表中,将待写入数据覆盖数据对象。
数据对象分布的变更是由于当云存储进行扩容后,会增加磁盘或节点,此时根据云存储数据分布算法,需要在增加磁盘或节点的基础上对数据对象中的内容进行重新分布,此时新的待写入数据覆盖写在数据对象中。对于数据对象分布发生变更的常用手段是进行数据迁移,即扩容增加存储节点或磁盘时,根据数据负载均衡原则和数据分布算法,将部分在原有存储节点或磁盘上数据迁移到新的存储节点或磁盘上,但是数据迁移给设备带来网络消耗和对磁盘的读写压力很大。
确定数据对象的冗余度和预设冗余范围的比较结果后,确定是否发生扩容导致数据对象分布变更,若没有变更,则确定数据对象是否在重建列表中。因为正常对故障磁盘进行覆盖写,需要对磁盘中的数据对象进行恢复重建,然而恢复重建会导致覆盖写的效率降低,因此首先确定数据对象是否在数据重建列表中,若在则跳过对数据对象恢复重建的过程,将待写入数据覆盖数据对象;若数据对象不在数据重建列表中,则按照正常覆盖写处理流程将待写入数据覆盖数据对象。
在一个可行的实施例中,在确定所述数据对象分布是否变更之后,还包括:
若所述数据对象分布发生变更,则根据数据分布算法将所述待写入数据覆盖所述数据对象。
其中,数据分布算法是指对数据对象所在磁盘进行覆盖写的更新数据分布冗余策略,即待写入的数据所遵循的冗余保护方法。若数据对象分布发生变更,则直接根据数据对象新的数据分布冗余策略将待写入的新数据写入数据对象中,并将数据对象写入对应的对象存储设备磁盘中,删除旧的数据对象分布在旧的对象存储设备磁盘上的数据。在此过程中,虽然原有数据对象数据分布策略发生变更,但是并不对原有数据对象中的旧数据进行迁移,减少了因为数据迁移给设备带来网络消耗和对磁盘的读写压力。
具体的,若数据对象分布发生变更,则表示云存储进行扩容,增加磁盘/节点,根据新的数据分布冗余策略,部分原有数据对象中的数据分布发生变化,此时新的业务数据覆盖写该数据对象。在写入新数据之前,需要对待写入数据是否能对该数据对象全写进行判断。若待写入数据不能对该数据对象进行全写,则当待写入数据只是数据对象的一部分,其余部分用数据对象中的原有旧数据进行代替,完成新数据和旧数据的合并,再写入新的分布磁盘对象存储设备中。若待写入数据可以对该数据对象进行全写,则待写入数据完全覆盖整个数据对象,待写入的新数据直接写入新的分布磁盘对象存储设备中。在写入完成后,删除数据对象原有分布磁盘对象存储设备上的数据,通过覆盖写重新达到扩容情况下的数据均衡。
通过对数据对象是否在数据重建列表中,可以提高对故障磁盘或节点以及待迁移磁盘或节点的新数据覆盖效率,提高新数据的冗余度。
在一个可行的实施例中,根据数据对象是否在数据重建列表中,将待写入数据覆盖数据对象,包括:
若数据对象不在数据重建列表中,则将待写入数据覆盖数据对象;
若数据对象在数据重建列表中,则根据待写入数据的大小与数据对象的大小的比较结果将待写入数据覆盖数据对象,并在数据重建列表中删除数据对象。
确定数据对象是否在数据重建列表中,若在,则跳过对数据对象恢复重建的过程,将待写入数据覆盖数据对象,并在数据重建列表中删除该数据对象;若数据对象不在数据重建列表中,则按照正常覆盖写处理流程将待写入数据覆盖数据对象。
本发明实施例基于对数据对象的覆盖写指令,直接在已有存储数据的数据对象中将待写入数据写入,省去对数据对象中已有数据恢复重建的过程,并在待写入数据覆盖数据对象后,删除该数据对象在关联的对象存储设备中的已有数据分片。实现待写入数据的冗余和一致性,优化重建和数据迁移过程中的数据写流程。
实施例三
图3是本发明云存储数据处理方法的一个优选实施例的流程图,本实施例可适用于对故障或待数据迁移的磁盘或存储节点进行覆盖写的情况。该方法可以由云存储数据处理装置来执行,该装置可以采用软件和/或硬件的方式实现,并可配置在设备中,例如设备可以是后台服务器等具有通信和计算能力的设备。如图3所示,该方法具体包括:
接收到待写入数据的覆盖写指令后,确定待写入的数据对象,并判断该数据对象是否失效。其中,失效即是对数据对象的冗余度和预设冗余范围的判断,若数据对象的冗余度在预设冗余度范围内,则表示该数据对象未失效,仍可以对数据对象中的数据进行恢复重建;若数据对象的冗余度超出预设冗余度范围,则表示该数据对象已失效,不能对该数据对象进行读写。
若数据对象已失效,说明故障磁盘/节点超过冗余范围,对应的数据对象原有数据丢失,无法读写。例如采用纠删码2+1冗余,当2个节点上各故障1个对象存储设备中的对应磁盘,此时数据对象上的数据失效,无法读写。由于磁盘故障,对象存储设备分布发生变化,根据云存储数据分布算法,数据对象中的数据分布也发生变化,此时新的业务数据覆盖写该数据对象。并且对待写入数据是否能对该数据对象全写进行判断。其中,待写入数据是否能对该数据对象进行全写根据待写入数据的大小和该数据对象的大小比较结果进行确定,若待写入数据的大小大于等于数据对象的大小,则待写入数据是能对该数据对象进行全写;若待写入数据的大小小于数据对象的大小,则待写入数据不能对该数据对象进行全写。若待写入数据不能对该数据对象进行全写,则当待写入数据只是数据对象的一部分,其余部分补零,再写入新的分布磁盘对象存储设备中。若待写入数据可以对该数据对象进行全写,则待写入数据完全覆盖整个数据对象,待写入的新数据直接写入新的分布磁盘对象存储设备中。在写入完成后,删除数据对象原有分布磁盘对象存储设备上的数据,保证新业务的连续性,以及保证新数据的冗余和一致性。数据写入过程如图4所示。
若数据对象没有失效,说明故障磁盘/节点没有超过冗余范围。在此情况下,需要对数据对象分布的变更进行判断,若发生变更,则表示云存储进行扩容,增加磁盘/节点,根据云存储数据分布算法,部分原有数据对象中的数据分布发生变化,此时新的业务数据覆盖写该数据对象。在写入新数据之前,需要对待写入数据是否能对该数据对象全写进行判断。若待写入数据不能对该数据对象进行全写,则当待写入数据只是数据对象的一部分,其余部分用数据对象中的原有旧数据进行代替,完成新数据和旧数据的合并,再写入新的分布磁盘对象存储设备中。若待写入数据可以对该数据对象进行全写,则待写入数据完全覆盖整个数据对象,待写入的新数据直接写入新的分布磁盘对象存储设备中。在写入完成后,删除数据对象原有分布磁盘对象存储设备上的数据,通过覆盖写重新达到扩容情况下的数据均衡。数据写入过程如图5所示。其中,Object表示数据对象,OSD表示对象存储设备,如为云存储提供存储资源,一般为磁盘或磁盘创建的资源。图5中的中间Object代表全写,两侧的Object代表未全写。
若数据对象没有失效,且数据对象分布没有发生变更,则表示在云存储数据冗余范围内,需要对故障磁盘/节点更换新磁盘/节点,根据云存储数据分布算法,数据项的磁盘分布基本保持一致,但是有数据在故障硬盘/节点的数据对象都处于重建状态,此时新的业务数据覆盖写数据对象。因此在此情况下,需要对数据对象是否在重建列表中进行判断,若不在,则直接按照正常覆盖写处理流程;若在,则需要对待写入数据是否能对该数据对象全写进行判断。若待写入数据不能对该数据对象进行全写,则当待写入数据只是数据对象的一部分,读取原数据对象中的旧数据,完成新数据和旧数据的合并,再写入新的分布磁盘对象存储设备中。若待写入数据可以对该数据对象进行全写,则待写入数据完全覆盖整个数据对象,待写入的新数据直接写入新的分布磁盘对象存储设备中。写入完成后数据对象恢复数据冗余和数据一致性。
在云存储数据冗余范围内故障磁盘,没有更换新磁盘,系统中有剩余空间可进行重建,此时由于磁盘故障,对象存储设备发生变化,根据云存储数据分布算法,有数据在数据对象的数据分布发生变化,此时新的业务数据覆盖写数据对象中。若待写入的新数据完全覆盖整个数据对象,新数据直接写入新的分布磁盘对象存储设备中;若待写入的新数据只是数据对象的一部分,读取原数据对象的旧数据与新数据合并,再写入新的分布磁盘对象存储设备中。写入完成后,删除数据对象原有分布磁盘对象存储设备上的数据,数据对象恢复数据冗余和数据一致性。
本发明实施例实现了云存储数据对象在非冗余情况下,通过对象覆盖写直接根据对象新的数据分布冗余策略将新数据写入对应对象存储设备磁盘上,达到数据的冗余和一致性,优化重建过程中数据写流程。并且本发明实施例实现优化云存储扩容流程,不在对原有数据进行数据迁移,减少了因为数据迁移给设备带来网络消耗和对磁盘的读写压力。本发明实施例实现了云存储数据对象故障情况下,保证新数据业务持续写入,并保证新数据冗余和一致性。
实施例四
图6是本发明实施例四中的云存储数据处理装置的结构示意图,本实施例可适用于对故障或待数据迁移的磁盘或存储节点进行覆盖写的情况。如图6所示,该装置包括:
数据对象确定模块610,用于接收到待写入数据的覆盖写指令后,确定待写入的数据对象;其中,所述数据对象包括如下至少一种:待重建的数据对象、待迁移的数据对象和失效的数据对象;
覆盖写模块620,用于根据所述待写入数据的大小与所述数据对象的大小的比较结果,将所述待写入数据覆盖所述数据对象,并删除所述数据对象在关联的对象存储设备中的已有数据。
本发明实施例基于对数据对象的覆盖写指令,直接在已有存储数据的数据对象中将待写入数据写入,省去对数据对象中已有数据恢复重建的过程,并在待写入数据覆盖数据对象后,删除该数据对象在关联的对象存储设备中的已有数据分片。实现待写入数据的冗余和一致性,优化重建和数据迁移过程中的数据写流程。
可选的,覆盖写模块620,具体用于:
若所述待写入数据的大小大于等于所述数据对象的大小,则确定所述待写入数据为所述数据对象的覆盖写入内容;
若所述待写入数据的大小小于所述数据对象的大小,则根据所述待写入数据和所述数据对象中的已有数据确定数据对象的覆盖写入内容。
可选的,所述装置在执行覆盖写模块620之前,还包括冗余度比较模块,用于:
确定所述数据对象的冗余度和预设冗余范围的比较结果;
相应的,覆盖写模块620,包括比较单元,用于:
根据所述待写入数据的大小与所述数据对象的大小的比较结果和所述数据对象的冗余度和预设冗余范围的比较结果,将所述待写入数据覆盖所述数据对象。
可选的,比较单元,具体用于:
若所述待写入数据的大小大于等于所述数据对象的大小,则确定所述待写入数据为所述数据对象的覆盖写入内容;
若所述待写入数据的大小小于所述数据对象的大小,且所述数据对象的冗余度在预设冗余度范围内,则根据所述待写入数据和所述数据对象中的已有数据确定数据对象的覆盖写入内容;
若所述待写入数据的大小小于所述数据对象的大小,且所述数据对象的冗余度超出预设冗余度范围,则确定所述待写入数据为所述数据对象的覆盖写入内容,并在所述数据对象的缺失部分补零。
可选的,所述装置在执行冗余度比较模块之后,还包括分布变更确定模块,包括:
分布变更查询单元,用于确定所述数据对象分布是否变更;
重建列表查询单元,用于若否,则根据所述数据对象是否在数据重建列表中,将所述待写入数据覆盖所述数据对象。
相应的,重建列表查询单元,具体用于:
若所述数据对象不在所述数据重建列表中,则将所述待写入数据覆盖所述数据对象;
若所述数据对象在所述数据重建列表中,则根据所述待写入数据的大小与所述数据对象的大小的比较结果将所述待写入数据覆盖所述数据对象,并在所述数据重建列表中删除所述数据对象。
可选的,所述装置中在分布变更查询单元之后,还包括:
变更确认单元,用于若所述数据对象分布发生变更,则根据数据分布算法将所述待写入数据覆盖所述数据对象。
本发明实施例所提供的云存储数据处理装置可执行本发明任意实施例所提供的云存储数据处理方法,具备执行云存储数据处理方法相应的功能模块和有益效果。
实施例五
图7是本发明实施例五提供的一种电子设备的结构示意图。图7示出了适于用来实现本发明实施方式的示例性电子设备12的框图。图7显示的电子设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图7所示,电子设备12以通用计算设备的形式表现。电子设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储装置28,连接不同系统组件(包括系统存储装置28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储装置总线或者存储装置控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
电子设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储装置28可以包括易失性存储装置形式的计算机系统可读介质,例如随机存取存储装置(RAM)30和/或高速缓存存储装置32。电子设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图7未显示,通常称为“硬盘驱动器”)。尽管图7中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储装置28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储装置28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
电子设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该设备12交互的设备通信,和/或与使得该设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图7所示,网络适配器20通过总线18与设备12的其它模块通信。应当明白,尽管图7中未示出,可以结合设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储装置28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的云存储数据处理方法,包括:
接收到待写入数据的覆盖写指令后,确定待写入的数据对象;其中,所述数据对象包括如下至少一种:待重建的数据对象、待迁移的数据对象和失效的数据对象;
根据所述待写入数据的大小与所述数据对象的大小的比较结果,将所述待写入数据覆盖所述数据对象,并删除所述数据对象在关联的对象存储设备中的已有数据。
实施例六
本发明实施例六还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例所提供的云存储数据处理方法,包括:
接收到待写入数据的覆盖写指令后,确定待写入的数据对象;其中,所述数据对象包括如下至少一种:待重建的数据对象、待迁移的数据对象和失效的数据对象;
根据所述待写入数据的大小与所述数据对象的大小的比较结果,将所述待写入数据覆盖所述数据对象,并删除所述数据对象在关联的对象存储设备中的已有数据。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络包括局域网(LAN)或广域网(WAN)连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (9)

1.一种云存储数据处理方法,其特征在于,包括:
接收到待写入数据的覆盖写指令后,确定待写入的数据对象;其中,所述数据对象包括如下至少一种:待重建的数据对象、待迁移的数据对象和失效的数据对象;
确定所述数据对象的冗余度和预设冗余范围的比较结果;
根据所述待写入数据的大小与所述数据对象的大小的比较结果和所述数据对象的冗余度和预设冗余范围的比较结果,将所述待写入数据覆盖所述数据对象,并删除所述数据对象在关联的对象存储设备中的已有数据。
2.根据权利要求1所述的方法,其特征在于,根据所述待写入数据的大小与所述数据对象的大小的比较结果,将所述待写入数据覆盖所述数据对象,包括:
若所述待写入数据的大小大于等于所述数据对象的大小,则确定所述待写入数据为所述数据对象的覆盖写入内容;
若所述待写入数据的大小小于所述数据对象的大小,则根据所述待写入数据和所述数据对象中的已有数据确定数据对象的覆盖写入内容。
3.根据权利要求1所述的方法,其特征在于,根据所述待写入数据的大小与所述数据对象的大小的比较结果和所述数据对象的冗余度和预设冗余范围的比较结果,将所述待写入数据覆盖所述数据对象,包括:
若所述待写入数据的大小大于等于所述数据对象的大小,则确定所述待写入数据为所述数据对象的覆盖写入内容;
若所述待写入数据的大小小于所述数据对象的大小,且所述数据对象的冗余度在预设冗余度范围内,则根据所述待写入数据和所述数据对象中的已有数据确定数据对象的覆盖写入内容;
若所述待写入数据的大小小于所述数据对象的大小,且所述数据对象的冗余度超出预设冗余度范围,则确定所述待写入数据为所述数据对象的覆盖写入内容,并在所述数据对象的缺失部分补零。
4.根据权利要求1所述的方法,其特征在于,在确定所述数据对象的冗余度和预设冗余范围的比较结果之后,还包括:
确定所述数据对象分布是否变更;
若否,则根据所述数据对象是否在数据重建列表中,将所述待写入数据覆盖所述数据对象。
5.根据权利要求4所述的方法,其特征在于,根据所述数据对象是否在数据重建列表中,将所述待写入数据覆盖所述数据对象,包括:
若所述数据对象不在所述数据重建列表中,则将所述待写入数据覆盖所述数据对象;
若所述数据对象在所述数据重建列表中,则根据所述待写入数据的大小与所述数据对象的大小的比较结果将所述待写入数据覆盖所述数据对象,并在所述数据重建列表中删除所述数据对象。
6.根据权利要求4所述的方法,其特征在于,在确定所述数据对象分布是否变更之后,还包括:
若所述数据对象分布发生变更,则根据数据分布算法将所述待写入数据覆盖所述数据对象。
7.一种云存储数据处理装置,其特征在于,包括:
数据对象确定模块,用于接收到待写入数据的覆盖写指令后,确定待写入的数据对象;其中,所述数据对象包括如下至少一种:待重建的数据对象、待迁移的数据对象和失效的数据对象;
冗余度比较模块,用于:确定所述数据对象的冗余度和预设冗余范围的比较结果;
覆盖写模块,用于根据所述待写入数据的大小与所述数据对象的大小的比较结果和所述数据对象的冗余度和预设冗余范围的比较结果,将所述待写入数据覆盖所述数据对象,并删除所述数据对象在关联的对象存储设备中的已有数据。
8.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一所述的云存储数据处理方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一所述的云存储数据处理方法。
CN202010871838.3A 2020-08-26 2020-08-26 云存储数据处理方法、装置、电子设备和存储介质 Active CN114115697B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010871838.3A CN114115697B (zh) 2020-08-26 2020-08-26 云存储数据处理方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010871838.3A CN114115697B (zh) 2020-08-26 2020-08-26 云存储数据处理方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN114115697A CN114115697A (zh) 2022-03-01
CN114115697B true CN114115697B (zh) 2024-03-22

Family

ID=80374081

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010871838.3A Active CN114115697B (zh) 2020-08-26 2020-08-26 云存储数据处理方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN114115697B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105930103A (zh) * 2016-05-10 2016-09-07 南京大学 一种分布式存储ceph的纠删码覆盖写方法
CN106326133A (zh) * 2015-06-29 2017-01-11 华为技术有限公司 存储系统、存储管理装置、存储器、混合存储装置及存储管理方法
CN110597779A (zh) * 2019-09-20 2019-12-20 浪潮电子信息产业股份有限公司 一种分布式文件系统中的数据读写方法及相关装置
CN110837479A (zh) * 2018-08-17 2020-02-25 华为技术有限公司 数据处理方法、相关设备及计算机存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106326133A (zh) * 2015-06-29 2017-01-11 华为技术有限公司 存储系统、存储管理装置、存储器、混合存储装置及存储管理方法
CN105930103A (zh) * 2016-05-10 2016-09-07 南京大学 一种分布式存储ceph的纠删码覆盖写方法
CN110837479A (zh) * 2018-08-17 2020-02-25 华为技术有限公司 数据处理方法、相关设备及计算机存储介质
CN110597779A (zh) * 2019-09-20 2019-12-20 浪潮电子信息产业股份有限公司 一种分布式文件系统中的数据读写方法及相关装置

Also Published As

Publication number Publication date
CN114115697A (zh) 2022-03-01

Similar Documents

Publication Publication Date Title
CN109725822B (zh) 用于管理存储系统的方法、设备和计算机程序产品
US8255653B2 (en) System and method for adding a storage device to a cluster as a shared resource
US10324810B2 (en) Method and apparatus for redundant array of independent disks with raid metadata and sub-raid metadata stored using different raid algorithms
US10303570B2 (en) Method and apparatus for managing data recovery of distributed storage system
US8930663B2 (en) Handling enclosure unavailability in a storage system
US10684927B2 (en) Methods and systems for storing information that facilitates the reconstruction of at least some of the contents of a storage unit on a storage system
US8843716B2 (en) Computer system, storage apparatus and data transfer method
WO2018098972A1 (zh) 一种日志恢复方法、存储装置和存储节点
US10387280B2 (en) Reporting defects in a flash memory back-up system
US20160246516A1 (en) Data Operation Method and Device
WO2019001521A1 (zh) 数据存储方法、存储设备、客户端及系统
US11449400B2 (en) Method, device and program product for managing data of storage device
CN110058787B (zh) 用于写入数据的方法、设备和计算机程序产品
US8862844B2 (en) Backup apparatus, backup method and computer-readable recording medium in or on which backup program is recorded
US20170123915A1 (en) Methods and systems for repurposing system-level over provisioned space into a temporary hot spare
US9003139B1 (en) Systems and methods for recovering virtual machines after disaster scenarios
CN115167782B (zh) 临时存储副本管理方法、系统、设备和存储介质
JP2021522577A (ja) ホスト認識更新書き込みの方法、システム、およびコンピュータ・プログラム
CN113377569A (zh) 用于恢复数据的方法、设备和计算机程序产品
CN113190384B (zh) 基于纠删码的数据恢复控制方法、装置、设备及介质
CN111506450B (zh) 用于数据处理的方法、设备和计算机程序产品
US11144409B2 (en) Recovering from a mistaken point-in-time copy restore
US20200348858A1 (en) Method, device and computer program product
CN114115697B (zh) 云存储数据处理方法、装置、电子设备和存储介质
CN111381770A (zh) 一种数据存储切换方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant