CN112527751B - 数据处理方法、装置、电子设备和存储介质 - Google Patents

数据处理方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN112527751B
CN112527751B CN202011488642.2A CN202011488642A CN112527751B CN 112527751 B CN112527751 B CN 112527751B CN 202011488642 A CN202011488642 A CN 202011488642A CN 112527751 B CN112527751 B CN 112527751B
Authority
CN
China
Prior art keywords
data block
data
copies
determining
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011488642.2A
Other languages
English (en)
Other versions
CN112527751A (zh
Inventor
童俊杰
韩振东
赫罡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China United Network Communications Group Co Ltd
Original Assignee
China United Network Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China United Network Communications Group Co Ltd filed Critical China United Network Communications Group Co Ltd
Priority to CN202011488642.2A priority Critical patent/CN112527751B/zh
Publication of CN112527751A publication Critical patent/CN112527751A/zh
Application granted granted Critical
Publication of CN112527751B publication Critical patent/CN112527751B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/172Caching, prefetching or hoarding of files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1748De-duplication implemented within the file system, e.g. based on file segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种数据处理方法、装置、电子设备和存储介质。该数据处理方法包括:在删除重复数据块后,确定当前周期内每个数据块的重要性因子;根据每个所述数据块的重要性因子,确定每个所述数据块的副本数量;根据每个所述数据块的副本数量,为每个所述数据块构建对应数量的副本。本申请的数据处理方法,通过周期性地确定各数据块的重要性,并依据重要性对相应数据块的副本数量进行调整,来保证整个存储系统的可靠性,从而保障重复数据删除情况下数据的可靠性。

Description

数据处理方法、装置、电子设备和存储介质
技术领域
本申请涉及数据处理技术领域,尤其涉及一种数据处理方法、装置、电子设备和存储介质。
背景技术
随着云计算广泛部署,5G业务的不断涌现,物联网、边缘计算等都带来了海量的用户和业务数据。为提高存储的利用率,在实践中广泛使用了重复数据删除技术。即在存储数据时,具有相同内容的数据块只在物理存储媒介中存储一份,以减少因重复数据块带来的空间开销和浪费。
但是重复数据块的删除会给可靠性带来一定影响,一旦仅存的数据出现错误,将会影响基于此数据的相关处理,使重复数据删除后数据的可靠性降低。
发明内容
本申请提供一种数据处理方法、装置、电子设备和存储介质,对存储空间内的数据建立一定量的副本,以提高数据的可靠性。
第一方面,本申请提供一种数据处理方法,包括:
在删除重复数据块后,确定当前周期内每个数据块的重要性因子;
根据每个所述数据块的重要性因子,确定每个所述数据块的副本数量;
根据每个所述数据块的副本数量,为每个所述数据块构建对应数量的副本。
可选的,所述确定当前周期内每个数据块的重要性因子,包括:
针对每个数据块,确定当前周期内所述数据块被所在文件引用的次数、当前周期内所述数据块所在文件被访问的次数;
根据所述当前周期内所述数据块被所在文件引用的次数、所述当前周期内所述数据块所在文件被访问的次数,确定所述数据块的重要性因子。
可选的,所述根据每个所述数据块的重要性因子,确定每个所述数据块的副本数量,包括:
根据所述数据块的重要性因子、所述数据块的可用性概率,确定所述数据块的影响因子;所述影响因子用于指示所述数据块丢失对系统数据造成的影响;
根据所述数据块的影响因子,确定所述数据块的副本数量。
可选的,所述方法还包括:
获取目标存储空间大小;
所述根据所述数据块的影响因子,确定所述数据块的副本数量,包括:
根据所述数据块的影响因子、所述目标存储空间大小,确定所述数据块的副本数量。
可选的,所述根据所述数据块的影响因子、所述目标存储空间大小,确定所述数据块的副本数量,包括:
根据每个所述数据块的影响因子,确定全部数据块的综合影响因子与副本数量的关系;
确定每个所述数据块的副本数量,以使得所述综合影响因子最小。
可选的,所述方法还包括:
确定最近两个周期内被访问文件的相似度;
根据所述被访问文件的相似度,调整周期的长度。
可选的,所述根据所述被访问文件的相似度,调整周期的长度,包括:
若相似度高于第一预设阈值,则增大所述周期的长度。
第二方面,本申请还提供一种数据处理装置,包括:
副本数量确定模块,用于在删除重复数据块后,确定当前周期内每个数据块的重要性因子;根据每个所述数据块的重要性因子,确定每个所述数据块的副本数量;
副本构建模块,用于根据每个所述数据块的副本数量,为每个所述数据块构建对应数量的副本。
第三方面,本申请还提供一种电子设备,包括:
存储器,用于存储程序指令;
处理器,用于调用并执行所述存储器中的程序指令,执行如第一方面所述的方法。
第四方面,本申请提供一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时,实现如第一方面所述的方法。
第五方面,本申请提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现第一方面所述的方法。
本申请提供了一种数据处理方法、装置、电子设备和存储介质。该数据处理方法包括:在删除重复数据块后,确定当前周期内每个数据块的重要性因子;根据每个所述数据块的重要性因子,确定每个所述数据块的副本数量;根据每个所述数据块的副本数量,为每个所述数据块构建对应数量的副本。本申请的数据处理方法,通过周期性地确定各数据块的重要性,并依据重要性对相应数据块的副本数量进行调整,来保证整个存储系统的可靠性,从而保障重复数据删除情况下数据的可靠性。
附图说明
为了更清楚地说明本申请或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请提供的一种应用场景的示意图;
图2为本申请一实施例提供的一种数据处理方法的流程图;
图3为本申请一实施例提供的另一种数据处理方法的流程图;
图4为本申请一实施例提供的一种数据处理装置的结构示意图;
图5为本申请一实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请中的附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
云计算环境下的分布式存储是通过虚拟化、负载均衡等技术,对物理主机进行组网,再以按需收费的方式提供给用户的透明的数据存取功能。
分布式存储主要有两种结构,一种是中心化结构,在这种结构中,由中心节点负责维护整个网络元数据、处理数据访问请求,例如GFS(Google File System)和HDFS(HadoopDistributed File System)都是这种结构;另一种是去中心化结构,在这种结构中,每个节点的地位是对等的,可以通过Hash算法进行节点数据的划分,通过DHT(Distributed HashTable)方式进行寻址,例如Oceanstore和Dynamo都是这种结构。
随着云计算广泛部署,5G业务的不断涌现,物联网、边缘计算等都带来了海量的用户和业务数据。为提高存储的利用率,在实践中,广泛使用了重复数据删除技术,即在存储数据时,具有相同内容的数据块只在物理存储媒介中存储一份,这样可以减少重复数据块带来的空间开销和资源浪费。
但是重复数据块的删除会给存储系统的可靠性带来一定影响,需要在删除数据、节省存储空间的同时,保证重复数据删除后数据的可用性。
目前用于解决这一问题的方法主要有纠删码和副本两种技术。其中,纠删码即通过添加冗余信息来增加可靠性;副本则是通过一定数量副本的增加来提高可靠性。当前的副本技术主要考虑数据块被引用的次数和单位时间内被访问的次数,以此作为重要性来计算数据块副本数量。
现有的副本技术主要存在如下缺点:
1)未考虑到数据块之间的关联性。文件作为数据访问的整体,部分访问频率低的数据块丢失同样会影响对于整个文件的访问,影响对应文件的可靠性。
2)文件和数据块的访问通常有相关周期,在每个周期内的访问量可能是不一样的。固定的副本数量可能导致某个时段内,某些文件和数据块的可靠性较差。
基于此,本申请提出一种数据处理方法、装置、电子设备和存储介质,考虑文件的访问频率的周期特性,来确定各数据块的副本数量,以尽可能保障整个存储系统的可靠性。
图1为本申请提供的一种应用场景的示意图。如图1所示,多台主机构成分布式存储系统。外部用户可以通过终端设备发送数据访问请求的方式,访问分布式存储系统,以获取存储在其中的数据资源。分布式存储系统中的管理设备负责对存储系统进行管理,并对外部的访问请求进行处理。其中,数据以数据块的形式存储在文件当中。
管理设备进行数据处理的具体实现方式可以参考以下各实施例。
图2为本申请一实施例提供的一种数据处理方法的流程图,如图2所示,本实施例的方法可以包括:
S201、在删除重复数据块后,确定当前周期内每个数据块的重要性因子。
其中,每个数据块的重要性因子可以以该数据块在当前周期内的相对访问量来确定。例如,在当前周期内,该数据块的访问量为4,而全部数据块中最高访问量为4,最低访问量为0,则该数据的重要性相对较高,重要性因子的取值可以相对大。
当前周期可以为预设的周期。例如,以1小时为一个周期,则可以在1小时计时结束时对这1小时内的访问量进行统计,并据此确定每个数据块的重要性因子。
S202、根据每个数据块的重要性因子,确定每个数据块的副本数量。
根据重要性因子可以确定对应数据块的副本数量。例如,预先设定重要性因子与副本数量之间的对应关系,对于重要性因子较大的数据块,确定较多的副本数量;对于重要性因子较小的数据块,确定较少的副本数量。
S203、根据每个数据块的副本数量,为每个数据块构建对应数量的副本。
在确定好每个数据块的副本数量后,构建对应数量的副本。
在下一周期再重复上述的步骤,确定新的副本数量。若下一周期新的副本数量与本周期确定的副本数量相同,则不对数据块副本做出调整;若下周一周期新的副本数量比本周期确定的副本数量多,则增加至相应数量的副本;若下一周期新的副本数量比本周期确定的副本数量少,则删减至相应数量的副本。
本实施例提供的数据处理方法包括:在删除重复数据块后,确定当前周期内每个数据块的重要性因子;根据每个数据块的重要性因子,确定每个数据块的副本数量;根据每个数据块的副本数量,为每个数据块构建对应数量的副本。本申请的数据处理方法,通过周期性地确定各数据块的重要性,并依据重要性对相应数据块的副本数量进行调整,来保证整个存储系统的可靠性,从而保障重复数据删除情况下数据的可靠性。
在一些实施例中,上述的确定当前周期内每个数据块的重要性因子,具体可以包括:针对每个数据块,确定当前周期内数据块被所在文件引用的次数、当前周期内数据块所在文件被访问的次数;根据当前周期内数据块被所在文件引用的次数、当前周期内数据块所在文件被访问的次数,确定数据块的重要性因子。
一般,数据块以文件形式进行存储,访问数据时也会通过访问文件来访问对应的数据块。因而,数据块的可靠性不止与自身的访问次数相关,也与所在文件的访问次数相关,只有保证整个文件的可访问性,文件内的数据块才是可访问的。
可以构建重要性因子与数据块被所在文件引用的次数和数据块所在文件被访问的次数之间的对应关系,并据此确定每个数据块的重要性因子。
在一些实施例中,上述的根据每个数据块的重要性因子,确定每个数据块的副本数量,可以包括:根据数据块的重要性因子、数据块的可用性概率,确定数据块的影响因子;影响因子用于指示数据块丢失对系统数据造成的影响;根据数据块的影响因子,确定数据块的副本数量。
其中,每个数据块的可用性概率指的是,考虑到设备故障因素在内,该数据块可以正常被访问的概率。一般,存储设备可能由于硬件或软件的原因产生故障,导致某些数据无法正常访问。因此,每个数据块都有一定的概率无法被正常访问,对应的可以被正常访问的概率设定为可用性概率。当一个数据块有副本时,故障时可能只影响其中某个或某些副本,而剩余副本可能可以正常访问,因此,同一个数据块的可用性概率会随副本数量的增多而增大。据此,可以构建起副本数量与可用性概率的关联关系。进而通过影响因子与重要性因子、可用性概率之间的关系,得到副本数量与影响因子之间的关系。据此,即可通过使影响因子达到某个条件,从而确定副本数量。
数据块的影响因子指一个数据块丢失对系统造成的影响。可以理解的是,一般,会希望某个数据块丢失对系统造成影响越小越好。这样,可以通过将数据块的影响因子降到最小,而确定可以满足条件的副本的数量。
具体的,可以首先根据每个数据块的影响因子,确定全部数据块的综合影响因子与副本数量的关系;进而确定每个数据块的副本数量,以使得综合影响因子最小。
综合影响因子指存储系统中全部数据块对系统可靠性的综合影响,通过对综合影响因子大小的限定,可以使系统达到整体比较可靠的程度,而非仅仅关注与某个数据块对系统可靠性的影响。
在一些实施例中,除了对存储系统的可靠性要求外,可能还有对数据所占存储空间的要求。那么,上述的根据数据块的影响因子,确定数据块的副本数量,还可以包括:获取目标存储空间大小;根据数据块的影响因子、目标存储空间大小,确定数据块的副本数量。
例如,在满足数据块影响因子足够小的前提下,同时满足对于存储空间的限制,使实际占用的存储空间尽可能小,或者使实际占用的存储空间不超过目标存储空间,或者使实际占用的存储空间与目标存储空间的差值小于某个阈值。
另外,数据块副本数量的调整周期应该根据文件总体的访问情况以及具体单个文件的访问热度或频次进行修改,以按需调整数据块副本数量计算的时间周期,降低计算开销。
具体的,可以确定最近两个周期内被访问文件的相似度;根据被访问文件的相似度,调整周期的长度。
收集到最近两个周期内被访问的文件信息,从访问重复率上大致可以判断出外部的数据访问请求是否发生明显变化。据此,可以适应性调整周期长度。
若最近两个周期内被访问文件的相似度高于第一预设阈值,则增大周期的长度;反之,则可以缩短周期长度。
例如,在当前周期中访问的文件中有90%是上一周期中访问过的文件,可以初步判定,当前周期中所处理的外部的数据访问请求与上一周期中所处理的外部的数据访问请求是相似的,可以推断,大部分数据块或文件的重要性因子未发生变化,或变化极小。基于这微小的变化,系统的整体的可靠性受到的影响较小,相应的,数据块的副本数量也不需做出太大调整。因而,周期可以适当延长,以降低系统的计算开销。
在一个具体的实施例中,执行的流程如下图3所示,当时定时器设置的时间周期T到期后,进行数据块冗余度的计算,根据冗余度计算的结果,对数据块的副本数量进行调整。
本实施例涉及的基本数据和定义如下:
在存储系统中采用重复数据删除技术后,存储系统中存在有N个唯一的数据块,分布于M个文件。在一个周期内,N个数据块被引用的总次数为R。对于任意数据块i,在一个周期内,被ri个文件所引用。数据块i占用的存储空间大小为si。在一个周期内,M个文件被访问的总次数为F。对于任意文件j,在一个周期内,被访问的次数为fj,文件j中包含的数据块的数量为mj。存储系统中存储开销设定构建副本后每个数据块的冗余度为di,则构建副本后存储系统中的存储开销/>
本实施例中对定时器的计时周期T进行更新的原理和流程如下:
步骤1:定时器周期T初始化,单位为分钟,默认初始化为60。
步骤2:确定定时器周期T时间内被访问次数超过1的文件,对应的文件列表为F1;确定上一个周期T内被访问次数超过1的文件,对应的文件列表为F2。则两个周期内的文件访问相似度U=|F_1∩F_2|/|F_1∪F_2|,相似度的U取值范围为[0,1]。
步骤3:计算周期T。
即如果最近两周期内,访问的文件相似度比较高,那么可以适当把定时器时间设置长一点,这样可以减少计算数据块冗余度的复杂度;如果最近两周期内,访问的文件相似度比较低,那么将维持定时器时间T,并适当缩短计时器计时周期。
本实施例中涉及数据块冗余度计算的原理和流程如下:
步骤1:计算数据块的重要程度(即重要性因子)。
数据块的重要程度主要考虑两个方面,一个是数据块的引用情况,即数据块被文件引用的次数越多,其重要程度越大,如果该数据块丢失,将会对较多文件的读取造成影响;另一方面,数据块被访问时,通常具有关联性,即通常都是以文件为整体进行读取,如果所在文件近期访问的频度比较高,则该文件中的相关数据块重要性比较高。
综合考虑上述因素,对于任意数据块i,其重要程度计算如下:
其中,α和β分别代表两个因素的权重,且两者之和为1。
步骤2:可用性代价函数(即可用性概率)计算。
(1)数据块i的可用性概率
每个系统节点发生故障的概率满足独立同分布,因此,在存储系统节点上的数据块丢失的概率也是独立的,并且符合二项式分布。
假设单个数据块的可用性概率为μ,该概率为常数。则存储系统中的节点发生故障时,对于任意副本量为di的数据块i的可用性概率计算
如下:
(2)数据块i丢失造成的影响(即影响因子)
对于任意副本量为di的数据块i,该数据块丢失带来的影响计算如下:
P(di)=IMP(i)×(1-P(i))
(3)可用性代价函数(即综合影响因子)
对于整个存储系统,所有数据块对系统数据可用性造成的影响,即所付出的可用性代价的函数如下:
步骤3:构造拉格朗日函数,并求解极值。
(1)构造拉格朗日函数。
对于优化的目标,一方面希望数据可用性最高即可用性代价最小,同时实际存储空间和目标存储空间的差值最小。这里,设定整个存储系统优化的目标存储空间为Sopt,为实现上述两个目标,构造拉格朗日函数,如下所示。
L(d1,d2...dN,λ)=P(d1,d2...dN)+λ(Sd-Sopt)
其中,λ为(Sd-Sopt)的权重系数,用于表示实际存储空间和目标存储空间的差值最小这一目标的重要性,取值为[0,1]。可以根据系统的实际需求选择取值。
(2)针对上述目标函数,进行极值求解。
基于上述公式,分别对d1,d2...dN,λ进行一阶偏导求解,当它们值为0时,可以获得目标函数的极值点。进行一阶偏导数求解后得到由N+1个方程所组成的方程组,通过对方程组的求解,得到如下公式。
步骤4:计算结果的规整。
对于计算所得的数据块冗余度值d1,d2…dN,分别进行四舍五入取整操作,且其最小值至少为1。
本实施例所提供的方法,通过增加一定的存储开销,周期性针对可靠性影响较大的数据块进行副本数量计算和相应数据副本的调整,来保证整个存储系统的可靠性,从而保障重复数据删除情况下数据的可靠性。
一个具体实现过程如下。
步骤1:假设刚刚开始计算数据块的副本数量,周期T初始化为60分钟,此时,不涉及周期T的更新。
步骤2:为了简化示例,假设共有不同的数据块总计10个,文件5个,每个文件都包含有10个数据块,每个数据块的大小均为200Mb;总情况如下表所示。
步骤3:针对数据块1,其被文件2和文件5引用,此外文件2和文件5在单位时间内的访问次数分别为5和6,那么可计算出其重要性为0.198。
以此可以计算出数据块2、3、4、5、6、7、8、9、10的重要性依次为0.227、0.5714、0.1061、0.5714、0.4536、0.4242、0.0914、0.2562、0.2415。
步骤4:计算出每个数据块的冗余度,即保存的副本数量。例如,针对数据块1,按照公式计算如下:
按照四舍五入取整,d1最终取值为2,即对于数据块1,在存储中共计有2个副本。
步骤5:按照步骤4,计算出所有数据块副本数量分别为2、2、2、2、2、2、2、2、2、2,总计存储容量为20*0.2Gb=4Gb,即额外存储开销为2Gb。
没有冗余副本之前数据可用性代价为0.78,但是有了副本之后可用性代价降低到0.078,数据的可用性大大提高。
本申请的方案通过增加一定的存储开销,周期性针对可靠性影响较大的数据块进行副本数量计算和相应数据副本的调整,来保证整个存储系统的可靠性,从而保障重复数据删除情况下数据的可靠性。
图4为本申请一实施例提供的一种数据处理装置的结构示意图,如图4所示,本实施例的数据处理装置400可以包括:副本数量确定模块401和副本构建模块402。
副本数量确定模块401,用于在删除重复数据块后,确定当前周期内每个数据块的重要性因子;根据每个数据块的重要性因子,确定每个数据块的副本数量。
副本构建模块402,用于根据每个数据块的副本数量,为每个数据块构建对应数量的副本。
可选的,副本数量确定模块401在确定当前周期内每个数据块的重要性因子时,具体用于:
针对每个数据块,确定当前周期内数据块被所在文件引用的次数、当前周期内数据块所在文件被访问的次数;
根据当前周期内数据块被所在文件引用的次数、当前周期内数据块所在文件被访问的次数,确定数据块的重要性因子。
可选的,副本数量确定模块401在根据每个数据块的重要性因子,确定每个数据块的副本数量时,具体用于:
根据数据块的重要性因子、数据块的可用性概率,确定数据块的影响因子;影响因子用于指示数据块丢失对系统数据造成的影响;
根据数据块的影响因子,确定数据块的副本数量。
可选的,数据处理装置400还包括:
获取模块403,用于获取目标存储空间大小。
副本数量确定模块401在根据数据块的影响因子,确定数据块的副本数量时,具体用于:
根据数据块的影响因子、目标存储空间大小,确定数据块的副本数量。
可选的,副本数量确定模块401在根据数据块的影响因子、目标存储空间大小,确定数据块的副本数量时,具体用于:
根据每个数据块的影响因子,确定全部数据块的综合影响因子与副本数量的关系;
确定每个数据块的副本数量,以使得综合影响因子最小。
可选的,数据处理装置400还包括:
周期调整模块404,用于确定最近两个周期内被访问文件的相似度;
根据被访问文件的相似度,调整周期的长度。
可选的,周期调整模块404在根据被访问文件的相似度,调整周期的长度时,具体用于:
若相似度高于第一预设阈值,则增大周期的长度。
本实施例的装置,可以用于执行上述任一实施例的方法,其实现原理和技术效果类似,此处不再赘述。
图5为本申请一实施例提供的一种电子设备的结构示意图,如图5所示,本实施例的电子设备500可以包括:存储器501、处理器502。
存储器501,用于存储程序指令。
处理器502,用于调用并执行存储器501中的程序指令,执行上述任一实施例的方法,其实现原理和技术效果类似,此处不再赘述。
本申请还提供了一种计算机可读存储介质,存储介质存储有计算机程序,计算机程序被处理器执行时,实现如上任一实施例的方法。
本申请还提供一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时实现如上任一实施例的方法。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims (7)

1.一种数据处理方法,其特征在于,包括:
在删除重复数据块后,针对每个数据块,确定当前周期内所述数据块被所在文件引用的次数、当前周期内所述数据块所在文件被访问的次数;
根据所述当前周期内所述数据块被所在文件引用的次数、所述当前周期内所述数据块所在文件被访问的次数,确定所述数据块的重要性因子;
根据每个所述数据块的重要性因子、所述数据块的可用性概率,确定所述数据块的影响因子;所述影响因子用于指示所述数据块丢失对系统数据造成的影响;
根据每个所述数据块的影响因子,确定全部数据块的综合影响因子与副本数量的关系;
确定每个所述数据块的副本数量,以使得所述综合影响因子最小;
根据每个所述数据块的副本数量,为每个所述数据块构建对应数量的副本;
其中,对于任意数据块i,其重要性因子计算如下:
所述数据块的总数为N,分布于M个文件;R为一个周期内,N个数据块被引用的总次数;ri为一个周期内,引用任意数据块i的文件数量;F为一个周期内,M个文件被访问的总次数;fj为任意文件j,在一个周期内,被访问的次数;α和β分别代表两个因素的权重,且两者之和为1。
2.根据权利要求1所述的方法,其特征在于,还包括:
获取目标存储空间大小;
所述确定所述数据块的副本数量,包括:
根据所述数据块的影响因子、所述目标存储空间大小,确定所述数据块的副本数量。
3.根据权利要求1所述的方法,其特征在于,还包括:
确定最近两个周期内被访问文件的相似度;
根据所述被访问文件的相似度,调整周期的长度。
4.根据权利要求3所述的方法,其特征在于,所述根据所述被访问文件的相似度,调整周期的长度,包括:
若相似度高于第一预设阈值,则增大所述周期的长度。
5.一种数据处理装置,其特征在于,包括:
副本数量确定模块,用于在删除重复数据块后,针对每个数据块,确定当前周期内所述数据块被所在文件引用的次数、当前周期内所述数据块所在文件被访问的次数;根据所述当前周期内所述数据块被所在文件引用的次数、所述当前周期内所述数据块所在文件被访问的次数,确定所述数据块的重要性因子;根据每个所述数据块的重要性因子、所述数据块的可用性概率,确定所述数据块的影响因子;所述影响因子用于指示所述数据块丢失对系统数据造成的影响;根据每个所述数据块的影响因子,确定全部数据块的综合影响因子与副本数量的关系;确定每个所述数据块的副本数量,以使得所述综合影响因子最小;副本构建模块,用于根据每个所述数据块的副本数量,为每个所述数据块构建对应数量的副本;
其中,对于任意数据块i,其重要性因子计算如下:
所述数据块的总数为N,分布于M个文件;R为一个周期内,N个数据块被引用的总次数;ri为一个周期内,引用任意数据块i的文件数量;F为一个周期内,M个文件被访问的总次数;fj为任意文件j,在一个周期内,被访问的次数;α和β分别代表两个因素的权重,且两者之和为1。
6.一种电子设备,其特征在于,包括:
存储器,用于存储程序指令;
处理器,用于调用并执行所述存储器中的程序指令,执行如权利要求1-4任一项所述的方法。
7.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时,实现如权利要求1-4任一项所述的方法。
CN202011488642.2A 2020-12-16 2020-12-16 数据处理方法、装置、电子设备和存储介质 Active CN112527751B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011488642.2A CN112527751B (zh) 2020-12-16 2020-12-16 数据处理方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011488642.2A CN112527751B (zh) 2020-12-16 2020-12-16 数据处理方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN112527751A CN112527751A (zh) 2021-03-19
CN112527751B true CN112527751B (zh) 2023-10-31

Family

ID=75000850

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011488642.2A Active CN112527751B (zh) 2020-12-16 2020-12-16 数据处理方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN112527751B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101471845A (zh) * 2007-12-27 2009-07-01 中国移动通信集团公司 数据块副本数量调整方法及元数据服务器节点
CN101645921A (zh) * 2009-04-17 2010-02-10 中国科学院声学研究所 一种片段流行度的更新方法
CN102111438A (zh) * 2010-12-24 2011-06-29 华为技术有限公司 参数调整方法、装置和分布式计算平台系统
CN108897865A (zh) * 2018-06-29 2018-11-27 北京奇虎科技有限公司 分布式集群的索引副本数量评估方法及装置
CN111290710A (zh) * 2020-01-20 2020-06-16 北京信息科技大学 一种基于动态调整复制因子的云副本存储方法及系统
CN111475108A (zh) * 2020-03-20 2020-07-31 平安国际智慧城市科技股份有限公司 一种分布式存储方法、计算机设备及计算机可读存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9471450B2 (en) * 2013-03-07 2016-10-18 International Business Machines Corporation Reducing data loss in a computing storage environment
US20190163371A1 (en) * 2017-11-30 2019-05-30 Cisco Technology, Inc. Next generation storage controller in hybrid environments

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101471845A (zh) * 2007-12-27 2009-07-01 中国移动通信集团公司 数据块副本数量调整方法及元数据服务器节点
CN101645921A (zh) * 2009-04-17 2010-02-10 中国科学院声学研究所 一种片段流行度的更新方法
CN102111438A (zh) * 2010-12-24 2011-06-29 华为技术有限公司 参数调整方法、装置和分布式计算平台系统
CN108897865A (zh) * 2018-06-29 2018-11-27 北京奇虎科技有限公司 分布式集群的索引副本数量评估方法及装置
CN111290710A (zh) * 2020-01-20 2020-06-16 北京信息科技大学 一种基于动态调整复制因子的云副本存储方法及系统
CN111475108A (zh) * 2020-03-20 2020-07-31 平安国际智慧城市科技股份有限公司 一种分布式存储方法、计算机设备及计算机可读存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Dynamic Replica Creation Strategy Based on File Heat and Node Load in Hybrid Cloud;YaHui Zhao 等;2017 19th International Conference on Advanced Communication Technology (ICACT);213-220 *
云存储环境下QoS感知的副本放置算法;张鸿 等;小型微型计算机系统;第37卷(第09期);1915-1919 *
基于HDFS的动态副本策略设计与实现;陈波 等;工业控制计算机;第28卷(第01期);103-105 *
智慧城市云存储系统中的副本量控制策略研究;刘小俊 等;武汉大学学报(信息科学版);第41卷(第09期);1205-1209页 *

Also Published As

Publication number Publication date
CN112527751A (zh) 2021-03-19

Similar Documents

Publication Publication Date Title
US10896102B2 (en) Implementing secure communication in a distributed computing system
US10929341B2 (en) Iterative object scanning for information lifecycle management
US9330108B2 (en) Multi-site heat map management
WO2017050014A1 (zh) 一种数据存储处理方法和装置
US8495166B2 (en) Optimized caching for large data requests
US10356150B1 (en) Automated repartitioning of streaming data
US11762598B2 (en) Memory system and method of controlling nonvolatile memory
CN110825704B (zh) 一种读数据方法、写数据方法及服务器
CN108920100B (zh) 基于Ceph的读写模型优化和异构副本组合方法
CN111737168A (zh) 一种缓存系统、缓存处理方法、装置、设备及介质
CN111475108A (zh) 一种分布式存储方法、计算机设备及计算机可读存储介质
CN111124309B (zh) 一种分片映射关系确定方法、装置、设备及存储介质
CN111159140B (zh) 数据处理方法、装置、电子设备及存储介质
JP5853109B2 (ja) 計算機、計算機システムの制御装置及び記録媒体
US11134121B2 (en) Method and system for recovering data in distributed computing system
CN112527751B (zh) 数据处理方法、装置、电子设备和存储介质
CN111506254B (zh) 分布式存储系统及其管理方法、装置
CN114930281A (zh) 动态自适应分区分割
CN115981848A (zh) 一种内存数据库分片调整方法、设备
US20150088826A1 (en) Enhanced Performance for Data Duplication
CN108769123B (zh) 一种数据系统及数据处理方法
CN112445653A (zh) 一种多时间窗口的混合容错云存储方法、装置及介质
CN115982101B (zh) 基于多机房副本放置策略的机房数据迁移方法与装置
CN116360711B (zh) 一种分布式存储处理方法、装置、设备及介质
Du et al. A cost-efficient data placement algorithm with high reliability in Hadoop

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant