CN109522151A - 用于数据冗余储存的方法及装置 - Google Patents

用于数据冗余储存的方法及装置 Download PDF

Info

Publication number
CN109522151A
CN109522151A CN201710831412.3A CN201710831412A CN109522151A CN 109522151 A CN109522151 A CN 109522151A CN 201710831412 A CN201710831412 A CN 201710831412A CN 109522151 A CN109522151 A CN 109522151A
Authority
CN
China
Prior art keywords
data
file
pending data
temperature
redundancy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710831412.3A
Other languages
English (en)
Inventor
李希亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201710831412.3A priority Critical patent/CN109522151A/zh
Publication of CN109522151A publication Critical patent/CN109522151A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1448Management of the data involved in backup or backup restore
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/12Accounting
    • G06Q40/125Finance or payroll

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开一种用于数据冗余储存的方法及装置。涉及计算机数据处理领域,该方法包括:获取待处理数据;确定所述待处理数据的文件热度数值;根据所述文件热度数值与预定热度阈值确定所述待处理数据的热度等级;以及根据所述热度等级确定所述待处理数据的数据冗余策略。本申请公开的用于数据冗余储存的方法及装置,能够解决了高访问量带来的节点负载不均衡的问题,还能够解决由较少访问量数据产生的浪费存储空间的问题。

Description

用于数据冗余储存的方法及装置
技术领域
本发明涉及计算机信息处理领域,具体而言,涉及一种用于数据冗余储存的方法及装置。
背景技术
财务系统存在着大量的对账单、交易流水等数据。为了保证数据的可靠性,通常采用副本冗余策略。一旦数据缺失或损坏,则可以使用备份的副本进行数据恢复。目前常用手段是采用完全副本冗余的方式保证数据的可靠性。完全副本冗余是将数据完整复制多份,分别存储在分布式存储系统的不同数据节点上,来提高数据的可用性和数据的并行处理效率。Hadoop分布式文件系统组件HDFS,采用的就是完全副本策略,HDFS默认采用的是三副本备份容灾,通过机架感知策略来进行数据存储,分别存放在本地机架节点、本地机架另一个节点、不同机架的节点上。基于文件分块的完全副本数据冗余策略是将数据文件进行分块,然后将各个文件块复制多个副本存储在不同的存储节点中。该策略与完全副本数据冗余策略类似,其主要区别在于所存储数据文件是完整的还是分块的。
传统的完全副本冗余机制对单数据节点进行数据复制建立冗余,具有很好的数据可用性,但是在多数据节点环境下,单纯的数据复制并不能保证数据较高的可用性。而且,完全副本冗余策略,将占据较大的系统存储空间。
因此,需要一种新的用于数据冗余储存的方法及装置。
在所述背景技术部分公开的上述信息仅用于加强对本发明的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
有鉴于此,本发明提供一种用于数据冗余储存的方法及装置,能够解决了高访问量带来的节点负载不均衡的问题,还能够解决了较少访问量数据浪费存储空间的问题。
本发明的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本发明的实践而习得。
根据本发明的一方面,提出一种用于数据冗余储存的方法,该方法包括:获取待处理数据;确定所述待处理数据的文件热度数值;根据所述文件热度数值与预定热度阈值确定所述待处理数据的热度等级;以及根据所述热度等级确定所述待处理数据的数据冗余策略。
在本公开的一种示例性实施例中,所述待处理数据包括:对账单数据与交易流水数据。
在本公开的一种示例性实施例中,所述根据所述热度等级确定所述待处理数据的数据冗余策略,包括:根据所述热度等级,通过完全副本冗余处理所述待处理数据。
在本公开的一种示例性实施例中,所述根据所述热度等级确定所述待处理数据的数据冗余策略,还包括:根据所述热度等级,通过副本缩减处理所述待处理数据。
在本公开的一种示例性实施例中,所述根据所述热度等级确定所述待处理数据的数据冗余策略,还包括:根据所述热度等级,通过RS纠删码冗余处理所述待处理数据。
在本公开的一种示例性实施例中,所述确定所述待处理数据的文件热度数值,包括:通过热度计算公式确定所述待处理数据的文件热度数值:
其中,Hi为第i个周期文件的热度,Hi-1为第i-1个周期文件的热度,mi为第i个周期文件的访问次数,Ni为第i个周期系统中所有文件的总访问次数,a为历史访问系数,a>0,b为周期访问系数b>0,a+b=1。
在本公开的一种示例性实施例中,所述热度计算公式,还包括:
其中,Havr为平均热度,Hi为第i个周期文件的热度。
根据本发明的一方面,提出一种用于数据冗余储存的装置,该装置包括:数据模块,用于获取待处理数据;热度数值模块,用于确定所述待处理数据的文件热度数值;热度等级模块,用于根据所述文件热度数值与预定热度阈值确定所述待处理数据的热度等级;以及数据冗余模块,用于根据所述热度等级确定所述待处理数据的数据冗余策略。
根据本发明的一方面,提出一种电子设备,该电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上文的方法。
根据本发明的一方面,提出一种计算机可读介质,其上存储有计算机程序,其特征在于,程序被处理器执行时实现如上文中的方法。
根据本发明的用于数据冗余储存的方法及装置,能够解决了高访问量带来的节点负载不均衡的问题,还能够解决了较少访问量数据浪费存储空间的问题。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本发明。
附图说明
通过参照附图详细描述其示例实施例,本发明的上述和其它目标、特征及优点将变得更加显而易见。下面描述的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据一示例性实施例示出的一种用于数据冗余储存的方法的系统架构。
图2是根据一示例性实施例示出的一种用于数据冗余储存的方法的流程图。
图3是根据一示例性实施例示出的一种用于数据冗余储存的方法的示意图。
图4是根据一示例性实施例示出的一种用于数据冗余储存的方法的示意图。
图5是根据一示例性实施例示出的一种用于数据冗余储存的装置的框图。
图6是根据一示例性实施例示出的一种电子设备的框图。
图7是根据一示例性实施例示出的一种计算机可读介质示意图。
具体实施例
现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例;相反,提供这些实施例使得本发明将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本发明的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本发明的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
应理解,虽然本文中可能使用术语第一、第二、第三等来描述各种组件,但这些组件不应受这些术语限制。这些术语乃用以区分一组件与另一组件。因此,下文论述的第一组件可称为第二组件而不偏离本公开概念的教示。如本文中所使用,术语“及/或”包括相关联的列出项目中的任一个及一或多者的所有组合。
本领域技术人员可以理解,附图只是示例实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的,因此不能用于限制本发明的保护范围。
下面结合附图对本公开示例实施方式进行详细说明。
图1是根据一示例性实施例示出的一种用于数据冗余储存的方法的系统架构。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所金融类网站提供支持的后台管理服务器。后台管理服务器可以对接收到的待处理数据的查询请求等数据进行分析等处理,并将处理结果(例如热度等级,热度分析数据等)反馈给终端设备。
需要说明的是,本申请实施例所提供的数据冗余方法一般由服务器105执行,相应地,数据冗余处理装置一般设置于客户端101中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
图2是根据一示例性实施例示出的一种用于数据冗余储存的方法的流程图。
如图2所示,在S202中,获取待处理数据。所述待处理数据可例如包括:对账单数据与交易流水数据。本申请的申请人发现,财务系统存在着大量的对账单、交易流水等数据,但是针对不同的使用场景,数据的可靠性要求不一。对账单数据的使用场景即对于较新的资源数据,往往访问量较大,而对于历史资源数据,访问量很小。在本发明的实施例中,针对文中这种数据进行处理。待处理的数据还可例如包括其他形式的需要进行冗余储存的数据。
在S204中,确定所述待处理数据的文件热度数值。包括:通过热度计算公式确定所述待处理数据的文件热度数值:其中,Hi为第i个周期文件的热度,Hi-1为第i-1个周期文件的热度,mi为第i个周期文件的访问次数,Ni为第i个周期系统中所有文件的总访问次数,a为历史访问系数,a>0,b为周期访问系数b>0,a+b=1。热度计算公式,还包括:其中,Havr为平均热度,Hi为第i个周期文件的热度。
在S206中,根据所述文件热度数值与预定热度阈值确定所述待处理数据的热度等级。可例如,根据预设的热度阈值将待处理的数据的热度分为高、中、低三个等级。预定的热力阈值可例如根据历史数据的经验所确定。
在S208中,根据所述热度等级确定所述待处理数据的数据冗余策略。可例如,根据上文中确定的热度等级,当所述热度等级为高等级时,通过完全副本冗余处理所述待处理数据;当所述热度等级为中等级时,通过副本缩减处理所述待处理数据;当所述热度等级为低等级时,通过RS纠删码冗余处理所述待处理数据。本案申请人发现,热度较高的数据和热度较低的数据应用相同的冗余策略。显然热度较低的数据由于访问量小,采用相同的冗余策略,造成存储空间的浪费。对于访问热度较低的数据资源,可例如不进行保存副本,而采取RS纠删码冗余策略编码存储。使系统在相同冗余度的前提下利用更少的存储空间获得比完全副本策略更高的数据可靠性。
根据本发明的用于数据冗余储存的方法,通过热力数值将待处理的数据进行分级,对不同的分级的数据采用不同的数据冗余处理的手段,能够解决了高访问量带来的节点负载不均衡的问题,还能够解决了较少访问量数据浪费存储空间的问题。
应清楚地理解,本发明描述了如何形成和使用特定示例,但本发明的原理不限于这些示例的任何细节。相反,基于本发明公开的内容的教导,这些原理能够应用于许多其它实施例。
在本公开的一种示例性实施例中,还包括:根据所述热度等级,通过RS纠删码冗余处理所述待处理数据。图3是根据一示例性实施例示出的一种用于数据冗余储存的方法的流程图。纠删码:也称为前向纠错(FEC)编码,随后产生了不同类型。其中一个最早也是最常见的类型就是RS纠删码(Reed-Solomon),这种类型的数据可以使用任何k符号的组合或数据块来重建,即使m符号丢失或不可用。比如,在EC 10/16中,即使有6个驱动器、节点或者地理位置丢失或不可用,而原始文件还是可以恢复。
如图3所示,纠删码原理的基本思想是:对k个数据编码,生成n个编码数据(n>k),在n个编码数据中任意取k’个数据都能够恢复出k个源数据(k’≥k),当k’=k时,定义为最优纠删码,当n>k’>k时,定义为次优纠删码。上述纠删码被称为(n,k)纠删码。
纠删码的数学表示为,将数据分割为k个块,表示为X=(X1,X2,…,Xk)。假设纠删码编码函数为E,解码函数为F,对源文件数据编码E(X)=(X1’,X2’,…,Xk’),设E(X’)是E(X)中任意k’(k’≥k)个数据块组成的子文件数据,那么F(E(X’))=X,即得到E(X)中任意k’个数据块就可以根据解码函数F还原出原始数据。
(n,k)纠删码用表达式Y=XW表示,其中X=(x0,x1,…,xk-1)为源数据向量,Y=(y0,y1,…,yn-1)为编码数据向量,W是k×n矩阵,称W是纠删码的生成矩阵。若W中任意k列组成的子矩阵W’可逆,则通过n个编码数据中任取k’都可以恢复出k个原始数据。
对于完全副本机制,若采用D-1维复制策略,k个文件数据会生成(D-1)×k个副本,系统中共有(D-1)×k+k=D×k个文件数据,则系统中文件数据的可用性用公式(1)表示,其中p为数据节点可用性概率。
对于(n,k)纠删码机制,冗余度k个文件数据编码得到e×k个文件数据,e×k个文件数据中只需任意k’(k’≥k)个数据就可以恢复出k个源数据,纠删码机制下文件数据的可用性用公式(2)表示。
针对分布式文件系统,假设节点可用性概率p=0.8,定义数据节点数k≥2。完全副本冗余机制下,假设为一维复制,纠删码冗余机制下,假设冗余度e=2且为最优纠删码,根据k值的不同得到如图4的结果。随着k的增加,一维复制的数据可用性下降明显,而纠删码的数据可用性却逐渐趋向于1。说明在假设前提下,系统中采用纠删码冗余比一维复制冗余的数据可用性要高很多。
在本发明实施例中,可例如针对财务系统对账数据的特点,新旧资源数据的访问量不同和数据可用性的差异性,对数据复制技术进行调整,原本的默认3副本复制调整为根据资源数据的访问量计算文件热度,根据设置的热度级别,调整文件副本数量。这样一方面解决了高访问量带来的节点负载不均衡的问题,另一方面解决了较少访问量数据浪费存储空间的问题。
根据文件的访问频率,文件热度可以定义为最近时间周期T内该文件的总访问次数与周期T内所有文件的总访问次数的比值。文件热度的数学表示为:
由于文件的访问量比值决定了文件热度,而历史访问量往往会影响到之后的访问量,从而影响热度,基于此,本发明实施例中,将热度计算公式改进为:
其中,Hi表示第i个周期文件的热度,Hi-1表示第i-1个周期文件的热度,mi表示第i个周期文件的访问次数,Ni表示第i个周期系统中所有文件的总访问次数。a为历史访问系数,b为周期访问系数,满足a>0,b>0且a+b=1。a,b系数的选取可以根据用户的不同情况而设置,a的取值更趋近1时,表明文件的历史访问量波动较大,当前周期的访问频率对文件的热度影响较小,应考虑整体访问情况;b的取值更趋近1时,表明文件的历史访问量波动较小,当前周期的访问频率可以代表近几个周期的访问频率,在一般情况下最近的访问情况具有更重要的作用。
通过本发明提出的的热度计算公式,充分考虑到历史访问量对之后文件热度的影响,可以更为准确的计算文件热度。通过一个例子来说明一下新的热度公式的优势。假设a=b=0.5,第1个周期的热度为1/10,第2个周期的mi、Ni的值分别为100、1000,第3个周期的mi、Ni的值分别为10、1000,通过计算,可以得到如下文件热度:
表1文件热度对比
周期 原热度公式 改进后热度公式
2 1/10 1/10
3 1/100 11/200
通过表1可知,当第2个周期时,访问量相比于第1个周期没有发生改变,两个公式计算的热度值相同,但当第3个周期时,访问量由100下降至10,总访问量保存不变,两个公式计算的热度值就有了差异。由于原热度计算公式没有考虑历史访问量,所以计算数值为1/100,而改进后的热度计算公式考虑到历史文件热度,计算数值为11/200。
根据本发明的用于数据冗余储存的方法,通改进后热力数公式计算待处理数据的热力数值,更贴合于文件访问量的变化,计算获得的热度更为准确。
根据式(4)可知,得到:
在本实施例中,为了方便计算,可例如将文件初始热度值H0初始化为0,简化热度计算公式。
还可例如选用24小时作为一个时间周期,根据单个文件的热度计算所有文件的平均热度,数学表示为:
对热度较高的文件进行增加副本,提高访问效率、降低所在节点负载;对于热度较低文件进行删除副本,节约存储空间;对于副本数低于3的文件,进行纠删码编码存储。根据经验,本文可例如将文件热度设置为六个级别,如表2所示。
表2文件热度级别副本数
热度阀值 热度级别 副本数
H<sub>i</sub>≥4H<sub>avr</sub> 1 5
2H<sub>avr</sub>&lt;H<sub>i</sub>≤4H<sub>avr</sub> 2 4
H<sub>avr</sub>&lt;H<sub>i</sub>≤2H<sub>avr</sub> 3 3
1/2H<sub>avr</sub>&lt;H<sub>i</sub>≤H<sub>avr</sub> 4 2
1/8H<sub>avr</sub>&lt;H<sub>i</sub>≤1/2H<sub>avr</sub> 5 1
H<sub>i</sub>&lt;1/8H<sub>avr</sub> 6 0
对于副本数低于3的文件,数据可用性有所下降,为了保证数据可用性和减少存储开销,可例如采用纠删码编码存储。下表为一维复制、二维复制、三维复制和纠删码编码下数据的可用性对比数据。由于系统为分布式文件系统,假设k≥2,节点可用概率p=0.8,纠删码冗余度可例如选取e=2。完全副本冗余机制下,采用一维复制,k个文件数据会产生k个副本冗余,系统中共有2k个文件数据;对于(n,k)纠删码机制,当冗余度e=2时,k个文件数据编码得到2k个编码数据,此时的存储开销与一维完全副本冗余机制一样。由公式(1)和公式(2)计算得到如下数据可用性对比表。
由表3可知,尽管一维复制和二维复制的数据可用性有所下降,但采用纠删码冗余编码后,数据可用性已经十分接近三维复制的数据可用性。当冗余度e>2时,数据可用性远高于三维复制的数据可用性。所以对于副本数低于3的文件采用纠删码冗余可以提高数据可用性。
表3数据可用性对比
K 一维复制 二维复制 三维复制 纠删码
2 0.9216 0.9840 0.9968 0.9801
3 0.8847 0.9761 0.9952 0.9835
4 0.8493 0.9683 0.9936 0.9874
5 0.8153 0.9606 0.9920 0.9921
6 0.7827 0.9529 0.9904 0.9989
7 0.7514 0.9453 0.9888 0.9991
8 0.7214 0.9377 0.9872 0.9995
9 0.6925 0.9302 0.9856 0.9998
根据表4所示,对于副本数低于3的文件进行编码存储,根据文件热度的不同,文件采用不同的副本数。当采用完全副本冗余机制时,系统的总存储开销为2753G,当采用RS纠删码冗余机制时,系统的总存储开销为2246G。所以该策略可以在保证数据可用性的前提下减少系统存储开销。这样就解决了访问量较小的数据资源浪费存储空间的问题。
表4不同副本数的存储开销
在本实施例中,可例如对副本数低于3的文件进行编码存储,目的是对于热度较低的文件减少其副本数,在保证其数据可用性的同时节省存储空间。
表5副本不同策略的存储开销
文件大小 副本数 副本大小 RS编码文件大小 总大小
82G 3 246G 0G 246G
82G 2 164G 140G 304G
82G 1 82G 140G 222G
通过表5所示,当文件热度下降,副本数下调至2时,总的存储开销为304G,要高于副本数为3时,未进行文件编码的策略。但是当副本数设置为2时,数据可用性有所下降,为了保证数据可用性,可例如将文件进行RS编码操作,这样保证了数据的可用性。当副本数低至1时,同样优先保证数据可用性,而且通过表中所示,总的存储开销为222G,小于3副本策略存储开销的246G,同时节省了存储空间。
同样,当文件访问量增大,文件的热度变高,用户的大量请求使得这些存储数据文件的节点负载压力过大,造成响应时间过长。由于访问量的增大,副本数由起初设置的2调整为3,为的是在保证数据可用性的同时降低节点负载,减少响应时长。当文件访问量为100次/min时,响应时间超过5s,而将副本调整为3时,文件访问量为150次/min时,响应时间刚刚超过5s。所以,当访问量增大时,增加副本数,可以保证数据的可用性,同时降低节点负载压力,减少访问延迟。
根据本发明的用于数据冗余储存的方法,通过RS纠删码冗余处理热度较低的数据的方式,能够在保证其数据可用性的同时节省存储空间。
根据本发明的用于数据冗余储存的方法,完全副本冗余与基于RS纠删码的数据冗余相结合的冗余策略方式,能够使系统在相同冗余度的前提下利用更少的存储空间获得比完全副本策略更高的数据可靠性。
本领域技术人员可以理解实现上述实施例的全部或部分步骤被实现为由CPU执行的计算机程序。在该计算机程序被CPU执行时,执行本发明提供的上述方法所限定的上述功能。所述的程序可以存储于一种计算机可读存储介质中,该存储介质可以是只读存储器,磁盘或光盘等。
此外,需要注意的是,上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
下述为本发明装置实施例,可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节,请参照本发明方法实施例。
图5是根据一示例性实施例示出的一种用于数据冗余储存的装置的框图。
数据模块502用于获取待处理数据。
热度数值模块504用于确定所述待处理数据的文件热度数值。
热度等级模块506用于根据所述文件热度数值与预定热度阈值确定所述待处理数据的热度等级。
数据冗余模块508用于根据所述热度等级确定所述待处理数据的数据冗余策略。
根据本发明的用于数据冗余储存的装置,通过热力数值将待处理的数据进行分级,对不同的分级的数据采用不同的数据冗余处理的手段,能够解决了高访问量带来的节点负载不均衡的问题,还能够解决了较少访问量数据浪费存储空间的问题。
图6是根据一示例性实施例示出的一种电子设备的框图。
下面参照图6来描述根据本发明的这种实施方式的电子设备200。图6显示的电子设备200仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图6所示,电子设备200以通用计算设备的形式表现。电子设备200的组件可以包括但不限于:至少一个处理单元210、至少一个存储单元220、连接不同系统组件(包括存储单元220和处理单元210)的总线230、显示单元240等。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元210执行,使得所述处理单元210执行本说明书上述电子处方流转处理方法部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元210可以执行如图2中所示的步骤。
所述存储单元220可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)2201和/或高速缓存存储单元2202,还可以进一步包括只读存储单元(ROM)2203。
所述存储单元220还可以包括具有一组(至少一个)程序模块2205的程序/实用工具2204,这样的程序模块2205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线230可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备200也可以与一个或多个外部设备300(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备200交互的设备通信,和/或与使得该电子设备200能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口250进行。并且,电子设备200还可以通过网络适配器260与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器260可以通过总线230与电子设备200的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备200使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本公开实施方式的上述电子处方流转处理方法。
图7是根据一示例性实施例示出的一种计算机可读介质示意图。
参考图7所示,描述了根据本发明的实施方式的用于实现上述方法的程序产品400,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该计算机可读介质实现如下功能:获取待处理数据;确定所述待处理数据的文件热度数值;根据所述文件热度数值与预定热度阈值确定所述待处理数据的热度等级;以及根据所述热度等级确定所述待处理数据的数据冗余策略。
本领域技术人员可以理解上述各模块可以按照实施例的描述分布于装置中,也可以进行相应变化唯一不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
通过以上的实施例的描述,本领域的技术人员易于理解,这里描述的示例实施例可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本发明实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本发明实施例的方法。
通过以上的详细描述,本领域的技术人员易于理解,根据本发明实施例的用于数据冗余储存的方法及装置具有以下优点中的一个或多个。
根据一些实施例,本发明的用于数据冗余储存的方法,通过热力数值将待处理的数据进行分级,对不同的分级的数据采用不同的数据冗余处理的手段,能够解决了高访问量带来的节点负载不均衡的问题,还能够解决了较少访问量数据浪费存储空间的问题。
根据另一些实施例,本发明的用于数据冗余储存的方法,通改进后热力数公式计算待处理数据的热力数值,更贴合于文件访问量的变化,计算获得的热度更为准确。
根据再一些实施例,本发明的用于数据冗余储存的方法,完全副本冗余与基于RS纠删码的数据冗余相结合的冗余策略方式,能够使系统在相同冗余度的前提下利用更少的存储空间获得比完全副本策略更高的数据可靠性。
以上具体地示出和描述了本发明的示例性实施例。应可理解的是,本发明不限于这里描述的详细结构、设置方式或实现方法;相反,本发明意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。
此外,本说明书说明书附图所示出的结构、比例、大小等,均仅用以配合说明书所公开的内容,以供本领域技术人员了解与阅读,并非用以限定本公开可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本公开所能产生的技术效果及所能实现的目的下,均应仍落在本公开所公开的技术内容得能涵盖的范围内。同时,本说明书中所引用的如“上”、“第一”、“第二”及“一”等的用语,也仅为便于叙述的明了,而非用以限定本公开可实施的范围,其相对关系的改变或调整,在无实质变更技术内容下,当也视为本发明可实施的范畴。

Claims (10)

1.一种用于数据冗余储存的方法,其特征在于,包括:
获取待处理数据;
确定所述待处理数据的文件热度数值;
根据所述文件热度数值与预定热度阈值确定所述待处理数据的热度等级;以及
根据所述热度等级确定所述待处理数据的数据冗余策略。
2.如权利要求1所述的方法,其特征在于,所述待处理数据包括:
对账单数据与交易流水数据。
3.如权利要求1所述的方法,其特征在于,所述根据所述热度等级确定所述待处理数据的数据冗余策略,包括:
根据所述热度等级,通过完全副本冗余处理所述待处理数据。
4.如权利要求1所述的方法,其特征在于,所述根据所述热度等级确定所述待处理数据的数据冗余策略,还包括:
根据所述热度等级,通过副本缩减处理所述待处理数据。
5.如权利要求1所述的方法,其特征在于,所述根据所述热度等级确定所述待处理数据的数据冗余策略,还包括:
根据所述热度等级,通过RS纠删码冗余处理所述待处理数据。
6.如权利要求1所述的方法,其特征在于,所述确定所述待处理数据的文件热度数值,包括:
通过热度计算公式确定所述待处理数据的文件热度数值:
其中,Hi为第i个周期文件的热度,Hi-1为第i-1个周期文件的热度,mi为第i个周期文件的访问次数,Ni为第i个周期系统中所有文件的总访问次数,a为历史访问系数,a>0,b为周期访问系数b>0,a+b=1。
7.如权利要求6所述的方法,其特征在于,所述热度计算公式,还包括:
其中,Havr为平均热度,Hi为第i个周期文件的热度。
8.一种用于用于数据冗余储存的装置,其特征在于,包括:
数据模块,用于获取待处理数据;
热度数值模块,用于确定所述待处理数据的文件热度数值;
热度等级模块,用于根据所述文件热度数值与预定热度阈值确定所述待处理数据的热度等级;以及
数据冗余模块,用于根据所述热度等级确定所述待处理数据的数据冗余策略。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。
CN201710831412.3A 2017-09-15 2017-09-15 用于数据冗余储存的方法及装置 Pending CN109522151A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710831412.3A CN109522151A (zh) 2017-09-15 2017-09-15 用于数据冗余储存的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710831412.3A CN109522151A (zh) 2017-09-15 2017-09-15 用于数据冗余储存的方法及装置

Publications (1)

Publication Number Publication Date
CN109522151A true CN109522151A (zh) 2019-03-26

Family

ID=65767415

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710831412.3A Pending CN109522151A (zh) 2017-09-15 2017-09-15 用于数据冗余储存的方法及装置

Country Status (1)

Country Link
CN (1) CN109522151A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110839069A (zh) * 2019-11-04 2020-02-25 深圳市网心科技有限公司 一种节点数据部署方法、部署节点、系统及介质
CN111104365A (zh) * 2019-11-25 2020-05-05 深圳市网心科技有限公司 一种文件部署方法、装置、设备及可读存储介质
CN111475108A (zh) * 2020-03-20 2020-07-31 平安国际智慧城市科技股份有限公司 一种分布式存储方法、计算机设备及计算机可读存储介质
CN112148512A (zh) * 2019-06-27 2020-12-29 腾讯科技(深圳)有限公司 一种内容库管理方法、装置、设备及存储介质
CN112394873A (zh) * 2019-08-12 2021-02-23 深信服科技股份有限公司 一种数据管理方法、系统及电子设备和存储介质
CN113703688A (zh) * 2021-09-20 2021-11-26 河南锦誉网络科技有限公司 一种基于大数据和文件热度的分布式存储节点负载调整方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6868048B1 (en) * 2000-02-04 2005-03-15 Seagate Technology, Llc Data storage system having thermally activated readout
CN103150347A (zh) * 2013-02-07 2013-06-12 浙江大学 基于文件热度的动态副本管理方法
CN103220367A (zh) * 2013-05-13 2013-07-24 深圳市中博科创信息技术有限公司 数据复制方法及数据存储系统
CN103631894A (zh) * 2013-11-19 2014-03-12 浪潮电子信息产业股份有限公司 一种基于hdfs的动态副本管理方法
CN103838860A (zh) * 2014-03-19 2014-06-04 华存数据信息技术有限公司 一种基于动态副本策略的文件存储系统及其存储方法
CN106886376A (zh) * 2017-03-30 2017-06-23 上海海洋大学 一种基于多属性最优化的海洋监测数据副本管理方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6868048B1 (en) * 2000-02-04 2005-03-15 Seagate Technology, Llc Data storage system having thermally activated readout
CN103150347A (zh) * 2013-02-07 2013-06-12 浙江大学 基于文件热度的动态副本管理方法
CN103220367A (zh) * 2013-05-13 2013-07-24 深圳市中博科创信息技术有限公司 数据复制方法及数据存储系统
CN103631894A (zh) * 2013-11-19 2014-03-12 浪潮电子信息产业股份有限公司 一种基于hdfs的动态副本管理方法
CN103838860A (zh) * 2014-03-19 2014-06-04 华存数据信息技术有限公司 一种基于动态副本策略的文件存储系统及其存储方法
CN106886376A (zh) * 2017-03-30 2017-06-23 上海海洋大学 一种基于多属性最优化的海洋监测数据副本管理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王引娜 等: "基于RS纠删码的HDFS云存储动态副本策略研究", 《科技创新导报》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112148512A (zh) * 2019-06-27 2020-12-29 腾讯科技(深圳)有限公司 一种内容库管理方法、装置、设备及存储介质
CN112394873A (zh) * 2019-08-12 2021-02-23 深信服科技股份有限公司 一种数据管理方法、系统及电子设备和存储介质
CN112394873B (zh) * 2019-08-12 2024-05-24 深信服科技股份有限公司 一种数据管理方法、系统及电子设备和存储介质
CN110839069A (zh) * 2019-11-04 2020-02-25 深圳市网心科技有限公司 一种节点数据部署方法、部署节点、系统及介质
CN110839069B (zh) * 2019-11-04 2021-09-24 深圳市网心科技有限公司 一种节点数据部署方法、部署节点、系统及介质
CN111104365A (zh) * 2019-11-25 2020-05-05 深圳市网心科技有限公司 一种文件部署方法、装置、设备及可读存储介质
CN111475108A (zh) * 2020-03-20 2020-07-31 平安国际智慧城市科技股份有限公司 一种分布式存储方法、计算机设备及计算机可读存储介质
CN111475108B (zh) * 2020-03-20 2023-11-28 深圳赛安特技术服务有限公司 一种分布式存储方法、计算机设备及计算机可读存储介质
CN113703688A (zh) * 2021-09-20 2021-11-26 河南锦誉网络科技有限公司 一种基于大数据和文件热度的分布式存储节点负载调整方法
CN113703688B (zh) * 2021-09-20 2024-03-15 安徽丰合佳行信息技术有限公司 一种基于大数据和文件热度的分布式存储节点负载调整方法

Similar Documents

Publication Publication Date Title
CN109522151A (zh) 用于数据冗余储存的方法及装置
US10229004B2 (en) Data transfer priority levels
US10652350B2 (en) Caching for unique combination reads in a dispersed storage network
US20170212839A1 (en) Allocating cache memory in a dispersed storage network
US20180074903A1 (en) Processing access requests in a dispersed storage network
US10860256B2 (en) Storing data utilizing a maximum accessibility approach in a dispersed storage network
US10558592B2 (en) Priority level adaptation in a dispersed storage network
CN110399212A (zh) 任务请求处理方法、装置、电子设备及计算机可读介质
US12086079B2 (en) Generating messages with priorities in a storage network
US9875158B2 (en) Slice storage in a dispersed storage network
CN110020124A (zh) 用于相关产品挖掘的方法及装置
CN109842652A (zh) 一种文件的上传方法、终端、云服务器和计算机存储介质
US10469406B2 (en) Partial task execution in a dispersed storage network
US10275185B2 (en) Fail-in-place supported via decentralized or Distributed Agreement Protocol (DAP)
US10318445B2 (en) Priority level adaptation in a dispersed storage network
CN110020360A (zh) 用户行为特征提取的方法,系统及服务器
US20170357666A1 (en) Implementing queues (fifo) and stacks (filo) on top dispersed storage
Xiong et al. Stochastic unit commitment problem considering risk constraints and its improved GA‐based solution method
CN116362800A (zh) 加速消费回馈分润的系统
US20170346898A1 (en) Enhancing performance of data storage in a dispersed storage network
US10044807B2 (en) Optimistic checked writes
Cao et al. Novel techniques for continuation method to calculate the limit-induced bifurcation of the power flow equation
KR102172321B1 (ko) 데이터 중복 제거 방법
US10585715B2 (en) Partial task allocation in a dispersed storage network
US10430122B2 (en) Using partial rebuilding to change information dispersal algorithm (IDA)

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190326