CN109960612B - 一种确定数据存储占比的方法、装置及服务器 - Google Patents

一种确定数据存储占比的方法、装置及服务器 Download PDF

Info

Publication number
CN109960612B
CN109960612B CN201910172274.1A CN201910172274A CN109960612B CN 109960612 B CN109960612 B CN 109960612B CN 201910172274 A CN201910172274 A CN 201910172274A CN 109960612 B CN109960612 B CN 109960612B
Authority
CN
China
Prior art keywords
data
hash
standard digital
block
data block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910172274.1A
Other languages
English (en)
Other versions
CN109960612A (zh
Inventor
李海翔
李昊华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910172274.1A priority Critical patent/CN109960612B/zh
Publication of CN109960612A publication Critical patent/CN109960612A/zh
Application granted granted Critical
Publication of CN109960612B publication Critical patent/CN109960612B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1458Management of the backup or restore process
    • G06F11/1464Management of the backup or restore process for networked environments

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种确定数据存储占比的方法、装置及服务器,所述方法包括:获取与文件数据中目标数据一一对应的标准数字型数据,所述文件数据中的目标数据为多种类型的数据;确定所述标准数字型数据的第一数值区间与目标数据块所对应的标准数字型数据的第二数值区间的交集数值区间,所述目标数据块为所述文件数据的任一数据块;基于预设哈希函数确定所述交集数值区间中的标准数字型数据在所述目标数据块所对应哈希表中的哈希下标区间,所述哈希表包括与哈希下标对应的标准数字型数据的出现次数;将所述哈希下标区间所对应的标准数字型数据的出现次数之和除以目标数据块中数据的总数量,得到所述目标数据在所述目标数据块中的存储占比。

Description

一种确定数据存储占比的方法、装置及服务器
技术领域
本发明涉及计算机技术领域,尤其涉及一种确定数据存储占比的方法、装置及服务器。
背景技术
近年来,随着计算机技术和互联网技术的快速发展,每天都有海量的数据产生,为了保证数据的安全,往往需要对数据进行备份存储。
在数据备份处理过程中,备份数据的存储占比是影响数据备份速度和被备份的数据的精准程度的重要因数,目前现有技术还没有提供一种有效的方案可以快速的计算数据的存储占比以加快数据库的备份速度。因此,亟需一种有效可靠的方案来快速准确的确定出数据的存储占比。
发明内容
本发明提供了一种确定数据存储占比的方法、装置及服务器,可以快速准确的确定出各种类型数据的存储占比。
一方面,本发明提供了一种确定数据存储占比的方法,所述方法包括:
获取与文件数据中目标数据一一对应的标准数字型数据,所述文件数据中的目标数据为多种类型的数据;
确定所述标准数字型数据的第一数值区间与目标数据块所对应的标准数字型数据的第二数值区间的交集数值区间,所述目标数据块为所述文件数据的任一数据块;
基于预设哈希函数确定所述交集数值区间中的标准数字型数据在所述目标数据块所对应哈希表中的哈希下标区间,所述哈希表包括与哈希下标对应的标准数字型数据的出现次数;
将所述哈希下标区间所对应的标准数字型数据的出现次数之和除以目标数据块中数据的总数量,得到所述目标数据在所述目标数据块中的存储占比。
另一方面提供了一种确定数据存储占比的装置,所述装置包括:
第一标准数字型数据获取模块,用于获取与文件数据中目标数据一一对应的标准数字型数据,所述文件数据中的目标数据为多种类型的数据;
交集数值区间确定模块,用于确定所述标准数字型数据的第一数值区间与目标数据块所对应的标准数字型数据的第二数值区间的交集数值区间,所述目标数据块为所述文件数据的任一数据块;
第一哈希映射处理模块,用于基于预设哈希函数确定所述交集数值区间中的标准数字型数据在所述目标数据块所对应哈希表中的哈希下标区间,所述哈希表包括与哈希下标对应的标准数字型数据的出现次数;
第一存储占比计算模块,用于将所述哈希下标区间所对应的标准数字型数据的出现次数之和除以目标数据块中数据的总数量,得到所述目标数据在所述目标数据块中的存储占比。
另一方面提供了一种确定数据存储占比的服务器,所述服务器包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述的确定数据存储占比的方法。
本发明提供的确定数据存储占比的方法、装置及服务器,具有如下技术效果:
本发明将文件数据中目标数据转化成统一类型的标准数字型数据,确定相应的第一数值区间与数据块的第二数值区间的交集数值区间;以及该交集数值区间中的标准数字型数据在目标数据块所对应哈希表中的哈希下标区间;最后,将哈希下标区间所对应的标准数字型数据的出现次数之和除以目标数据块中数据的总数量,可以快速得到目标数据在目标数据块中的存储占比,实现无论什么类型的数据均可以以统一方式来快速确定数据存储占比。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是本发明实施例提供的一种应用环境的示意图;
图2是本发明实施例提供的一种生成文件数据的哈希表方法的流程示意图;
图3是本发明实施例提供的一种基于预设哈希函数对数据块所对应的标准数字型数据进行哈希映射处理,构建所述数据块所对应的哈希表方法的流程示意图;
图4是本发明实施例提供的一种标准数字型数据映射到哈希表的示意图;
图5是本发明实施例提供另一种标准数字型数据映射到哈希表的示意图;
图6是本发明实施例提供的一种哈希表存储格式的示意图;
图7是本发明实施例提供的一种确定数据存储占比的方法的流程示意图;
图8是本发明实施例提供的一种确定所述标准数字型数据的第一数值区间与目标数据块所对应的标准数字型数据的第二数值区间的交集数值区间方法的流程示意图;
图9是本发明实施例提供的一种备份策略确定方法的流程示意图;
图10是本发明实施例提供的一种确定数据存储占比的装置的结构示意图;
图11是本发明实施例提供的一种服务器的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
请参阅图1,图1是本发明实施例提供的一种应用环境的示意图,如图1所示,该应用环境至少包括服务器01和数据库02。
具体的,所述服务器01可以包括一个独立运行的服务端,或者分布式服务端,或者由多个服务端组成的服务端集群。
具体的,所述数据库02可以包括但不限于关系型数据库MySQL,所述数据库可以用于存储文件数据、文件数据中数据的存储占比,以及文件数据的数据块中数据的存储占比等信息。
本说明书实施例中,所述服务器01可以用于对数据库02中存储的文件数据进行数据存储占比的计算。
在实际应用中,文件数据可以以数据块的形式存储在数据库中,一般的,一个文件数据可以有一个或多个数据块,每个数据块中可以包括一种或多种类型的数据(元组)。为了对不同类型的数据进行存储占比的确定,可以将文件数据中的数据都转换成统一的数据类型,并通过将统一类型的数据进行哈希映射处理,得到包括与统一类型的数据相对应的哈希值的哈希表,并基于哈希表来进行数据存储占比的计算。以下首先介绍一种生成文件数据的哈希表的实施例。如图2所示,可以包括:
S201:确定所述文件数据的数据块,所述数据块包括多种类型的数据。
S203:将所述文件数据的数据块中的多种类型的数据转换成标准数字型数据。
本说明书实施例中,所述标准数字型数据可以包括但不限于整数类型和浮点数类型的数字数据。数据的类型可以包括但不限于下述几种数据类型:数字类型、日期和时间类型、字符串类型。
具体的,当数据块中的数据的类型为数字类型时,其属于可比较大小的类型,此类型可以直接作为标准数字型数据。
具体的,当数据块中的数据的类型为日期和时间类型时,其属于可比较大小的类型,主要包括date(日)、time(时间)、timestamp(时间戳)、year(年)等几类。显然日期和时间类型均可按照一定的编码规则转换为标准数字型数据,比如日期类型05/01/2018可以按照num=year×10000+month×100+day的编码转化,得到标准数字型数据num为20180501。
具体的,当数据块中的数据的类型为字符串类型时,可以按照用户的分类需求可分为不可比较大小的类型与可比较大小的类型。对于不可比较大小类型,比如使用字符串类型表示性别,其分类条件事先已知,即是按照性别分类。则可按照人为规定的"MALE"转换成为标准数字型数据1、"FEMALE"转换成为标准数字型数据0。对于可比较大小类型,比如使用字符串表示Key-Value对的Key,对于Key可以按照
Figure GDA0002730570170000051
的规则进行编码,其中weighe[i]=127len-1-i,Key为定长字符串,len为字符串长度,将Key不同位置i的字符设置不同权重再求和,字符按照ASCII转换成标准数字型数据。
此外,对于大对象类型的数据,大对象类型的数据主要可以包括字符串大对象类型与二进制大对象类型。此类型数据往往满了其对应的数据库块的存储空间,故不需要进行存储占比的计算,一般的,可以直接采用物理备份的方法来进行备份。
S205:基于预设哈希函数对数据块所对应的标准数字型数据进行哈希映射处理,构建所述数据块所对应的哈希表。
本说明书实施例中,可以预先选取哈希函数(预设哈希函数),并基于哈希函数进行哈希映射处理。在一个具体的实施例中,假设哈希函数如下:
f(x)=x/M%N
其中,x表示标准数字型数据,M表标准数字型数据的分段间隔(每段范围大小),N表示哈希表中哈希元素数量,f(x)代表[x,x+M)区间内的标准数字型数据出现的次数。“/”是除法取整,“%”是除法取余,相应的,[x,x+M)区间内标准数字型数据会映射到相同的哈希值,从而映射到哈希表相同的位置。
具体的,以上述的哈希函数为例,如图3所示,所述基于预设哈希函数对数据块所对应的标准数字型数据进行哈希映射处理,构建所述数据块所对应的哈希表可以包括:
S2051:确定数据块所对应的标准数字型数据的分段间隔。
本说明书实施例中,所述分段间隔可以结合实际应用需求进行设置。
S2053:确定所述数据块所对应的哈希元素数量。
本说明书实施例中,所述哈希元素数量可以结合实际应用需求进行设置。具体的,哈希表中哈希元素数量决定后续数据存储占比的精确程度。对于相同分布的标准数字型数据,当哈希元素数量越大时,估算结果越精确,存储开销越大;当哈希元素数量越小时,估算结果越粗略,而存储开销越小。
S2055:基于所述分段间隔和哈希元素数量对所述数据块所对应的标准数字型数据进行哈希映射处理,得到所述所对应的标准数字型数据的哈希下标。
具体的,在确定哈希元素数量和分段间隔之后,可以结合上述的哈希函数中的分段间隔和哈希元素数量来进行哈希映射处理,得到该数据块所对应的标准数字型数据的哈希下标区间。
S2057:统计所述哈希下标所对应的标准数字型数据的出现次数。
本说明书实施例中,标准数字型数据映射到哈希表时,每一个标准数字型数据都会映射到一个哈希下标,即有多个标准数字型数据会映射到同一个哈希下标,即同一个哈希下标在映射过程中会出现多次。相应的,哈希下标所对应的标准数字型数据的出现次数(即该出现次数可以包括哈希下标的出现次数)与标准数字型数据所对应的数据的数量一致。
S2059:将标准数字型数据的出现次数与哈希下标一一对应,得到哈希表。
本说明书实施例中,可以将标准数字型数据的出现次数与哈希下标一一对应,得到哈希表。这样,后续将任意数据的所对应的标准数字型数据对应到哈希下标,就可以得到对应的标准数字型数据的出现次数,进而确定出该数据的存储占比。
本说明书实施例中,每个数据块设置有块描述符,所述块描述符可以包括块地址(相对于文件初始处的偏移)、最大标准数字型数据、最小标准数字型数据,以及该数据块所对应的哈希表信息(例如哈希表的编号)。后续,需要进行某一数据块中数据的存储占比计算时,可以基于数据块的块描述符来获取最大标准数字型数据、最小标准数字型数据,利用最大标准数字型数据与最小标准数字型数据确定数据块所对应的数值区间,并结合哈希表信息来确定该数据块所对应的哈希表,以获取哈希表中该数字区间的标准数字型数据的出现次数;另外,一个文件数据内可以包括很多数据块,因此,会有很多个块描述符,每个块描述符定长表示,便于快速读取和并行计算。块描述符可以单独存放。
本发明可以给每个文件数据分配一个哈希表来存储该文件数据全部数据块对应的哈希表,以记录总的数据存储占比情况;还可以给每个文件数据分配一个哈希表来存储该文件数据每个数据块对应的哈希表。哈希表是不定长的,因此,任何哈希表重分配时可以重写整个哈希表。
在一个具体的实施例中,如图4所示,假设数据块所对应的标准数字型数据的区间为[0,80),N=8,M=10,相应的,[0,10)区间的标准数字数据均映射到哈希表中0;[10,20)区间的标准数字数据均映射到哈希表中哈希下标1所对应的位置;[20,30)区间的标准数字数据均映射到哈希表中哈希下标2所对应的位置;[30,40)区间的标准数字数据均映射到哈希表中哈希下标3所对应的位置[40,50)区间的标准数字数据均映射到哈希表中哈希下标4所对应的位置;[50,60)区间的标准数字数据均映射到哈希表中哈希下标5所对应的位置;[60,70)区间的标准数字数据均映射到哈希表中哈希下标6所对应的位置;[70,80)区间的标准数字数据均映射到哈希表中哈希下标7所对应的位置。
由上述实施例可见,本说明书通过将文件数据的数据块中的数据转换成统一的标准数字型数据后,一一映射到哈希表中的哈希下标,并建立哈希下标与所对应的标准数字型数据的出现次数的对应关系,实现以哈希表记录能反应文件数据的各文件块的数据存储占比的信息。
在实际应用中,当文件数据不断的更新增加,哈希表往往会遇到哈希冲突问题,即不同分段区间的标准数字型数据可能会映射到哈希表相同的位置(及相同的哈希值)。如图5所示,例如当上述图4所对应的示例的哈希表中的哈希元素数量N=4时,[0,10)和[40,50)区间的标准数字数据均映射到哈希表中哈希下标0所对应的位置;[10,20)和[50,60)区间的标准数字数据均映射到哈希表中哈希下标1所对应的位置;[20,30)和[60,70)区间的标准数字数据均映射到哈希表中哈希下标2所对应的位置;[30,40)和[70,80)区间的标准数字数据均映射到哈希表中哈希下标3所对应的位置。相应的,本说明书实施例中,所述方法还可以包括:
1)将所述新数据转换成标准数字型数据;
2)获取所述数据块中当前的最大标准数字型数据和最小标准数字型数据;
3)计算所述最大标准数字型数据和所述最小标准数字型数据之差与所述分段间隔的比值;
4)判断所述比值是否大于等于预设哈希扩充参数;
具体的,所述预设哈希扩充参数可以结合实际应用对哈希冲突所带来的问题和IO开销进行设置,例如设置为两倍的当前哈希表的哈希元素数量。
5)当判断的结果为是时,调整所述数据块所对应的哈希表的哈希元素数量和所述预设哈希扩充参数。
由上述实施例可见,当哈希表冲突足够严重,会导致数据倾斜问题时,即哈希表每个元素平均指向2个以上分段标准数字型数据时,可以采用哈希表重分配策略有效解决上述问题。反之,当哈希冲突不严重时,此时哈希表少部分元素指向多个分段标准数字型数据时。对于此种轻微的数据倾斜问题,不会导致统计结果的不精确。若采用重分配策略则会大大增加IO开销;若增加判断哈希表每个元素是否指向多个分段标准数字型数据时的逻辑,则会增加计算开销;相应的,解决上述轻微的数据倾斜问题会得不偿失。
本说明书实施例中,在得到哈希表之后,可以将哈希表存储到数据块中,具体的,数据块和数据块中每个数据(元组)大小是固定的,可以根据数据块块内数据(元组)个数的上限,可以事先得出哈希表元素存储的最小比特位数,来减小存储开销。比如假设某个块元组个数上限为200(28),则8个比特位足以表示这个数字(一般的可以通过sizeof函数来计算)。
如图6是哈希表存储格式,其中,第一个字节存储哈希表长度,第二个字节存储每个元素(哈希值)所占比特位数,元素所占比特位数向4个比特对齐,后面存储哈希表所有的元素的数值,哈希表所占空间大小向8比特对齐。
在一些实施例中,当所述文件数据的数据块中写入新数据时,所述方法还可以包括:
1)基于所述分段间隔和当前所对应的哈希元素数量对所述新数据的标准数字型数据进行哈希映射处理,得到新增哈希值;
2)将所述新增哈希值存储至所述数据块所对应的哈希表。
本说明书实施例中,可以通过日志记录哈希表的新增哈希值,更新时将整个哈希表读取出来,更新完毕后写回磁盘。
本说明书实施例中,将不同类型的数据转换成统一的标准数字型数据,然后映射到哈希表,进行数据存储占比的统计,保证哈希表不需要重建即可应对多种分类条件下的数据存储占比问题,比如用户先后分别需要统计1到100之间以及150到200之间整型数据的存储占比,可以分别映射到哈希表中的不同位置,在不重建哈希表的情况下快速求得相应的数据存储占比。
另外,为了提高数据处理效率,不能在文件数据的数据块每写入一个新华数据,就更新块哈希表。具体的,可以采用至少下述之一的方式来将新增哈希值存储至所述数据块所对应的哈希表:
1)基于预设频率将所述新增哈希值存储至所述数据块所对应的哈希表。
具体的,所述预设频率可以结合实际应用需求进行设置,例如设置为每10分钟进行更新一次。
2)当所述文件数据的数据块中写入新数据的次数大于等于第一预设阈值时,将所述新增哈希值存储至所述数据块所对应的哈希表。
具体的,所述第一预设阈值可以结合实际应用需求进行设置,例如设置为100次。
具体的,所述写入新数据的次数可以包括某一数据块的中的写入次数,相应的,所述第一预设阈值可以某一数据块中的写入次数阈值;所述写入新数据的次数可以包括文件数据的全部数据块的中的写入次数,相应的,所述第一预设阈值可以某一文件数据中的写入次数阈值。
以下介绍本发明基于上述哈希表进行数据存储占比确定的方法实施例,图7是本发明实施例提供的一种确定数据存储占比的方法的流程示意图,本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或服务器产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图7所示,所述方法可以包括:
S701:获取与文件数据中目标数据一一对应的标准数字型数据,所述文件数据中的目标数据为多种类型的数据。
本说明书实施例中,所述目标数据可以包括文件数据中的部分数据。例如某一类数据,所述目标数据可能会在文件数据的不同的数据块中,也可能在文件数据的一个数据块中。
具体的,获取不同类型的目标数据一一对应的标准数字型数据的具体步骤可以参见上述相关步骤,在此不再赘述。
S703:确定所述标准数字型数据的第一数值区间与目标数据块所对应的标准数字型数据的第二数值区间的交集数值区间。
本说明书实施例中,所述目标数据块为所述文件数据的任一数据块。具体的,如图8所示,确定所述标准数字型数据的第一数值区间与目标数据块所对应的标准数字型数据的第二数值区间的交集数值区间可以包括:
S7031:确定所述标准数字型数据的第一数值区间;
S7033:基于所述文件数据的数据块所对应最大标准数字型数据与最小标准数字型数据确定数据块所对应的第二数值区间;
具体的,本说明书实施例中,可以结合数据块的块描述符来获取数据块所对应最大标准数字型数据与最小标准数字型数据,进而确定数据块所对应的第二数值区间。
S7035:计算所述第一数值区间与所述第二数值区间的交集;
S7037:将所述交集所对应的数值区间作为所述交集数值区间。
具体的,假设目标数据的标准数字型数据的第一数值区间是[30,50),某一数据块中存储有[40,80)的标准数字型数据(相应的最小标准数字型数据是40,最大标准数字型数据是79);相应的,第一数值区间与第二数值区间的交集为[40,50),即交集数值区间为[40,50)。
S705:基于预设哈希函数确定所述交集数值区间中的标准数字型数据在所述目标数据块所对应哈希表中的哈希下标区间,所述哈希表包括与哈希下标对应的标准数字型数据的出现次数。
本说明书实施例中,可以通过为每个文件数据设置的描述符,该描述符记录存储每个文件数据总的数据占比情况的哈希表的编号;另外,文件数据的数据块的块描述符可以记录存储每个文件数据中各个块的数据占比情况的哈希表的编号。
具体的,这里确定交集数值区间中的标准数字型数据的哈希下标的具体步骤可以参见上述相关步骤,在此不再赘述。
S707:将所述哈希下标区间所对应的标准数字型数据的出现次数之和除以目标数据块中数据的总数量,得到所述目标数据在所述目标数据块中的存储占比。
具体的,假设哈希下标为3和4,相应的,可以得到相应的数据块所对应的哈希表中查找3和4所对应的标准数字型数据的出现次数之和。
本说明书实施例中,每个数据块中数量的总数量往往是固定的,且该总数量与数据所对应的标准数字型数据的出现次数一致。相应的,可以将目标数据的哈希下标所对应的标准数字型数据的出现次数之和除以目标数据块中数据的总数量,就可以得到所述目标数据在所述目标数据块中的存储占比。
由以上本说明书实施例提供的技术方案可见,本说明书实施例中将文件数据中目标数据转化成统一类型的标准数字型数据,确定相应的第一数值区间与数据块的第二数值区间的交集数值区间;以及该交集数值区间中的标准数字型数据在目标数据块所对应哈希表中的哈希下标区间;最后,将哈希下标区间所对应的标准数字型数据的出现次数之和除以目标数据块中数据的总数量,可以快速得到目标数据在目标数据块中的存储占比,实现无论什么类型的数据均可以以统一方式来快速确定数据存储占比。
在另一些实施例中,当所述文件数据的多个数据块包括所述目标数据时,所述方法还可以包括:
将所述哈希下标区间所对应的标准数字型数据的出现次数之和除以文件数据中数据的总数量,得到所述目标数据在所述文件数据中的存储占比。
在另一些实施例中,如图9所示,所述方法还可以包括:
S709:基于所述目标数据在所述目标数据块中的存储占比确定所述目标数据的备份策略。
具体的,所述基于所述目标数据在所述目标数据块中的存储占比确定所述目标数据的备份策略可以至少包括下述之一:
1)当所述目标数据在所述文件数据的数据块中的平均存储占比小于等于第二预设阈值时,基于逻辑备份策略备份所述目标数据。
具体的,所述目标数据在所述文件数据的数据块中的平均存储占等于目标数据在每个目标数据块中的存储占比除以所述文件数据的数据块总量。
具体的,所述第二预设阈值可以结合实际应用设置,例如20%。本说明书实施例中逻辑备份策略可以包括复制符合条件的元组。具体的,可以通过SQL(Structured QueryLanguage,结构化查询语言)语句查询到数据,得到查询的结果集,然后把结果集备份,而不是直接备份物理数据块。采用逻辑备份策略可以避免读取冗余数据,但容易导致磁盘随机访问而降低性能。
2)当所述目标数据所占数据块的数量与所述文件数据的数据块总量的比值大于等于第三阈值时,基于文件块备份策略备份所述目标数据。
具体的,所述第三预设阈值可以结合实际应用设置,例如80%。具体的,文件块备份策略可以包括以整个文件进行备份。
3)当所述目标数据所占数据块的数量与所述文件数据的数据块总量的比值小于第三阈值,且所述目标数据在所述文件数据的数据块中的平均存储占比大于第二预设阈值时,基于块备份策略备份所述目标数据。
具体的,块备份策略可以包括按照数据块进行备份。
在实际应用中,每个数据块的哈希表被修改,导致该数据块的数据存储占比会发生变化,相应的,可能影响着块备份策略、文件备份策略等方式。具体的,所述方法还可以包括:
记录数据块所对应的哈希表修改次数;
将哈希表修改次数除以文件数据的数据块的总个数,得到文件块变化比值。
当所述文件块变化比值大于等于第四预设阈值时,基于文件数据的数据块所对应的当前哈希表计算所述目标数据在所述文件数据的数据块中的平均存储占比。
具体的,所述第一预设阈值可以结合实际应用进行设置,例如设置为50%。
另外,当文件数据的数据块总量增加时,所述文件数据的数据块的数量进行相应的增加。反之,当数据库支持TRUNCATE(删除)操作,则执行TRUNCATE操作时,去掉多少个数据块,则文件数据的数据块的数量上做对应的减法。
本说明书实施例,通过根据数据占比的不同情况选择不同的备份策略,可以在保证数据备份的精准度的同时,有效提高备份效率。
以下结合两个应用场景介绍本发明确定数据存储占比的方法实施例。
某电商公司有分析女顾客购物习惯的需求,用来指定更好的营销策略。因此,需要从顾客资料数据库中将女顾客的数据导出到专门的数据库中。因为数据量很大,快速高效的拷贝策略将大大加速数据迁移的速度。相应的,可以现基于本发明的方法确定女顾客的存储占比。
具体的,由于性别属于不可比较大小类型,其分类条件是静态的,可以按照人为的规定编码为通用数据类型并事先分类,即令哈希表中哈希元素数量N为2,哈希表中元素所对应的分段标准数字型数据的分段间隔M为1;性别标签为男对应的标准数字型数据为0,性别标签为女的标准数字型数据为1,即令哈希函数f("MALE")=0,f("FEMALE")=1;hashtable[0]表示某数据块中男性出现次数,hashtable[1]表示某数据块中女性出现次数。
相应的,可以为每个文件数据以及文件数据的每个数据块建立哈希表,该哈希表中通过记录标准数字型数据的出现次数来记录性别类型的数据的存储占比。根据每个文件数据以及该文件数据各个数据块的哈希表可以统计出对应文件数据以及数据块内女性的存储占比,进而基于存储占比选择相应的高效的备份方法。
在另一场景中,某游戏公司需要统计每年各个"游戏节"上线的玩家,给这些玩家进行奖品回馈活动。利用本发明的方法可以统计各个不同的"游戏节"上线的玩家在每个文件数据或者数据块中的存储占比,进而根据存储占比选取更高效的数据备份方法,提高数据迁移速度。
具体的,时间戳属于可比较大小类型,而且可直接作为标准数字型数据。选定合适的M值和N值。当统计粒度为6小时,则令M为6小时的时间戳差。初设N为40,则可表示不发生哈希冲突情况下40*6=240小时范围内的时间戳,即令f(x)=x/6%40(x的单位为小时)。
相应的,可以为每个文件数据以及文件数据的每个数据块建立哈希表,该哈希表中通过记录标准数字型数据的出现次数来负责统计某"游戏节"时间戳对应用户的存储占比。根据每个文件数据以及该文件数据的各数据块的哈希表可以统计出该文件数据以及数据块块内某"游戏节"时间戳对应用户的存储占比,进而根据存储占比选取更高效的数据备份方法,提高数据迁移速度。
本发明实施例还提供了一种确定数据存储占比的装置,如图10所示,所述装置包括:
第一标准数字型数据获取模块1010,用于获取与文件数据中目标数据一一对应的标准数字型数据,所述文件数据中的目标数据为多种类型的数据;
交集数值区间确定模块1020,用于确定所述标准数字型数据的第一数值区间与目标数据块所对应的标准数字型数据的第二数值区间的交集数值区间,所述目标数据块为所述文件数据的任一数据块;
第一哈希映射处理模块1030,用于基于预设哈希函数确定所述交集数值区间中的标准数字型数据在所述目标数据块所对应哈希表中的哈希下标区间,所述哈希表包括与哈希下标对应的标准数字型数据的出现次数;
第一存储占比计算模块1040,用于将所述哈希下标区间所对应的标准数字型数据的出现次数之和除以目标数据块中数据的总数量,得到所述目标数据在所述目标数据块中的存储占比。
在一些实施例中,当所述文件数据的多个数据块包括所述目标数据时,所述装置还包括:
第二存储占比计算模块,用于将所述哈希下标区间所对应的标准数字型数据的出现次数之和除以文件数据中数据的总数量,得到所述目标数据在所述文件数据中的存储占比。
在一些实施例中,所述装置还包括:
数据块确定模块,用于确定所述文件数据的数据块,所述数据块包括多种类型的数据;
第一标准数字型数据转换模块,用于将所述文件数据的数据块中的多种类型的数据转换成标准数字型数据;
第二哈希映射处理模块,用于基于预设哈希函数对数据块所对应的标准数字型数据进行哈希映射处理,构建所述数据块所对应的哈希表,所述哈希表包括与哈希下标对应的标准数字型数据的出现次数。
在一些实施例中,所述第二哈希映射处理模块包括:
分段间隔确定单元,用于确定数据块所对应的标准数字型数据的分段间隔;
哈希元素数量确定单元,用于确定所述数据块所对应的哈希元素数量;
哈希映射处理单元,用于基于所述分段间隔和哈希元素数量对所述数据块所对应的标准数字型数据进行哈希映射处理,得到所述所对应的标准数字型数据的哈希下标;
出现次数统计模块,用于统计所述哈希下标所对应的标准数字型数据的出现次数;
哈希表建立模块,用于将标准数字型数据的出现次数与哈希下标一一对应,得到哈希表。
在一些实施例中,所述装置还包括:
第二标准数字型数据转换模块,用于当所述文件数据的数据块中写入新数据时,将所述新数据转换成标准数字型数据;
第二标准数字型数据获取模块,用于获取所述数据块中当前的最大标准数字型数据和最小标准数字型数据;
计算模块,用于计算所述最大标准数字型数据和所述最小标准数字型数据之差与所述分段间隔的比值;
判断模块,用于判断所述比值是否大于等于预设哈希扩充参数;
哈希元素数量确定模块,用于当判断的结果为是时,调整所述数据块所对应的哈希表的哈希元素数量和所述预设哈希扩充参数。
在一些实施例中,所述装置还包括:
第三哈希映射处理模块,用于当所述文件数据的数据块中写入新数据时,基于所述分段间隔和当前所对应的哈希元素数量对所述新数据的标准数字型数据进行哈希映射处理,得到新增哈希值;
数据存储模块,用于将所述新增哈希值存储至所述数据块所对应的哈希表。
在一些实施例中,所述数据存储模块至少包括下述之一的单元:
第一数据存储单元,用于基于预设频率将所述新增哈希值存储至所述数据块所对应的哈希表;
第二数据存储单元,用于当所述文件数据的数据块中写入新数据的次数大于等于第一预设阈值时,将所述新增哈希值存储至所述数据块所对应的哈希表。
在一些实施例中,所述交集数值区间确定模块1020可以包括:
第一数值区间确定单元,用于确定所述标准数字型数据的第一数值区间;
第二数值区间确定单元,用于确定基于所述文件数据的数据块所对应最大标准数字型数据与最小标准数字型数据确定数据块所对应的第二数值区间;
计算单元,用于计算所述第一数值区间与所述第二数值区间的交集;
交集数值区间确定单元,用于将所述交集所对应的数值区间作为所述交集数值区间。
在一些实施例中,所述装置还包括:
备份策略确定模块,用于基于所述目标数据在所述目标数据块中的存储占比确定所述目标数据的备份策略。
在一些实施例中,所述备份策略确定模块至少包括下述之一的单元:
逻辑备份策略确定单元,用于当所述目标数据在所述文件数据的数据块中的平均存储占比小于等于第二预设阈值时,基于逻辑备份策略备份所述目标数据;
或,
文件块备份策略确定单元,用于当所述目标数据所占数据块的数量与所述文件数据的数据块总量的比值大于等于第三阈值时,基于文件块备份策略备份所述目标数据;
或,
块备份策略确定单元,用于当所述目标数据所占数据块的数量与所述文件数据的数据块总量的比值小于第三阈值,且所述目标数据在所述文件数据的数据块中的平均存储占比大于第二预设阈值时,基于块备份策略备份所述目标数据。
所述的装置实施例中的装置与方法实施例基于同样地发明构思。
本发明实施例提供了一种确定数据存储占比的服务器,该确定数据存储占比的服务器包括处理器和存储器,该存储器中存储有至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现如上述方法实施例所提供的确定数据存储占比的方法。
存储器可用于存储软件程序以及模块,处理器通过运行存储在存储器的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、功能所需的应用程序等;存储数据区可存储根据所述设备的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器还可以包括存储器控制器,以提供处理器对存储器的访问。
本发明实施例所提供的方法实施例可以在移动终端、计算机终端、服务器或者类似的运算装置中执行。以运行在服务器上为例,图11是本发明实施例提供的一种确定数据存储占比的方法的服务器的硬件结构框图。如图11所示,该服务器1100可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(Central ProcessingUnits,CPU)1110(处理器1110可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器1330,一个或一个以上存储应用程序1323或数据1322的存储介质1320(例如一个或一个以上海量存储设备)。其中,存储器1330和存储介质1320可以是短暂存储或持久存储。存储在存储介质1320的程序可以包括一个或一个以上模块,每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1110可以设置为与存储介质1120通信,在服务器1100上执行存储介质1120中的一系列指令操作。服务器1100还可以包括一个或一个以上电源1160,一个或一个以上有线或无线网络接口1150,一个或一个以上输入输出接口1140,和/或,一个或一个以上操作系统1121,例如WindowsServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
输入输出接口1140可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器1100的通信供应商提供的无线网络。在一个实例中,输入输出接口1140包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,输入输出接口1140可以为射频(RadioFrequency,RF)模块,其用于通过无线方式与互联网进行通讯。
本领域普通技术人员可以理解,图11所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,服务器1100还可包括比图11中所示更多或者更少的组件,或者具有与图11所示不同的配置。
本发明的实施例还提供了一种存储介质,所述存储介质可设置于服务器之中以保存用于实现方法实施例中一种确定数据存储占比的方法相关的至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现上述方法实施例提供的确定数据存储占比的方法。
可选地,在本实施例中,上述存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
由上述本发明提供的确定数据存储占比的方法、装置、服务器或存储介质的实施例可见,本发明中将文件数据中目标数据转化成统一类型的标准数字型数据,确定相应的第一数值区间与数据块的第二数值区间的交集数值区间;以及该交集数值区间中的标准数字型数据在目标数据块所对应哈希表中的哈希下标区间;最后,将哈希下标区间所对应的标准数字型数据的出现次数之和除以目标数据块中数据的总数量,可以快速得到目标数据在目标数据块中的存储占比,实现无论什么类型的数据均可以以统一方式来快速确定数据存储占比。后续,根据数据存储占比的不同情况选择不同的备份策略,可以在保证数据备份的精准度的同时,有效提高备份效率。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置和服务器实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (13)

1.一种确定数据存储占比的方法,其特征在于,所述方法包括:
获取与文件数据中目标数据一一对应的标准数字型数据,所述文件数据中的目标数据为多种类型的数据;
确定所述标准数字型数据的第一数值区间与目标数据块所对应的标准数字型数据的第二数值区间的交集数值区间,所述目标数据块为所述文件数据的任一数据块;所述第二数值区间为所述文件数据的数据块所对应最小标准数字型数据与所述文件数据的数据块所对应最大标准数字型数据所构成的区间;
基于预设哈希函数确定所述交集数值区间中的标准数字型数据在所述目标数据块所对应哈希表中的哈希下标区间,所述哈希表包括与哈希下标对应的标准数字型数据的出现次数;
将所述哈希下标区间所对应的标准数字型数据的出现次数之和除以目标数据块中数据的总数量,得到所述目标数据在所述目标数据块中的存储占比。
2.根据权利要求1所述的方法,其特征在于,当所述文件数据的多个数据块包括所述目标数据时,所述方法还包括:
将所述哈希下标区间所对应的标准数字型数据的出现次数之和除以文件数据中数据的总数量,得到所述目标数据在所述文件数据中的存储占比。
3.根据权利要求1所述的方法,其特征在于,在获取与文件数据中目标数据一一对应的标准数字型数据之前,所述方法还包括:
确定所述文件数据的数据块,所述数据块包括多种类型的数据;
将所述文件数据的数据块中的多种类型的数据转换成标准数字型数据;
基于预设哈希函数对数据块所对应的标准数字型数据进行哈希映射处理,构建所述数据块所对应的哈希表,所述哈希表包括与哈希下标对应的标准数字型数据的出现次数。
4.根据权利要求3所述的方法,其特征在于,所述基于预设哈希函数对数据块所对应的标准数字型数据进行哈希映射处理,构建所述数据块所对应的哈希表包括:
确定数据块所对应的标准数字型数据的分段间隔;
确定所述数据块所对应的哈希元素数量;
基于所述分段间隔和哈希元素数量对所述数据块所对应的标准数字型数据进行哈希映射处理,得到所述所对应的标准数字型数据的哈希下标;
统计所述哈希下标所对应的标准数字型数据的出现次数;
将标准数字型数据的出现次数与哈希下标一一对应,得到哈希表。
5.根据权利要求4所述的方法,其特征在于,当所述文件数据的数据块中写入新数据时,所述方法还包括:
将所述新数据转换成标准数字型数据;
获取所述数据块中当前的最大标准数字型数据和最小标准数字型数据;
计算所述最大标准数字型数据和所述最小标准数字型数据之差与所述分段间隔的比值;
判断所述比值是否大于等于预设哈希扩充参数;
当判断的结果为是时,调整所述数据块所对应的哈希表的哈希元素数量和所述预设哈希扩充参数。
6.根据权利要求4所述的方法,其特征在于,当所述文件数据的数据块中写入新数据时,所述方法还包括:
基于所述分段间隔和当前所对应的哈希元素数量对所述新数据的标准数字型数据进行哈希映射处理,得到新增哈希值;
将所述新增哈希值存储至所述数据块所对应的哈希表。
7.根据权利要求6所述的方法,其特征在于,所述将所述新增哈希值存储至所述数据块所对应的哈希表至少包括下述之一:
基于预设频率将所述新增哈希值存储至所述数据块所对应的哈希表;
或,
当所述文件数据的数据块中写入新数据的次数大于等于第一预设阈值时,将所述新增哈希值存储至所述数据块所对应的哈希表。
8.根据权利要求1所述的方法,其特征在于,所述确定所述标准数字型数据的第一数值区间与目标数据块所对应的标准数字型数据的第二数值区间的交集数值区间包括:
确定所述标准数字型数据的第一数值区间;
基于所述文件数据的数据块所对应最大标准数字型数据与最小标准数字型数据确定数据块所对应的第二数值区间;
计算所述第一数值区间与所述第二数值区间的交集;
将所述交集所对应的数值区间作为所述交集数值区间。
9.根据权利要求1至8任一所述的方法,其特征在于,所述方法还包括:
基于所述目标数据在所述目标数据块中的存储占比确定所述目标数据的备份策略。
10.根据权利要求9所述的方法,其特征在于,所述基于所述目标数据在所述目标数据块中的存储占比确定所述目标数据的备份策略至少包括下述之一:
当所述目标数据在所述文件数据的数据块中的平均存储占比小于等于第二预设阈值时,基于逻辑备份策略备份所述目标数据;
或,
当所述目标数据所占数据块的数量与所述文件数据的数据块总量的比值大于等于第三阈值时,基于文件块备份策略备份所述目标数据;
或,
当所述目标数据所占数据块的数量与所述文件数据的数据块总量的比值小于第三阈值,且所述目标数据在所述文件数据的数据块中的平均存储占比大于第二预设阈值时,基于块备份策略备份所述目标数据。
11.一种确定数据存储占比的装置,其特征在于,所述装置包括:
第一标准数字型数据获取模块,用于获取与文件数据中目标数据一一对应的标准数字型数据,所述文件数据中的目标数据为多种类型的数据;
交集数值区间确定模块,用于确定所述标准数字型数据的第一数值区间与目标数据块所对应的标准数字型数据的第二数值区间的交集数值区间,所述目标数据块为所述文件数据的任一数据块;所述第二数值区间为所述文件数据的数据块所对应最小标准数字型数据与所述文件数据的数据块所对应最大标准数字型数据所构成的区间;
第一哈希映射处理模块,用于基于预设哈希函数确定所述交集数值区间中的标准数字型数据在所述目标数据块所对应哈希表中的哈希下标区间,所述哈希表包括与哈希下标对应的标准数字型数据的出现次数;
第一存储占比计算模块,用于将所述哈希下标区间所对应的标准数字型数据的出现次数之和除以目标数据块中数据的总数量,得到所述目标数据在所述目标数据块中的存储占比。
12.一种确定数据存储占比的服务器,其特征在于,所述服务器包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至10任一所述的确定数据存储占比的方法。
13.一种计算机可读存储介质,其特征在于,所述存储介质存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至10任一所述的确定数据存储占比的方法。
CN201910172274.1A 2019-03-07 2019-03-07 一种确定数据存储占比的方法、装置及服务器 Active CN109960612B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910172274.1A CN109960612B (zh) 2019-03-07 2019-03-07 一种确定数据存储占比的方法、装置及服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910172274.1A CN109960612B (zh) 2019-03-07 2019-03-07 一种确定数据存储占比的方法、装置及服务器

Publications (2)

Publication Number Publication Date
CN109960612A CN109960612A (zh) 2019-07-02
CN109960612B true CN109960612B (zh) 2021-01-05

Family

ID=67024115

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910172274.1A Active CN109960612B (zh) 2019-03-07 2019-03-07 一种确定数据存储占比的方法、装置及服务器

Country Status (1)

Country Link
CN (1) CN109960612B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110362580B (zh) * 2019-07-25 2021-09-24 重庆市筑智建信息技术有限公司 一种bim建筑工程数据检索优化归类方法及其系统
CN111177106B (zh) * 2019-12-30 2023-10-17 嘉联支付有限公司 一种分布式数据计算系统及方法
CN112650451B (zh) * 2020-12-28 2023-06-09 杭州趣链科技有限公司 查找网络服务器的优化方法、装置、计算机设备及存储介质
CN114780298B (zh) * 2022-06-16 2022-09-06 深圳市慧为智能科技股份有限公司 文件数据处理方法、装置、计算机终端及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011076463A1 (en) * 2009-12-23 2011-06-30 International Business Machines Corporation Deduplication of encrypted data
CN101853194B (zh) * 2009-04-03 2011-12-14 纬创资通股份有限公司 数据备份方法
CN102521260A (zh) * 2011-11-18 2012-06-27 华为技术有限公司 数据预热方法及装置
CN108874803A (zh) * 2017-05-09 2018-11-23 腾讯科技(深圳)有限公司 数据存储方法、装置及存储介质
CN104008111B (zh) * 2013-02-27 2019-02-15 深圳市腾讯计算机系统有限公司 一种数据的存储管理方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7747830B2 (en) * 2007-01-05 2010-06-29 Hitachi, Ltd. Backup system with continuous data protection

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101853194B (zh) * 2009-04-03 2011-12-14 纬创资通股份有限公司 数据备份方法
WO2011076463A1 (en) * 2009-12-23 2011-06-30 International Business Machines Corporation Deduplication of encrypted data
CN102521260A (zh) * 2011-11-18 2012-06-27 华为技术有限公司 数据预热方法及装置
CN104008111B (zh) * 2013-02-27 2019-02-15 深圳市腾讯计算机系统有限公司 一种数据的存储管理方法及装置
CN108874803A (zh) * 2017-05-09 2018-11-23 腾讯科技(深圳)有限公司 数据存储方法、装置及存储介质

Also Published As

Publication number Publication date
CN109960612A (zh) 2019-07-02

Similar Documents

Publication Publication Date Title
CN109960612B (zh) 一种确定数据存储占比的方法、装置及服务器
CN112395293B (zh) 分库分表方法、分库分表装置、分库分表设备及存储介质
CN106126486A (zh) 时间信息编码方法、编码值检索方法、解码方法与装置
CN108900619B (zh) 一种独立访客统计方法及装置
CN105631003A (zh) 支持海量数据分组统计的智能索引构建、查询及维护方法
CN107741986B (zh) 用户行为预测及相应信息推荐方法和装置
CN110275889B (zh) 一种适用于机器学习的特征处理方法及装置
CN112260694B (zh) 一种仿真文件的数据压缩方法
CN113468226B (zh) 一种业务处理方法、装置、电子设备和存储介质
CN110096509A (zh) 大数据环境下实现历史数据拉链表存储建模处理的系统及方法
CN110019205B (zh) 一种数据存储、还原方法、装置及计算机设备
CN115408546A (zh) 一种时序数据管理方法、装置、设备及存储介质
CN110019017B (zh) 一种基于访问特征的高能物理文件存储方法
CN108304527B (zh) 一种数据提取方法
CN116339643B (zh) 一种磁盘阵列的格式化方法、装置、设备和介质
CN103984723A (zh) 一种针对增量数据对频繁项进行更新数据挖掘方法
CN116610731B (zh) 一种大数据分布式存储方法、装置、电子设备及存储介质
CN112100177A (zh) 数据存储方法、装置、计算机设备及存储介质
CN115525652A (zh) 用户访问数据处理方法及装置
CN111752954B (zh) 一种大规模特征数据存储的方法及装置
CN111723202A (zh) 一种舆情数据的处理装置、方法和系统
CN104881395A (zh) 一种获取矩阵中向量相似度的方法和系统
CN112402955B (zh) 游戏日志记录方法及系统
CN117056133B (zh) 一种基于分布式物联网架构的数据备份方法、装置及介质
CN112015586B (zh) 一种数据重构计算的方法以及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant