CN104063374A - 一种对数据进行去重的方法和设备 - Google Patents

一种对数据进行去重的方法和设备 Download PDF

Info

Publication number
CN104063374A
CN104063374A CN201310086212.1A CN201310086212A CN104063374A CN 104063374 A CN104063374 A CN 104063374A CN 201310086212 A CN201310086212 A CN 201310086212A CN 104063374 A CN104063374 A CN 104063374A
Authority
CN
China
Prior art keywords
data
coding result
duplicate removal
time period
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310086212.1A
Other languages
English (en)
Inventor
朱志强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201310086212.1A priority Critical patent/CN104063374A/zh
Publication of CN104063374A publication Critical patent/CN104063374A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors

Abstract

本发明公开了一种对数据进行去重的方法和设备,通过将待导入数据的内容与其所属的时间段进行编码,得到反映该数据的内容和其所属时间段的编码结果,并与之前已经存储的相同类型的编码结果进行去重判定,节省了从数据库中查询数据所占用的时间,有效提高了去重效率,同时还不会额外占用数据库的系统资源,避免了数据库系统资源的浪费。

Description

一种对数据进行去重的方法和设备
技术领域
本申请涉及计算机技术领域,尤其涉及一种对数据进行去重的方法和设备。
背景技术
随着网络技术的不断发展,业务网站在运行过程中将会产生大量的业务数据,例如,在微博业务网站中登陆的用户发布微博时,微博业务网站将会产生大量的微博业务的发布数据,在购物网站中登陆的用户创建新的商品信息后,购物网站将会产生商品信息的创建数据等。
在将产生的业务数据的标题导入数据库中进行备份时,由于产生的业务数据可能出现重复,导致其标题也可能出现重复的情况,因此,在将标题导入至数据库时需要对待导入的标题进行去重处理。
目前的去重处理过程是基于标题的时效性进行,即,同一时间段内出现相同标题的情况视为标题重复,需对重复出现的标题进行去重,但不同时间段出现相同标题的情况不视为标题重复,无需对不同时间段出现的相同标题进行去重。例如,用户在2010年8月针对某一商品创建商品信息后,购物网站将会产生该商品信息的创建数据,其标题为XY;当用户在2013年1月针对同一商品创建内容相同的商品信息时,购物网站产生的创建数据的标题也为XY;此时,虽然出现了两个内容为XY的标题,但由于这两个标题分属于不同的时间段,因此,后产生的标题无需进行去重处理。
目前对待导入标题进行去重处理的方法主要包括以下步骤:
第一步:在初始状态下,用于导入标题的数据库为空,即没有导入的标题。
第二步:在第一次进行标题的导入过程时,确定本次待导入标题所属的时间段A,针对各待导入的标题,依次执行以下a、b和c操作:
a:针对某一待导入的标题,判断数据库中是否已有相同的标题;若有,则执行b,否则,执行c。
b:确定a中执行的待导入标题为时间段A中重复出现的标题,将其过滤。此时若还有未执行过的标题,则继续执行a,若所有标题执行完毕,则第二步结束。
c:确定a中执行的待导入的标题为时间段A中没有出现过的标题,将其导入数据库中,此时若还有未执行过的标题,则继续执行a,若所有标题执行完毕,则第二步结束。
通过上述第二步的方案,在数据库中导入了属于时间段A的标题,且导入的属于时间段A的标题不重复。
第三步:在第一次将标题导入数据库后,开辟字段来表示标题所属的时间段A。
第四步:在第二次进行标题的导入过程时,首先要确定第二次待导入标题所属的时间段B。
第五步:从数据库中查询出属于时间段B的标题。
若所述时间段A和时间段B是不同的时间段,则第五步中查询出属于时间段B的标题为空,第二次标题导入过程与第一次相同。
若所述时间段A和时间段B是相同的时间段,则第一次标题导入过程所导入的标题与第二次待导入的标题属于相同的时间段,本第五步中查询出的标题即为第一次标题导入过程所导入的标题。
第六步:针对第二次待导入的标题,依次执行以下d、e和f操作:
d:针对当前执行的标题,判断查询出的标题中是否已有相同的标题;若有,执行e,否则,执行f。
e:确定d中执行的标题为时间段B中重复出现的标题,将其过滤,此时若还有未执行过的标题,则继续执行d,若所有标题执行完毕,则第六步结束。
f:确定d中执行的标题为时间段B中没有出现过的标题,将其导入数据库中,并将其作为针对下一次执行标题的比较依据,在第五步查询出的标题中新增当前d中执行的标题。此时若还有未执行过的标题,则继续执行d,若所有标题执行完毕,则第六步结束。
将第二次待导入标题都执行上述d、e和f操作后,完成了第二次标题的导入过程。由于标题导入至数据库的过程可周期性或根据实际需求多次重复执行,因此,当第N次(N是正整数)需要将标题导入至数据库中的方式与第二次导入过程类似,首先确定待导入标题所属的时间段,然后从数据库中查询出所有属于该时间段的标题,并将查询出的标题作为比较对象,过滤出待导入标题中重复的标题,使得数据库中存储的针对某一时间段的标题始终不重复。
例如:数据库中已导入的标题信息如下:
属于时间段A的标题:XY和xyz;
属于时间段B的标题:XY和xy。
当前待导入的标题是XY、xz和xyz,其所属的时间段为B,则可从数据库中查询出已存储的属于时间段B的标题:XY和xy。
将当前待导入的标题XY与查询出的标题进行比较,发现XY是重复出现的标题,则过滤掉当前待导入的标题XY;将当前待导入的标题xz与查询出的标题进行比较,发现xz是没有出现过的标题,则将当前待导入的标题xz导入数据库中,并更新查询出的属于时间段B的标题:XY、xy和xz;将当前待导入的标题xyz与查询出的标题进行比较,发现xyz也是没有出现过的标题,则将当前待导入的标题xyz导入数据库中,此时,属于时间段B的标题为XY、xy、xz和xyz。
上述方法中,第一次标题导入过程为特例,在进行第一次标题导入过程时,从数据库中查询出的属于第一次标题导入过程所涉及的时间段的标题为空,当有至少一条标题导入数据库后,再更新查询出的标题。
通过以上对待导入标题进行去重处理的方法确实可以针对标题的时效性达到过滤重复标题的目的,但是,上述去重方法需要每次从数据库中查询出属于某一时间段的标题后再进行比较去重,且在去重过程中,还需要根据不断导入的标题实时更新从数据库中查询出的标题,当数据库中属于某一时间段的标题数量非常巨大时,查询数据库中标题的过程将会占用大量时间,导致去重的效率低下,同时还会大量占用数据库的系统资源,造成数据库的系统资源浪费。
发明内容
本申请实施例提供了一种对数据进行去重的方法和设备,用以解决现有技术中存在的在进行数据去重时,效率低下且占用大量数据库系统资源的问题。
一种对数据进行去重的方法,所述方法包括:
分别将待导入数据库的各数据与该数据所属的时间段进行编码;
针对得到的各编码结果,依次执行以下操作:
判断去重表中是否已存储当前执行的编码结果;
若是,则过滤当前执行的编码结果以及该编码结果对应的数据;
否则,将当前执行的编码结果对应的数据导入数据库中,并将该编码结果存储至所述去重表中。
一种对数据进行去重的设备,所述设备包括:
编码模块,用于分别将待导入数据库的各数据与该数据所属的时间段进行编码;
去重模块,用于针对得到的各编码结果,依次执行以下操作:
判断去重表中是否已存储当前执行的编码结果,若是,则过滤当前执行的编码结果以及该编码结果对应的数据,否则,将该编码结果存储至所述去重表中,并触发导入模块;
导入模块,用于将当前执行的编码结果对应的数据导入数据库中。
本申请有益效果如下:
本申请实施例将待导入数据的内容与其所属的时间段进行编码,利用得到的编码结果的唯一性来进行去重判定,在基于时效性的情况下确保去重的准确性,且由于无需从数据库中查询数据,减少了去重处理所占用的时间,同时还不会因查询数据库而额外占用数据库的系统资源,避免了数据库系统资源的浪费。
附图说明
图1为本申请实施例一中的方法步骤示意图;
图2为本申请实施例二中的设备结构示意图。
具体实施方式
本申请实施例的方案在对数据进行去重处理时,将待导入数据的内容与其所属的时间段进行编码,得到反映该数据的内容和其所属时间段的编码结果,并与之前已经存储的相同类型的编码结果进行去重比较,与背景技术中为了针对数据的时效性而从数据库中查询出属于某一时间段的数据来进行去重比较的方法相比,节省了从数据库中查询数据所占用的时间,有效提高了去效率,同时还不会额外占用数据库的系统资源,避免了数据库系统资源的浪费,特别是在查询出的数据量特别巨大时,本申请对于去重效率的提高以及数据库系统资源的节约效果将更加明显。
本申请各实施例中所涉及的数据库可以是具有数据存储功能,且可根据实际需求创建多种表结构的数据存储装臵,如关系数据库等。
本申请各实施例所涉及的数据可以是业务数据的标题,也可以是业务网站产生的日志信息等。
数据所属的时间段是指:生成数据的时间点所属的时间段。例如,按月份将数据导入数据库(即每月一批次进行数据的导入),则以月为单位划分时间段,如2013年1月为一个时间段,2013年2月为一个时间段等。若某一数据是在2013年2月3日产生,则该数据所属的时间段为2013年2月。
下面结合说明书附图对本申请实施例作进一步说明,但本申请不局限于下面的实施例。
实施例一:
如图1所示,为本申请实施例一中对数据进行去重的方法步骤示意图,所述方法主要包括以下步骤:
步骤101:数据导入过程开始,依次得到各待导入的数据。
本步骤101是数据导入的开始步骤,此时数据还没有导入至数据库中,而是准备进行数据导入数据库之前的去重处理。
步骤102:确定待导入数据所属的时间段。
本步骤102是为了满足去重处理对时效性的要求,确定待导入数据所属的时间段,只对该时间段内数据是否重复进行判定。一般情况下,同批次导入的数据属于相同的时间段。
步骤103:分别将待导入的数据与其所属的时间段进行编码,每个数据得到一个对应的编码结果。
本步骤103将数据与其所属时间段进行编码的目的有三:
一、得到的编码结果同时反映了数据的内容和数据所属的时间段,在后续进行数据去重判定时能够满足时效性的要求。
二、数据内容和时间段的编码可最大限度地使编码结果具有唯一性,避免后续的去重判定过程出现判定失误的问题。
三、编码过程可对数据进行压缩,使编码结果占用的存储空间小于原数据所需占用的存储空间,以便于后续对编码结果进行存储时能有效节约存储空间。
特殊地,将数据的内容和所属时间段直接组合的编码方式可使编码结果具有唯一性,但对数据的压缩效果不明显;例如,数据内容为XYZ,所属的时间段为201301,组合成XYZ201301。
在本实施例中,可采用MD5编码方式,使得编码结果的唯一性和压缩效果综合达到最佳,如将组合的XYZ201301进行MD5编码。当然,本实施例也不限于其他的编码方式以达到上述三个目的。
步骤104:针对得到的各编码结果,依次执行以下子步骤:
子步骤(1):读取去重表。
所述去重表为预先维护的数据表,在初始状态下,去重表为空。在每次进行数据的去重操作后,将没有重复出现过的编码结果(即导入至数据库中的数据所得到的编码结果)存储至所述去重表中,因此,除了初始状态外,去重表中将会存储若干个编码结果,且随着每次去重操作的进行,去重表中存储的编码结果也会不断地更新。
所述去重表可以直接存储在用于导入数据的数据库中,也可以存储在其他存储装臵内,较优地,可将去重表存储在具有索引建立功能的存储装臵内,以便于为去重表中存储的编码结果建立索引,来提高后续利用去重表中存储的编码结果进行去重判定的效率。
子步骤(2):判断读取的去重表中是否已存储有当前正在执行的编码结果,若有,则执行子步骤(3);否则,执行子步骤(4)。
子步骤(3):过滤该编码结果以及该编码结果对应的数据,并跳转至子步骤(6)。
由于编码结果的唯一性,若去重表中已存储有当前正在执行的编码结果,表示当前正在执行的编码结果所对应的数据在其所属的时间段内重复,因此,该编码结果以及其所对应的数据都需过滤掉。
子步骤(4):将当前正在执行的编码结果所对应的数据导入数据库中。
具体地,可将数据导入数据库正式表中,并按照一定的表结构开辟字段来记录该数据所属的时间段。
子步骤(5):将当前正在执行的编码结果存储至去重表中,更新去重表,并跳转至子步骤(6)。
同样由于编码结果的唯一性,若去重表中没有存储当前正在执行的编码结果,表示当前正在执行的编码结果所对应的数据在其所属的时间段内不重复,包括两种情况:当前正在执行的编码结果所对应的数据在其他时间段出现过或该数据从没出现过,不论是上述哪种情况,都无需过滤该数据,数据可导入至数据库中;同时,通过该数据的内容以及其所属时间段编码得到的编码结果可存储至去重表中,用以更新去重表中已存储的编码结果,并以更新后的去重表继续对其他还未执行过的编码结果进行去重判定。
通过上述子步骤(4)和子步骤(5)的方案,去重表中存储的编码结果与数据库中存储的数据具有一一对应的关系,即由于去重表中存储的编码结果两两不重复,因此,去重表中存储的编码结果对应的数据都存储在数据库内,确保数据库中存储的属于同一时间段的数据不重复。
需要说明的是,本实施例并不对上述子步骤(4)和子步骤(5)的执行顺序进行限定,也可以先将编码结果存储至去重表后,再将数据导入数据库,或是这两个子步骤并行执行亦可。子步骤(4)和子步骤(5)执行完毕后跳转至子步骤(6)。
子步骤(6):判断是否还有未执行过的编码结果,若有,则跳转至子步骤(1);否则,数据去重过程结束。
在上述实施例一的方案中,去重表可以是一张数据表,也可以是包含多张子表的数据表集合。
若所述去重表是一张数据表,可周期性地对去重表中的内容进行清理,保证表内数据量不会过大,避免出现去重判定效率低的问题。例如:若按月份将数据导入数据库(即每月一批次进行数据的导入),则可在去重表中保留最近6个月存储的编码结果,并将之前的编码结果备份后清除。
若所述去重表是包含多张子表的数据表集合,每张子表中存储的编码结果对应相同的时间段(即一张子表与一个时间段对应),由于每张子表中存储的编码结果不会特别多,因此,在每次去重判定的效率不会受到影响。
对于去重表包含多张子表的情况,在执行上述子步骤(2)时,首先要根据正在执行的编码结果对应的时间段,确定该时间段在去重表中对应的子表,然后再利用确定的子表中已存储的编码结果来进行去重处理。在执行子步骤(5)时,也是将当前正在执行的编码结果存储至相应的子表中。
实施例二:
本实施例二是与实施例一属于同一发明构思下的对数据进行去重的设备,如图2所示,所述设备主要包括:编码模块11、去重模块12和导入模块13,其中,编码模块11用于分别将待导入数据库的各数据与该数据所属的时间段进行编码,具体可采用MD5算法进行编码。
去重模块12用于针对得到的各编码结果,依次执行以下操作:
判断去重表中是否已存储当前执行的编码结果,若是,则过滤当前执行的编码结果以及该编码结果对应的数据,否则,将该编码结果存储至所述去重表中,并触发导入模块13;。
导入模块13用于将当前执行的编码结果对应的数据导入数据库中。
所述导入模块13还用于在数据库中记录导入的数据所属的时间段,具体可根据数据库所支持的表结构来开辟空间存储时间段信息。
另外,在去重表中包含多张子表,且每张子表中存储的编码结果对应相同的时间段的情况下,所述去重模块12具体用于根据当前执行的编码结果对应的时间段,确定该时间段在去重表中对应的子表,并判断确定的子表中是否已存储当前执行的编码结果,在确定的子表中未存储当前执行的编码结果时,将该编码结果存储至所述确定的子表中。
本实施例二中设备的各模块还具有实现实施例一方法的逻辑功能,此处不再赘述。
本实施例二中对数据进行去重的设备可以是一个独立的设备,位于业务网站和用于导入数据的数据库之间,一方面接收业务网站提供的待导入数据,另一方面对接收到的待导入数据进行去重后导入至数据库中。对数据进行去重的设备也可以是集成在数据库中的逻辑部件,对业务网站提供的待导入数据进行去重后,导致至数据库的其他存储部件中。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装臵。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装臵的制造品,该指令装臵实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (8)

1.一种对数据进行去重的方法,其特征在于,所述方法包括:
分别将待导入数据库的各数据与该数据所属的时间段进行编码;
针对得到的各编码结果,依次执行以下操作:
判断去重表中是否已存储当前执行的编码结果;
若是,则过滤当前执行的编码结果以及该编码结果对应的数据;
否则,将当前执行的编码结果对应的数据导入数据库中,并将该编码结果存储至所述去重表中。
2.如权利要求1所述的对数据进行去重的方法,其特征在于,将当前执行的编码结果对应的数据导入数据库之后,所述方法还包括:
在数据库中记录导入的数据所属的时间段。
3.如权利要求1所述的对数据进行去重的方法,其特征在于,所述去重表中包含多张子表,每张子表中存储的编码结果对应相同的时间段;
判断去重表中是否已存储当前执行的编码结果,并在未存储当前执行的编码结果时,将该编码结果存储至所述去重表中,具体包括:
根据当前执行的编码结果对应的时间段,确定该时间段在去重表中对应的子表;
判断确定的子表中是否已存储当前执行的编码结果,在确定的子表中未存储当前执行的编码结果时,将该编码结果存储至所述确定的子表中。
4.如权利要求1所述的对数据进行去重的方法,其特征在于,
待导入数据库的各数据与该数据所属的时间段进行MD5编码。
5.一种对数据进行去重的设备,其特征在于,所述设备包括:
编码模块,用于分别将待导入数据库的各数据与该数据所属的时间段进行编码;
去重模块,用于针对得到的各编码结果,依次执行以下操作:
判断去重表中是否已存储当前执行的编码结果,若是,则过滤当前执行的编码结果以及该编码结果对应的数据,否则,将该编码结果存储至所述去重表中,并触发导入模块;
导入模块,用于将当前执行的编码结果对应的数据导入数据库中。
6.如权利要求5所述的对数据进行去重的设备,其特征在于,
所述导入模块,还用于在数据库中记录导入的数据所属的时间段。
7.如权利要求5所述的对数据进行去重的设备,其特征在于,
所述去重模块,具体用于在去重表中包含多张子表,且每张子表中存储的编码结果对应相同的时间段时,根据当前执行的编码结果对应的时间段,确定该时间段在去重表中对应的子表,并判断确定的子表中是否已存储当前执行的编码结果,在确定的子表中未存储当前执行的编码结果时,将该编码结果存储至所述确定的子表中。
8.如权利要求5所述的对数据进行去重的设备,其特征在于,
所述编码模块,具体用于对待导入数据库的各数据与该数据所属的时间段进行MD5编码。
CN201310086212.1A 2013-03-18 2013-03-18 一种对数据进行去重的方法和设备 Pending CN104063374A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310086212.1A CN104063374A (zh) 2013-03-18 2013-03-18 一种对数据进行去重的方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310086212.1A CN104063374A (zh) 2013-03-18 2013-03-18 一种对数据进行去重的方法和设备

Publications (1)

Publication Number Publication Date
CN104063374A true CN104063374A (zh) 2014-09-24

Family

ID=51551090

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310086212.1A Pending CN104063374A (zh) 2013-03-18 2013-03-18 一种对数据进行去重的方法和设备

Country Status (1)

Country Link
CN (1) CN104063374A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104361068A (zh) * 2014-11-06 2015-02-18 华中科技大学 一种数据去重过程中的并行分块方法与系统
CN104484132A (zh) * 2014-12-12 2015-04-01 华为技术有限公司 数据缩减的方法及装置
CN109359201A (zh) * 2018-10-15 2019-02-19 浙江蓝鸽科技有限公司 多媒体教学资源的编码、存储方法及其设备
CN109726037A (zh) * 2017-10-27 2019-05-07 伊姆西Ip控股有限责任公司 用于备份数据的方法、设备和计算机程序产品
CN111427871A (zh) * 2019-01-09 2020-07-17 阿里巴巴集团控股有限公司 数据处理方法、装置、设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100005048A1 (en) * 2008-07-07 2010-01-07 Chandra Bodapati Detecting duplicate records
US20100235333A1 (en) * 2009-03-16 2010-09-16 International Business Machines Corporation Apparatus and method to sequentially deduplicate data
CN102385554A (zh) * 2011-10-28 2012-03-21 华中科技大学 重复数据删除系统的优化方法
CN102541918A (zh) * 2010-12-30 2012-07-04 阿里巴巴集团控股有限公司 重复信息识别方法和设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100005048A1 (en) * 2008-07-07 2010-01-07 Chandra Bodapati Detecting duplicate records
US20100235333A1 (en) * 2009-03-16 2010-09-16 International Business Machines Corporation Apparatus and method to sequentially deduplicate data
CN102541918A (zh) * 2010-12-30 2012-07-04 阿里巴巴集团控股有限公司 重复信息识别方法和设备
CN102385554A (zh) * 2011-10-28 2012-03-21 华中科技大学 重复数据删除系统的优化方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
廖海生 等: "基于MD5算法的重复数据删除技术的研究与改进", 《计算机测量与控制》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104361068A (zh) * 2014-11-06 2015-02-18 华中科技大学 一种数据去重过程中的并行分块方法与系统
CN104361068B (zh) * 2014-11-06 2017-06-16 华中科技大学 一种数据去重过程中的并行分块方法与系统
CN104484132A (zh) * 2014-12-12 2015-04-01 华为技术有限公司 数据缩减的方法及装置
WO2016091138A1 (zh) * 2014-12-12 2016-06-16 华为技术有限公司 数据缩减的方法及装置
CN104484132B (zh) * 2014-12-12 2017-11-17 华为技术有限公司 数据缩减的方法及装置
CN109726037A (zh) * 2017-10-27 2019-05-07 伊姆西Ip控股有限责任公司 用于备份数据的方法、设备和计算机程序产品
CN109726037B (zh) * 2017-10-27 2023-07-21 伊姆西Ip控股有限责任公司 用于备份数据的方法、设备和计算机程序产品
CN109359201A (zh) * 2018-10-15 2019-02-19 浙江蓝鸽科技有限公司 多媒体教学资源的编码、存储方法及其设备
CN109359201B (zh) * 2018-10-15 2021-07-30 浙江蓝鸽科技有限公司 多媒体教学资源的编码、存储方法及其设备
CN111427871A (zh) * 2019-01-09 2020-07-17 阿里巴巴集团控股有限公司 数据处理方法、装置、设备
CN111427871B (zh) * 2019-01-09 2024-03-29 阿里巴巴集团控股有限公司 数据处理方法、装置、设备

Similar Documents

Publication Publication Date Title
CN102436408B (zh) 基于Map/Dedup的数据存储云化和云备份方法
CN106445738B (zh) 一种数据库备份方法及装置
US9736270B2 (en) Automated client/server operation partitioning
CN106528787B (zh) 一种基于海量数据多维分析的查询方法及装置
CN109726174A (zh) 数据归档方法、系统、设备以及存储介质
CN109241159B (zh) 一种数据立方体的分区查询方法、系统及终端设备
CN103020255B (zh) 分级存储方法和装置
CN104063374A (zh) 一种对数据进行去重的方法和设备
CN102129425B (zh) 数据仓库中大对象集合表的访问方法及装置
CN103678408A (zh) 一种查询数据的方法及装置
CN111651519B (zh) 数据同步方法、数据同步装置、电子设备及存储介质
WO2014058711A1 (en) Creation of inverted index system, and data processing method and apparatus
CN111813805A (zh) 一种数据处理方法及装置
CN103235811A (zh) 一种数据存储方法及装置
CN109885642B (zh) 面向全文检索的分级存储方法及装置
CN103246549A (zh) 一种数据转存的方法及系统
CN107451204B (zh) 一种数据查询方法、装置及设备
CN110597821B (zh) 数据仓库表结构变更方法及装置
CN110134646B (zh) 知识平台服务数据存储与集成方法及系统
CN104182295A (zh) 一种数据备份方法及装置
CN106250501B (zh) 报表处理方法及报表系统
CN107315652B (zh) 一种数据备份方法及云hdfs系统
CN103778219A (zh) 一种基于HBase的更新增量索引的方法
CN101980190A (zh) 一种业务数据快速入库的方法和装置
CN102523112B (zh) 信息处理方法及设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20140924

RJ01 Rejection of invention patent application after publication