CN110347651A

CN110347651A - 基于云存储的数据同步方法、装置、设备及存储介质

Info

Publication number: CN110347651A
Application number: CN201910502462.6A
Authority: CN
Inventors: 李巍
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-06-11
Filing date: 2019-06-11
Publication date: 2019-10-18
Anticipated expiration: 2039-06-11
Also published as: CN110347651B

Abstract

本申请涉及数据处理领域，实现了云存储之间的数据同步，具体提供了一种数据同步方法、装置、设备及存储介质。其中方法包括：获取用户需要下载的数据文件对应的文件标识；根据所述文件标识从目标云端中下载所述数据文件，并监测所述数据文件是否下载成功；若所述数据文件下载失败，获取所述用户对所述目标云端的配置信息，所述配置信息包括存储数据文件的历史云端对应的存储路径和读取参数；根据所述读取参数和存储路径下载所述数据文件，并将所述数据文件发送给用户；在所述数据文件成功发送之后，将所述数据文件迁移至所述目标云端。该数据同步方法降低了数据同步时间，提高了数据同步效率。

Description

基于云存储的数据同步方法、装置、设备及存储介质

技术领域

本申请涉及数据处理技术领域，尤其涉及一种基于云存储的数据同步方法、装置、计算机设备及存储介质。

背景技术

近年来，随着云计算技术的发展，其相关应用也得到了用户的广泛好评和青睐。比如，云存储就是在云计算技术上发展起来的，云存储是指通过集群应用、网络技术和分布式文件系统等功能，将网络中大量不同类型的存储设备通过应用软件集合起来协同工作，共同对外提供数据存储和业务访问的一个系统。简单来说，云存储就是将存储资源放到云服务器供用户存取的一种新方案。比如阿里云、亚马逊云、七牛云和平安云等等。

在云存储技术使用过程中经常会使用数据同步，数据同步是指在云存储之间的同步，比如在用户使用过的阿里云、亚马逊云、七牛云和平安云之间等云存储之间数据同步。目前在用户更换云存储后，均是采用手动设置的同步方式来同步数据，该同步方式需要相对较长同步时间，同时同步效率较差，还降低了用户的体验。因此，有必要提供一种数据同步方法，以解决上述问题。

发明内容

本申请提供了一种基于云存储的数据同步方法、装置、计算机设备及存储介质，以降低数据同步时间以及提高数据同步效率。

第一方面，本申请提供了一种基于云存储的数据同步方法，所述方法包括：

获取用户需要下载的数据文件对应的文件标识；

根据所述文件标识从目标云端中下载所述数据文件，并监测所述数据文件是否下载成功；

若所述数据文件下载失败，获取所述用户对所述目标云端的配置信息，所述配置信息包括存储数据文件的历史云端对应的存储路径和读取参数；

根据所述读取参数和存储路径下载所述数据文件，并将所述数据文件发送给用户；以及

在所述数据文件成功发送之后，将所述数据文件迁移至所述目标云端。

第二方面，本申请还提供了一种基于存储的数据同步装置，所述装置包括：

标识获取单元，用于获取用户需要下载的数据文件对应的文件标识；

下载监测单元，用于根据所述文件标识从目标云端中下载所述数据文件，并监测所述数据文件是否下载成功；

信息获取单元，用于若所述数据文件下载失败，获取所述用户对所述目标云端的配置信息，所述配置信息包括存储数据文件的历史云端对应的存储路径和读取参数；

下载发送单元，用于根据所述读取参数和存储路径下载所述数据文件，并将所述数据文件发送给用户；以及

文件迁移单元，用于在所述数据文件成功发送之后，将所述数据文件迁移至所述目标云端。

第三方面，本申请还提供了一种计算机设备，所述计算机设备包括存储器和处理器；所述存储器用于存储计算机程序；所述处理器，用于执行所述计算机程序并在执行所述计算机程序时实现如上述的数据同步方法。

第四方面，本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器实现如上述的数据同步方法。

本申请公开了一种基于云存储的数据同步方法、装置、计算机设备及存储介质，通过获取根据文件标识从目标云端中下载所述数据文件，并在所述数据文件下载失败时，获取所述用户对所述目标云端的配置信息，所述配置信息包括存储数据文件的历史云端对应的存储路径和读取参数；根据所述读取参数和存储路径下载所述数据文件并将所述数据文件发送给用户；在成功发送之后，将所述数据文件迁移至所述目标云端。由此在用户需要下载数据文件过程中实现了云存储之间的数据异步同步，进而降低了数据同步的相对时间，提高了数据同步效率以及用户的体验度。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请的实施例提供的一种数据同步方法的应用场景示意图；

图2是本申请的实施例提供的一种数据同步方法的示意流程图；

图3是图2中的数据同步方法的子步骤示意流程图；

图4是图2中的数据同步方法的子步骤示意流程图；

图5是本申请的实施例提供的另一种数据同步方法的示意流程图；

图6为本申请的实施例提供的一种数据同步装置的示意性框图；

图7为本申请的实施例提供的另一种数据同步装置的示意性框图；

图8为本申请的实施例提供的一种计算机设备的结构示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。

应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

本申请的实施例提供了一种基于云存储的数据同步方法、装置、计算机设备及存储介质。其中，该基于云存储的数据同步方法可以应用于服务器中，用于实现不同的云端之间的数据同步，以降低数据同步的相对时间，进而提高数据同步效率。该服务器可以一台独立的服务器，也可以是服务器集群。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

请参阅图1，图1是本申请的实施例提供的一种基于云存储的数据同步方法的应用场景示意图。该应用场景包括服务器、用户终端、目标云端和三个历史云端，目标云端为Cloud-M，三个历史云端为Cloud-A、Cloud-B和Cloud-C。在用户通过用户终端下载数据时，服务器通过执行基于云存储的数据同步方法实现将三个历史云端中的数据同步至目标云端中。

譬如，在一个实施例中，服务器用于实现如下步骤：获取用户需要下载的数据文件对应的文件标识；根据所述文件标识从目标云端中下载所述数据文件，并监测所述数据文件是否下载成功；若所述数据文件下载失败，获取所述用户对所述目标云端的配置信息，所述配置信息包括存储数据文件的历史云端对应的存储路径和读取参数；根据所述读取参数和存储路径下载所述数据文件，并将所述数据文件发送给用户；以及在所述数据文件成功发送之后，将所述数据文件迁移至所述目标云端。由此，在用户需要下载数据文件过程中实现了历史云端与目标云端之间的数据异步同步，进而降低了数据同步的相对时间，提高了数据同步效率以及用户的体验度。

譬如，在一个实施例中，服务器用于实现如下步骤：获取用户需要下载的数据文件对应的文件标识；根据所述文件标识从目标云端中下载所述数据文件，并监测所述数据文件是否下载成功；若所述数据文件下载成功，返回执行获取用户需要下载的数据文件对应的文件标识的步骤；若所述数据文件下载失败，获取所述用户对所述目标云端的配置信息，所述配置信息包括存储数据文件的历史云端对应的存储路径和读取参数；根据所述读取参数和存储路径下载所述数据文件，并将所述数据文件发送给用户；以及在所述数据文件成功发送之后，将所述数据文件迁移至所述目标云端。由此，通过重复多次数据同步方法，实现了用户的所有数据资源均在历史云端与目标云端之间的数据异步同步，进而降低了数据同步的相对时间，提高了数据同步效率以及用户的体验度。

再譬如，在一个实施例中，服务器用于实现如下步骤：获取用户需要下载的数据文件对应的文件标识；根据所述文件标识从目标云端中下载所述数据文件，并监测所述数据文件是否下载成功；若所述数据文件下载失败，获取所述用户对所述目标云端的配置信息，所述配置信息包括存储数据文件的历史云端对应的存储路径和读取参数；根据所述读取参数和存储路径下载所述数据文件，并将所述数据文件发送给用户；以及在所述数据文件成功发送之后，对所述数据文件进行重复数据删除，并将进行重复数据删除之后的数据文件迁移至所述目标云端。由此，在用户需要下载数据文件过程中实现了历史云端与目标云端之间的数据异步同步，降低了数据同步的相对时间，减小数据量，提高了数据同步效率以及用户的体验度。

为了便于理解，以下将基于图1中的应用场景，对基于云存储的数据同步方法的实施例进行详细介绍。需要说明的是，该应用场景并不构成对所述基于云存储的数据同步方法所适用场景的限定。

请参阅图2，图2是本申请的实施例提供的一种基于云存储的数据同步方法的示意流程图。如图2所示，该数据同步方法具体包括步骤S101至S105。

S101、获取用户需要下载的数据文件对应的文件标识。

具体地，获取用户输入或者用户选择的需要下载的数据文件对应的文件标识，该文件标识包括数据文件的文件名称或地址信息(URL)等。当然也可以用其他标识信息进行表示，比如文件编号或文件标签，只要能唯一识别所述数据文件即可。

比如，可通过显示一个提供数据文件下载的窗口栏，用户可以在该窗口栏中输入其需要下载的数据文件的文件名称，通过所述窗口栏选择已显示的文件名称，该文件名称即是数据文件对应的文件标识。

S102、根据所述文件标识从目标云端中下载所述数据文件，并监测所述数据文件是否下载成功。

具体地，根据获取到的文件标识查询数据文件在目标云端的存储地址，根据存储地址从目标云端中下载该数据文件，并监测该数据文件的下载进度，通过下载进度实时判断所述数据文件是否下载成功，若下载进度未结束，则判定所述数据文件下载失败。

当然，监测所述数据文件是否下载成功，也可以根据数据文件的大小判断是否下载成功，具体地，读取所述数据文件的属性信息，所述属性信息包括文件大小；根据所述文件大小检测数据文件是否下载成功，若下载的数据文件的大小不是属性信息中的文件大小，则判定该数据文件下载失败。

S103、若所述数据文件下载失败，获取所述用户对所述目标云端的配置信息，所述配置信息包括存储数据文件的历史云端对应的存储路径和读取参数。

其中，配置信息包括用户对目标云端进行配置各个历史云端(不同的云产品，比如阿里云和七牛云等)的存储路径以及读取参数。具体是用户在使用该目标云端时，根据其之前使用过的历史云端对该目标云端进行配置，其中具体的配置过程为：获取用户在各个历史云端中保存的数据文件的存储路径，并对各个历史云端设置相应的读取参数；根据所述每个历史云端对应的存储路径和读取参数生成配置文件作为配置信息。

存储路径为数据文件在历史云端的保存地址，相同的数据文件在每个历史云端中的存储路径均是不同的，比如一数据文件在阿里云中的存储路径为：http://aliyun.com/bucket；而该数据文件在七牛云中的存储路径则为：http://qiniu.com/bucket。

读取参数包括读取比例和/或读取权重，读取比例为对不同历史云端的设置比例关系，以实现通过比例关系读取数据文件，比如数据文件中50％的数据从阿里云读取，30％的数据从七牛云读取，20％的数据从亚马逊云中读取；由此提高了数据文件的下载效率；读取权重用于表示读取各个历史云端的路由顺序，比如阿里云的权重最大，七牛云次之，亚马逊最小，根据读取权重优先读阿里云，再读七牛云，再读亚马逊云。具体地，根据所述读取权重确定各个历史云端的下载顺序，根据所述下载顺序依次从各个所述历史云端中下载所述数据文件，该下载顺序为：优先读阿里云，再读七牛云，再读亚马逊云。

S104、根据所述读取参数和存储路径下载所述数据文件，并将所述数据文件发送给用户。

具体地，获取到配置信息之后，根据所述配置信息中的读取参数和存储路径从各个历史云端中下载所述数据文件。例如，根据读取权重依次从相应的历史云端中下载该数据文件，比如用户设置读取权重表示：优先读取阿里云、再读取七牛云以及最后读取亚马逊云，因为有可能这个数据文件只存在七牛云上面，因此第一次读取阿里云就不能读取到相应的数据文件，根据读取参数将会继续读取七牛云的数据，直到读取到相应数据文件。

在下载到所述数据文件之后，将所述数据文件发送至用户终端，以方便用户使用，并保存下载到的数据文件。

在一个实施例中，为了提高数据文件的下载效率，通过对数据文件进行分块后采用并行下载的方式。具体地，如图3所示，即步骤S104包括：子步骤S104a至子步骤S104d。

S104a、根据所述读取比例将所述数据文件分成多个分块数据，计算每个所述分块数据的起始位置和结束位置。

具体地，比如读取比例为3：3：4，则根据该读取比例将数据文件分成三个分块数据，再比如读取比例为1：2：3：4，则根据该读取比例将数据文件分成四个分块数据。并计算划分后的分块数据的起始位置和结束位置，该起始位置和结束位置为分块数据的存储位置。其中该起始位置和结束位置包括各分块数据在同一历史云端中对应的存储位置，和各分块数据在不同历史云端中对应的存储位置。

S104b、根据所述存储路径查询所述数据文件并同时开启多个独立的线程。

具体地，计算每个分块数据的起始位置和结束位置之后，根据存储路径查询所述数据文件得到查询结果，所述查询结果为各个历史云端中均包括数据文件，或者查询结果为其中一个历史云端中包括数据文件。同时开启多个独立的线程，开启的独立的线程大于或大于分块数据的数量。

S104c、基于所述数据文件的查询结果，根据每个所述分块数据的起始位置和结束位置利用开启的线程对每个所述分块数据进行并行下载。

具体地，若查询结果为各个历史云端中均包括数据文件，则根据每个所述分块数据在不同历史云端中的起始位置和结束位置利用开启的线程对每个所述分块数据进行并行下载；若查询结果为其中一个历史云端中均包括数据文件，则根据每个所述分块数据在同一历史云端中的起始位置和结束位置利用开启的线程对每个所述分块数据进行并行下载。通过开启的独立线程实现并行下载，由此提高数据文件的下载速度。

S104d、将下载的分块数据依次写入临时下载文件中，在每个所述分块数据下载完成时保存所述临时下载文件作为数据文件。

具体地，预先建立一个临时下载文件，或者使用一个空文件，将下载的分块数据依次写入临时下载文件中，并监测每个分块数据是否下载成功，若监测到每个分块数据均下载成功，则保存并修改该临时下载文件作为数据文件。

可以理解的是，上述分块数据可以分为更多块数据，比如将分成的三个数据文件进一步划分，以划分为更多的分块数据。

S105、在所述数据文件成功发送之后，将所述数据文件迁移至所述目标云端。

具体地，在将所述数据文件成功发送至用户终端之后，将所述数据文件异步迁移到目标云端中存储。其中，异步迁移为先保存数据文件，然后在服务器空闲时再将所述数据文件存储在目标云端中。

在一个实施例中，为了提高数据迁移效率，所述将所述数据文件迁移至所述目标云端，包括：确定所述数据文件的数据类型，选择与所述数据类型对应的预设迁移规则；根据选择的预设迁移规则将所述数据文件迁移至所述目标云端。

具体地，数据文件的数据类型包括结构化数据、半结构化数据和非结构化数据。其中，结构化数据是指能够用数据或统一的结构进行表示的数据，如数字、符号等；半结构化数据是指介于结构化数据(如关系型数据库、面向对象数据库中的数据)和非结构化数据(如声音、图像文件等)之间的数据，比如XML、HTML文档就属于半结构化数据；非结构化数据库是指其字段长度可变，并且每个字段的记录又可以由可重复或不可重复的子字段构成，比如图片、声音、影视、超媒体、图像和音频/视频信息等。根据数据文件的数据类型设置不同的预设迁移规则，进而可以提高数据的迁移效率。

例如，如果数据文件的数据类型为结构化数据，对应预设迁移规则可以采用：数据泵、GoldenGate/DSG、XTTS等方式进行迁移；如果数据文件的数据类型为图片或视频等非结构化数据，对应的预设迁移规则可以采用：借助Hadoop工具完成数据迁移，当然还可以包括其他的数据迁移方式。

其中，所述数据类型为非结构化数据对应的预设迁移规则为：采用Hadoop完成数据迁移。具体地，如图4所示，所述根据选择的预设迁移规则将所述数据文件迁移至所述目标云端的步骤，包括：子步骤S105a至S105d。

S105a、获取所述数据文件对应的数据表，对所述数据表进行分类统计，得到多个数据子表以及对应的子表类型信息。

具体地，根据数据文件对应的数据标识，从历史云端对应的数据库中查询并获取所述数据文件对应的数据表。根据所述数据表中涉及的数据对应的类型对所述数据表进行分类统计，统计出每种类型的数据得到数据子表并统计所述数据子表的大小，将所述数据子表的类型和大小作为子表类型信息。

比如，所述数据表中涉及的数据对应的类型包括：图像、音频和视频三个类型，则根据三个类型将数据表分为三个子数据表，分别为子数据表A、子数据表B和子数据表C，分别用于记录图像、音频和视频类型的数据。

S105b、将所述子表类型信息输入至预先训练好的资源优化模型以计算每个所述数据子表对应的资源配置信息。

其中，先训练的资源优化模型用于根据子表类型信息预测当前需要同步的数据子表所需的资源配置信息，其中该资源配置信息包括同步方式和分配的硬件资源等。该同步方式包括同步周期或高并发同步等方式，该同步周期比如按周同步、按天同步或按小时同步等；分配的硬件资源比如包括同步时使用的CPU数量和内存大小等硬件资源。

S105c、根据所述资源配置信息为每个所述数据子表分配同步资源。

具体地，根据所述资源配置信息中的同步方式为每个所述数据子表设置相应的同步方式以及为每个所述数据子表分配硬件资源，即同步资源包括同步方式和硬件资源，当然该同步资源还可包括其他信息。

比如，将子数据表A、子数据表B和子数据表C的同步方式均设为按小时同步，即每小时同步一次，同时还为子数据表A、子数据表B和子数据表C分配不同的硬件资源，比如子数据表A分配5个CPU和3GB大小的内存、子数据表B分配4个CPU和2GB大小的内存以及子数据表C分配3个CPU和1GB大小的内存。

S105d、根据分配的同步资源，通过Hadoop将每个所述数据子表对应的数据迁移至目标云端。

根据每个数据子表分配的同步资源(同步方式和硬件资源)，通过Hadoop按照同步方式和同步资源将每个所述数据子表对应的数据迁移至目标云端，由此提高了数据同步效率以及目标云端的工作效率。

通过获取根据文件标识从目标云端中下载所述数据文件，并在所述数据文件下载失败时，获取所述用户对所述目标云端的配置信息，所述配置信息包括存储数据文件的历史云端对应的存储路径和读取参数；根据所述读取参数和存储路径下载所述数据文件并将所述数据文件发送给用户；在成功发送之后，将所述数据文件迁移至所述目标云端。由此在用户需要下载数据文件过程中实现了云存储之间的数据异步同步，进而降低了数据同步的相对时间，提高了数据同步效率以及用户的体验度。

请参阅图5，图5是本申请的实施例提供的一种基于云存储的数据同步方法的示意流程图。如图5所示，该数据同步方法具体包括步骤S201至S206。

S201、监测用户终端发送的数据文件下载请求，获取所述数据文件下载请求中的文件标识。

具体地，用户可以根据需要下载的数据文件的文件标识通过用户终端发起数据文件下载请求，并将数据文件下载请求发送至服务器，服务器在监测用户终端发送的数据文件下载请求时，获取所述数据文件下载请求中的文件标识。

S202、根据所述文件标识从目标云端中下载所述数据文件，并监测所述数据文件是否下载成功。

具体地，服务器在获取到所述数据文件下载请求中的文件标识后，并监测所述数据文件是否下载成功；若所述数据文件下载成功，则执行步骤S203；若所述数据文件下载失败，则执行步骤S204。

S203、发送所述数据文件至用户终端。

具体地，若所述数据文件下载成功，发送所述数据文件至用户终端以供用户使用，并返回执行步骤S201，继续监测用户终端发送的下一个数据文件下载请求。

S204、获取所述用户对所述目标云端的配置信息，所述配置信息包括存储数据文件的历史云端对应的存储路径和读取参数。

具体地，若所述数据文件下载失败，则获取所述用户对所述目标云端的配置信息，其中所述配置信息包括存储数据文件的历史云端对应的存储路径和读取参数。

S205、根据所述读取参数和存储路径下载所述数据文件，并将所述数据文件发送给用户。

具体地，服务器获取到配置信息之后，根据所述配置信息中的读取参数和存储路径从各个历史云端中下载所述数据文件。

在一个实施例中，所述读取参数包括每个历史云端对应的读取权重；所述根据所述读取参数和存储路径下载所述数据文件，包括：根据所述读取权重确定各个历史云端的下载顺序，根据所述下载顺序依次从各个所述历史云端中下载所述数据文件。由于用户在对过去使用的历史云端进行了偏好设置，由此可以提高数据文件的下载速度。

S206、在所述数据文件成功发送之后，对所述数据文件进行重复数据删除，并将进行重复数据删除之后的数据文件迁移至所述目标云端。

具体地，在服务器监测到所述数据文件成功发送之后，对所述数据文件进行重复数据删除操作，并将进行重复数据删除之后的数据文件迁移至所述目标云端，可以减小数据文件的大小，提高了数据文件的迁移效率和云端的存储效率。

其中，进行重复数据删除过程为：将所述数据文件分成一组数据块，为每个数据块计算数据指纹并以数据指纹为关键字进行哈希查找以确定重复数据块，并删除所述重复数据块。

数据指纹是数据块的本质特征，理想状态是每个唯一数据块具有唯一的数据指纹，不同的数据块具有不同的数据指纹。数据块本身往往较大，因此数据指纹的目标是期望以较小的数据表示(如16、32、64、128字节)来区别不同数据块。数据指纹通常是对数据块内容进行相关数学运算获得，在本实施例中采用Hash函数计算Hash值，当然也可以采用其他方式，比如MD5、SHA1、SHA-256、SHA-512、为one-Way、RabinHash等。

在一个实施例中，再删除重复数据时，还可以考虑相应的数据的数据类型(结构化数据、半结构化数据和非结构化数据，考虑数据类型目的是为了提高删除重复数据的速度以及准确度。

相应地，在所述将所述数据文件分成一组数据块步骤之前，还包括：识别数据文件的数据类型；根据数据类型选择相应类型的数据块切分规则；相应地，所述将所述数据文件分成一组数据块，包括：根据选择相应的数据块切分规则对数据文件进行切分得到一组数据块。

其中，应类型的数据块切分规则比如案子文件级进行切分，或者按照数据块级进行拆分；或者选择定长切分(fixed-size partition)、CDC切分(content-definedchunking)和滑动块(sliding block)切分。

具体地是采用数据分块算法对数据文件进行分块以得到多个数据块，数据分块算法主要有三种，即定长切分(fixed-size partition)算法、CDC切分(content-definedchunking)算法和滑动块(sliding block)切分算法。

定长分块算法采用预先义好的块大小对文件进行切分，并进行弱校验值和MD5强校验值。弱校验值主要是为了提升差异编码的性能，先计算弱校验值并进行hash查找，如果发现则计算MD5强校验值并作进一步hash查找。由于弱校验值计算量要比MD5小很多，因此可以有效提高编码性能。定长分块算法的优点是简单、性能高，但它对数据插入和删除非常敏感，处理十分低效，不能根据内容变化作调整和优化。

CDC切分算法是一种变长分块算法，它应用数据指纹(如Rabin指纹)将文件分割成长度大小不等的分块策略。与定长分块算法不同，它是基于文件内容进行数据块切分的，因此数据块大小是可变化的。算法执行过程中，CDC使用一个固定大小(如48字节)的滑动窗口对文件数据计算数据指纹。如果指纹满足某个条件，比如当它的值模特定的整数等于预先设定的数时，则把窗口位置作为块的边界。CDC算法可能会出现病态现象，即指纹条件不能满足，块边界不能确定，导致数据块过大。实现中可以对数据块的大小进行限定，设定上下限，解决这种问题。CDC算法对文件内容变化不敏感，插入或删除数据只会影响到检少的数据块，其余数据块不受影响。

滑动块算法结合了定长切分和CDC切分的优点，块大小固定。它对定长数据块先计算弱校验值，如果匹配则再计算MD5强校验值，两者都匹配则认为是一个数据块边界。该数据块前面的数据碎片也是一个数据块，它是不定长的。如果滑动窗口移过一个块大小的距离仍无法匹配，则也认定为一个数据块边界。滑动块算法对插入和删除问题处理非常高效，并且能够检测到比CDC更多的冗余数据，它的不足是容易产生数据碎片。

上述基于云存储的数据同步方法通过重复多次数据同步，实现了用户的所有数据资源均在历史云端与目标云端之间的数据异步同步，进而降低了数据同步的相对时间，提高了数据同步效率以及用户的体验度。

请参阅图6，图6是本申请的实施例提供一种数据同步装置的示意性框图，该数据同步装置用于执行前述的数据同步方法。其中，该数据同步装置可以配置于服务器。

如图6所示，该数据同步装置300，包括：标识获取单元301、下载监测单元302、信息获取单元303、下载发送单元304和文件迁移单元305。

标识获取单元301，用于获取用户需要下载的数据文件对应的文件标识。

下载监测单元302，用于根据所述文件标识从目标云端中下载所述数据文件，并监测所述数据文件是否下载成功。

信息获取单元303，用于若所述数据文件下载失败，获取所述用户对所述目标云端的配置信息，所述配置信息包括存储数据文件的历史云端对应的存储路径和读取参数。

下载发送单元304，用于根据所述读取参数和存储路径下载所述数据文件，并将所述数据文件发送给用户。

在一个实施例中，下载发送单元304具体用于：根据所述读取比例将所述数据文件分成多个分块数据，计算每个所述分块数据的起始位置和结束位置；根据所述存储路径查询所述数据文件并同时开启多个独立的线程；基于所述数据文件的查询结果，根据每个所述分块数据的起始位置和结束位置对每个所述分块数据进行并行下载；将下载的分块数据依次写入临时下载文件中，在每个所述分块数据下载完成时保存所述临时下载文件作为数据文件。

文件迁移单元305，用于在所述数据文件成功发送之后，将所述数据文件迁移至所述目标云端。

在一个实施例中，文件迁移单元305，具体用于：确定所述数据文件的数据类型，选择与所述数据类型对应的预设迁移规则；根据选择的预设迁移规则将所述数据文件迁移至所述目标云端。

具体地，文件迁移单元305，还具体用于：获取所述数据文件对应的数据表，对所述数据表进行分类统计，得到多个数据子表以及对应的子表类型信息；将所述子表类型信息输入至预先训练好的资源优化模型以计算每个所述数据子表对应的资源配置信息；根据所述资源配置信息为每个所述数据子表分配同步资源；根据分配的同步资源，通过Hadoop将每个所述数据子表对应的数据迁移至目标云端。

请参阅图7，图7是本申请的实施例提供一种数据同步装置的示意性框图，该数据同步装置用于执行前述的数据同步方法。其中，该数据同步装置可以配置于服务器。

如图7所示，该数据同步装置400，包括：标识获取单元401、下载监测单元402、文件发送单元403、信息获取单元404、下载发送单元405和文件迁移单元406。

标识获取单元401，用于监测用户终端发送的数据文件下载请求，获取所述数据文件下载请求中的文件标识。

下载监测单元402，用于根据所述文件标识从目标云端中下载所述数据文件，并监测所述数据文件是否下载成功。

其中，若所述数据文件下载成功，则调用文件发送单元403；若所述数据文件下载失败，则调用信息获取单元404。

文件发送单元403，用于发送所述数据文件至用户终端。

信息获取单元404，用于获取所述用户对所述目标云端的配置信息，所述配置信息包括存储数据文件的历史云端对应的存储路径和读取参数。

下载发送单元405，用于根据所述读取参数和存储路径下载所述数据文件，并将所述数据文件发送给用户。

在一个实施例中，下载发送单元405，具体用于：根据所述读取权重确定各个历史云端的下载顺序，根据所述下载顺序依次从各个所述历史云端中下载所述数据文件。

文件迁移单元406，用于在所述数据文件成功发送之后，对所述数据文件进行重复数据删除，并将进行重复数据删除之后的数据文件迁移至所述目标云端。

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和各单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

上述的装置可以实现为一种计算机程序的形式，该计算机程序可以在如图8所示的计算机设备上运行。

请参阅图8，图8是本申请的实施例提供的一种计算机设备的结构示意性框图。该计算机设备可以是终端。

参阅图8，该计算机设备包括通过系统总线连接的处理器、存储器和网络接口，其中，存储器可以包括非易失性存储介质和内存储器。

非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令，该程序指令被执行时，可使得处理器执行任意一种数据同步方法。

处理器用于提供计算和控制能力，支撑整个计算机设备的运行。

内存储器为非易失性存储介质中的计算机程序的运行提供环境，该计算机程序被处理器执行时，可使得处理器执行任意一种数据同步方法。

该网络接口用于进行网络通信，如发送分配的任务等。本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

应当理解的是，处理器可以是中央处理单元(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

其中，在一个实施例中，所述处理器用于运行存储在存储器中的计算机程序，以实现如下步骤：

获取用户需要下载的数据文件对应的文件标识；根据所述文件标识从目标云端中下载所述数据文件，并监测所述数据文件是否下载成功；若所述数据文件下载失败，获取所述用户对所述目标云端的配置信息，所述配置信息包括存储数据文件的历史云端对应的存储路径和读取参数；根据所述读取参数和存储路径下载所述数据文件，并将所述数据文件发送给用户；以及在所述数据文件成功发送之后，将所述数据文件迁移至所述目标云端。

在一个实施例中，所述读取参数包括每个历史云端对应的读取比例；所述处理器在实现所述根据所述读取参数和存储路径下载所述数据文件时，用于实现：

根据所述读取比例将所述数据文件分成多个分块数据，计算每个所述分块数据的起始位置和结束位置；根据所述存储路径查询所述数据文件并同时开启多个独立的线程；基于所述数据文件的查询结果，根据每个所述分块数据的起始位置和结束位置对每个所述分块数据进行并行下载；将下载的分块数据依次写入临时下载文件中，在每个所述分块数据下载完成时保存所述临时下载文件作为数据文件。

在一个实施例中，所述读取参数包括每个历史云端对应的读取权重；所述处理器在实现所述根据所述读取参数和存储路径下载所述数据文件时，用于实现：

根据所述读取权重确定各个历史云端的下载顺序，根据所述下载顺序依次从各个所述历史云端中下载所述数据文件。

在一个实施例中，所述处理器在实现所述将所述数据文件迁移至所述目标云端时，用于实现：

确定所述数据文件的数据类型，选择与所述数据类型对应的预设迁移规则；根据选择的预设迁移规则将所述数据文件迁移至所述目标云端。

在一个实施例中，所述数据类型为非结构化数据对应的预设迁移规则为：采用Hadoop完成数据迁移；所述处理器在实现所述根据选择的预设迁移规则将所述数据文件迁移至所述目标云端时，用于实现：

获取所述数据文件对应的数据表，对所述数据表进行分类统计，得到多个数据子表以及对应的子表类型信息；将所述子表类型信息输入至预先训练好的资源优化模型以计算每个所述数据子表对应的资源配置信息；根据所述资源配置信息为每个所述数据子表分配同步资源；根据分配的同步资源，通过Hadoop将每个所述数据子表对应的数据迁移至目标云端。

对所述数据文件进行重复数据删除，并将进行重复数据删除之后的数据文件迁移至所述目标云端。

在一个实施例中，所述处理器在实现所述对所述数据文件进行重复数据删除时，用于实现：

将所述数据文件分成一组数据块，为每个数据块计算数据指纹并以数据指纹为关键字进行哈希查找以确定重复数据块，并删除所述重复数据块。

本申请的实施例中还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序中包括程序指令，所述处理器执行所述程序指令，实现本申请实施例提供的任一项数据同步方法。

其中，所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元，例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备，例如所述计算机设备上配备的插接式硬盘，智能存储卡(SmartMedia Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于云存储的数据同步方法，其特征在于，包括：

获取用户需要下载的数据文件对应的文件标识；

2.根据权利要求1所述的数据同步方法，其特征在于，所述读取参数包括每个历史云端对应的读取比例；所述根据所述读取参数和存储路径下载所述数据文件，包括：

根据所述读取比例将所述数据文件分成多个分块数据，计算每个所述分块数据的起始位置和结束位置；

根据所述存储路径查询所述数据文件并同时开启多个独立的线程；

基于所述数据文件的查询结果，根据每个所述分块数据的起始位置和结束位置对每个所述分块数据进行并行下载；

将下载的分块数据依次写入临时下载文件中，在每个所述分块数据下载完成时保存所述临时下载文件作为数据文件。

3.根据权利要求1所述的数据同步方法，其特征在于，所述读取参数包括每个历史云端对应的读取权重；所述根据所述读取参数和存储路径下载所述数据文件，包括：

4.根据权利要求1至3任一项所述的数据同步方法，其特征在于，所述将所述数据文件迁移至所述目标云端，包括：

确定所述数据文件的数据类型，选择与所述数据类型对应的预设迁移规则；

根据选择的预设迁移规则将所述数据文件迁移至所述目标云端。

5.根据权利要求4所述的数据同步方法，其特征在于，所述数据类型为非结构化数据对应的预设迁移规则为：采用Hadoop完成数据迁移；

所述根据选择的预设迁移规则将所述数据文件迁移至所述目标云端，包括：

获取所述数据文件对应的数据表，对所述数据表进行分类统计，得到多个数据子表以及对应的子表类型信息；

将所述子表类型信息输入至预先训练好的资源优化模型以计算每个所述数据子表对应的资源配置信息；

根据所述资源配置信息为每个所述数据子表分配同步资源；

根据分配的同步资源，通过Hadoop将每个所述数据子表对应的数据迁移至目标云端。

6.根据权利要求4所述的数据同步方法，其特征在于，所述将所述数据文件迁移至所述目标云端，包括：

7.根据权利要求6所述的数据同步方法，其特征在于，所述对所述数据文件进行重复数据删除，包括：

8.一种数据同步装置，其特征在于，包括：

9.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器；

所述存储器用于存储计算机程序；

所述处理器，用于执行所述计算机程序并在执行所述计算机程序时实现如权利要求1至7中任一项所述的数据同步方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器实现如权利要求1至7中任一项所述的数据同步方法。