CN106326398A

CN106326398A - 数据一致性对比的方法及装置

Info

Publication number: CN106326398A
Application number: CN201610695153.1A
Authority: CN
Inventors: 李东鸽; 牟晓光
Original assignee: Neusoft Corp
Current assignee: Neusoft Corp
Priority date: 2016-08-19
Filing date: 2016-08-19
Publication date: 2017-01-11

Abstract

本发明公开了一种数据一致性对比的方法及装置，用以解决现有技术中数据一致性对比的效率较低的技术问题。该方法包括：对源存储设备中的所有数据进行有序的打点分段，得到多个分段区间；读取每个所述分段区间中的源数据，并将每条所述源数据的哈希值存储在缓存中，得到所述源存储设备的对比快照；读取目标存储设备中的目标数据，其中，所述目标存储设备中存储有所述源存储设备中的数据的备份；根据所述对比快照对比所述目标数据与所述源数据，得到所述目标数据与所述源数据之间的差异信息。

Description

数据一致性对比的方法及装置

技术领域

本发明涉及存储技术领域，具体地，涉及一种数据一致性对比的方法及装置。

背景技术

在数据库技术的应用领域中，多个存储设备间进行数据复制时，通常是直接从源存储设备中读取数据后，通过中间存储媒介或网络存储至目标存储设备上。由于，数据的拷贝过程中可能会存在数据被恶意串改或丢失等情况。因此，在对数据库中的数据进行复制时，需要对数据的完整性进行验证，以确保数据的安全性。

目前，对复制数据的一致性进行验证，是通过在完成数据复制后分别将源存储设备和目标存储设备中的数据进行比较来实现的。现有技术在读取数据时，需要对存储设备中的数据进行分页，再采用多个线程读取每个分页中的数据。在海量数据处理的应用场景下，数据分页会耗费大量的时间，降低了数据一致性对比的效率。

发明内容

本发明的目的是提供一种数据一致性对比的方法及装置，用以解决现有技术中数据一致性对比的效率较低的技术问题。

为了实现上述目的，本发明提供一种数据一致性对比的方法，包括：

对源存储设备中的所有数据进行有序的打点分段，得到多个分段区间；

读取每个所述分段区间中的源数据，并将每条所述源数据的哈希值存储在缓存中，得到所述源存储设备的对比快照；

读取目标存储设备中的目标数据，其中，所述目标存储设备中存储有所述源存储设备中的数据的备份；

根据所述对比快照对比所述目标数据与所述源数据，得到所述目标数据与所述源数据之间的差异信息。

可选地，所述读取每个所述分段区间中的源数据，并将每条所述源数据的哈希值存储在缓存中，包括：

采用N个线程分别读取N个分段区间中的源数据，并将每个所述分段区间中的每条源数据的哈希值存储在对应所述分段区间的缓存中，得到N个对比快照，其中，N个分段区间与N个缓存一一对应。

可选地，所述读取目标存储设备中的目标数据，包括：

在第一分段区间中的所有源数据的哈希值均存入对应的第一缓存后，读取所述目标存储设备的第一分段区间中的目标数据，所述第一分段区间是所述N个分段区间中的任一分段区间；

所述根据所述对比快照对比所述目标数据与所述源数据，得到所述目标数据与所述源数据之间的差异信息，包括：

根据所述第一缓存中的哈希值在所述第一分段区间中获取源数据；

对比所述目标数据与所述源数据，得到所述目标数据与所述源数据之间的差异信息。

可选地，所述方法还包括：

确定所述源存储设备的第一分段区间中的源数据量超过阈值；

对所述第一分段区间补充分段点，以将所述第一分段区间分成新的多个分段区间。

可选地，所述对源存储设备中的所有数据进行有序的打点分段，得到多个分段区间，包括：

对所述源存储设备中的源数据进行打点；

将每相邻的两个点连成左开右闭的所述分段区间。

本发明还提供一种数据一致性对比装置，包括：

分段单元，用于对源存储设备中的所有数据进行有序的打点分段，得到多个分段区间；

读取单元，用于读取每个所述分段区间中的源数据；

写入单元，用于将每条所述源数据的哈希值存储在缓存中，得到所述源存储设备的对比快照；

所述读取单元还用于，读取目标存储设备中的目标数据，其中，所述目标存储设备中存储有所述源存储设备中的数据的备份；

对比单元，用于根据所述对比快照对比所述目标数据与所述源数据，得到所述目标数据与所述源数据之间的差异信息。

可选地，所述读取单元具体用于，采用N个线程分别读取N个分段区间中的源数据；

所述写入单元具体用于，将每个所述分段区间中的每条源数据的哈希值存储在对应所述分段区间的缓存中，得到N个对比快照，其中，N个分段区间与N个缓存一一对应。

可选地，所述读取单元还用于：

所述读取单元还用于，根据所述第一缓存中的哈希值在所述第一分段区间中获取源数据；

所述对比单元具体用于，对比所述目标数据与所述源数据，得到所述目标数据与所述源数据之间的差异信息。

可选地，还包括：

确定单元，用于确定所述源存储设备的第一分段区间中的源数据量超过阈值；

所述分段单元还用于，对所述第一分段区间补充分段点，以将所述第一分段区间分成新的多个分段区间。

可选地，所述分段单元具体用于：

对所述源存储设备中的源数据进行打点；

将每相邻的两个点连成左开右闭的所述分段区间。

通过上述技术方案，对源存储设备中的数据进行打点分段耗费的时间小于对源存储设备中的数据进行分页的时间，进而提高了数据一致性对比的效率。并且，不同于数据分页的无序，对数据进行打点分段是有序的，基于此，本发明还可以进一步达到其他优点。

具体地，本发明的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本发明的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明，但并不构成对本发明的限制。在附图中：

图1是现有技术中数据一致性对比的方法的流程示意图；

图2是本发明实施例提供的一种数据一致性对比的方法的流程示意图；

图3是本发明实施例提供的一种系统架构的示意图；

图4是基于图3所示的系统架构提供的另一种数据一致性对比的方法的流程示意图；

图5A是本发明实施例提供的一种数据一致性对比的装置结构示意图；

图5B是本发明实施例提供的另一种数据一致性对比的装置的结构示意图。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

为了使本领域的技术人员更容易理解本发明实施例对现有技术的改进之处，首先对现有技术中相关的技术方案进行简单介绍。

如图1所示，现有的数据一致性对比的方法包括：

S101、采用多线程分页方式读取源存储设备中的数据。

具体地，若执行数据一致性对比的装置采用8个线程读取数据，则该装置可以将源端存储设备中的数据分为8页。其中，数据分页需要首先获取源存储设备中存储的所有数据，然后对各个数据进行排序分页，耗费资源以及时间较多。

S102、将源存储设备中的所有数据的哈希值存入一个缓存中，得到所述源存储设备的对比快照。

其中，使用哈希值，该装置可以快速的在源存储设备中查询到对应的数据。

S103、在所有数据的哈希值存入该缓存后，采用多线程从目标存储设备读取数据。

S104、根据该对比快照将目标存储设备中的数据以及源存储设备中的数据进行对比，得到差异信息。

由上可知，现有技术中，数据分页耗费较多的时间导致数据一致性对比的效率低下，并且，由于数据的分页是无序的，因此，现有技术只能先将源存储设备中的所有数据读取出来后，才能从目标存储设备中读取数据进行对比，数据对比的并发能力低下。

在集群存储环境中，为了容灾，各个存储设备之间的数据互为备份，避免单个存储设备故障后，数据无法找回。其中，集群环境中可以仅利用主存储设备对外提供服务，在此种情况下，该主存储设备即为源存储设备，其他作为备份的存储设备中的数据均需要从源存储设备中复制。本发明以下实施例均可应用于上述场景，即源存储设备与目标存储设备之间的数据一致性对比。

为了解决现有技术中存在的技术问题，本发明实施例提供一种数据一致性对比的方法，如图2所示，该方法包括：

S201、对源存储设备中的所有数据进行有序的打点分段，得到多个分段区间。

示例地，该源存储设备的数据库中存储的用户身份信息，一个用户的身份信息包括姓名，出生日期，身份证号。这样，本发明实施例可以针对用户的出生日期进行打点。例如，1980年1月1日作为一个关键数据点，1990年1月1日作为另一个关键数据点。依此类推，可得到从1980年起始的，每十年一个的分段区间，每个分段区间包括在此十年内出生的所有用户的身份信息。

另外，对于分段区间的总数，在初始分段时，本发明实施例可以根据用于读取数据的线程总数进行分段。例如，采用十个线程读取数据，则可以将源数据库中的数据打点分为十个分段区间。这样，每个分段区间可以采用一个线程进行读取。

上述只是举例说明，在具体实施时，该源存储设备的数据库可能存储其他类型的数据，每一数据记录包括多种属性信息，本发明实施例可以基于一种属性信息进行打点分段。本发明对此不做限定。

S202、读取每个所述分段区间中的源数据，并将每条所述源数据的哈希值存储在缓存中，得到所述源存储设备的对比快照。

值得说明的是，该缓存可以是NoSQL(Not Only SQL，不仅结构化的查询语言)库。

S203、读取目标存储设备中的目标数据，其中，所述目标存储设备中存储有所述源存储设备中的数据的备份。

S204、根据所述对比快照对比所述目标数据与所述源数据，得到所述目标数据与所述源数据之间的差异信息。

采用上述方案，对源存储设备中的数据进行打点分段耗费的时间小于对源存储设备中的数据进行分页的时间，进而提高了数据一致性对比的效率。并且，不同于数据分页的无序，对数据进行打点分段是有序的，基于此，本发明还可以进一步达到其他优点。

在本发明实施例的一种可能的实现方式中，上述步骤S202包括：

也就是说，每一个分段区间对应一个独立的缓存，从而提高了并发写入能力。并且，由于任意一个分段区间中的源数据哈希值写入对应的缓存后，无需等到其他分段区间的数据读取完成，即可开始进行与目标存储设备中的数据的对比，节省了时间，从而提高了数据对比的效率。

具体地，上述步骤S203包括：在第一分段区间中的所有源数据的哈希值均存入对应的第一缓存后，读取所述目标存储设备的第一分段区间中的目标数据，所述第一分段区间是所述N个分段区间中的任一分段区间；上述步骤S204包括：根据所述第一缓存中的哈希值在所述第一分段区间中获取源数据；对比所述目标数据与所述源数据，得到所述目标数据与所述源数据之间的差异信息。

上述只是以一个分段区间进行的说明，对于源存储设备中的每个分段区间，均可以按照上述对第一分段区间的操作进行数据对比，此处不再赘述。

进一步地，在得到所述目标数据与所述源数据之间的差异信息之后，本发明实施例还可以确定该源端设备的第一分段区间中的源数据量是否超过阈值，在该第一分段区间中的源数据量超过阈值的情况下，对该第一分段区间补充分段点，以将该第一分段区间分成新的多个分段区间。也就是说，本发明实施例可以只执行一次打点分段，后续打点采用自动补点方式，降低了资源消耗。

值得说明的是，初始打点分段后得到的多个分段区间中的数据大致相同，在源存储设备中新增数据后，可能存在某一分段区间的数据量远大于其他分段区间的数据量。在此种情况下，本发明实施例可以将该分段区间打点分段为多个分段区间，使得每个分段区间中的数据量保持基本一致，使得每个线程的负载均衡。

为了便于本领域的技术人员更容易的理解本发明实施例提供的技术方案，下面结合具体的系统架构图对上述数据一致性对比的方法进行说明。

示例地，如图3所示，源数据库中存储有源数据，目标数据库中存储有从该源数据库中复制的目标数据。值得说明的是，源数据库和目标数据库可以运行在不同的存储设备上，也可以分别运行在不同的存储设备上，本发明对此不做限定。

图3中示出的缓存1至缓存8可以是NoSQL数据库中的不同的存储空间，该NoSQL数据库与该源数据库可以运行在相同的存储设备上，也可以分别运行在不同的存储设备上，本发明对此不做限定。

基于图3所示的系统架构，本发明实施例提供的数据一致性对比的方法如图4所示，该方法包括：

S401、在源存储设备中的所有源数据中选取七个关键数据点。

其中，由于采用八个线程读取数据，因此，本发明实施例可以将源存储设备中存储的源数据划分为八个分段区间。在具体实施时，可以选取七个关键数据点，以形成左开右闭的八个分段区间，其中，每相邻两个关键点之间的数据量相同。

S402、将每相邻的两个关键数据点连成分段区间，得到八个分段区间。

具体地，将相邻的两个关键数据点连成左开右闭的分段区间，这样，对于七个关键点加上当前时刻源存储设备中的最小值以及最大值即可以连接出八个左开右闭的分段区间。

值得说明的是，左开右闭的分段区间保证了新写入源存储设备中的数据落入已分段的区间之内。也就是说，新写入的最小值仍然落在第一个分段区间之内，新写入的最大值仍然落入最后一个分段区间之内。

示例地，源数据库中存储了出生日期为1970年1月1日至2016年1月1日出生的用户的身份信息，针对该用户的出生日期，可以将源数据库中的数据分为八段。例如，将1975年1月1日作为第一关键点、1980年1月1日作为第二关键点、将1985年1月1日作为第三关键点、将1990年1月1日作为第四关键点、将1994年1月1日作为第五关键点、将1998年1月1日作为第六关键点、将2012年1月1日作为第七关键点，连接可得到左开右闭的八个分段区间：(-∞，第一关键点]、(第一关键点，第二关键点]、(第二关键点，第三关键点]、(第三关键点，第四关键点]、(第四关键点，第五关键点]、(第五关键点，第六关键点]、(第七关键点，∞]。其中，在当前时刻，每一个分段区间的数据量大致相同。

S403、针对每一个分段区间，分别采用一个线程读取该分段区间中的源数据。

S404、将每一个线程读取到的数据的哈希值存储到对应的缓存中。

示例地，参照图3，将第一分段区间中的源数据的哈希值存储到缓存1中，将第二分段区间中的源数据的哈希值存储到缓存2中，将第三分段区间中的源数据的哈希值存储到缓存3中，将第四分段区间中的源数据的哈希值存储到缓存4中，将第五分段区间中的源数据的哈希值存储到缓存5中，将第六分段区间中的源数据的哈希值存储到缓存6中，将第七分段区间中的源数据的哈希值存储到缓存7中，将第八分段区间中的源数据的哈希值存储到缓存8中。

进一步地，针对每一分段区间执行如下步骤：

S405、在第一分段区间的所有数据的哈希值均存入缓存1后，获取目标数据库中的第一分段区间的目标数据。

示例地，第一分段区间(-∞，第一关键点]中存储有1970年1月1日到1975年1月1日，则在目标数据库中，也读取该段区间中的目标数据进行对比。

S406、根据缓存1中的哈希值读取源数据库中第一分段区间的源数据。

S407、对比该目标数据以及该源数据，得到差异信息。

S408、确定源存储设备的第一分段区间中的源数据量超过阈值。

值得说明的是，该阈值可以预先设置，也可以在初始打点分段后，确定每一分段的数据量，并根据该数据量设定阈值。例如，该八个分段区间中，每个分段区间的数据量为10万。在此种情况下，本发明实施例可以设定单个分段区间的数据量最大阈值为20万。这样，随着数据的新增写入，例如，在源存储设备写入1960年出生的用户的身份信息，则当第一分段区间(-∞，第一关键点]中的数据量大于或等于20万时，可以对该第一分段区间补充关键点，以将该第一分段区间分为两个新的分段区间。实现每个线程的负载均衡，并且保证了本发明实施例只需执行一次打点分段，进一步节省了时间。

S409、对该第一分段区间补充分段点，以将该第一分段区间分成新的多个分段区间。

值得说明的是，在每个分段区间中的源数据的哈希值均存储到对应的缓存中后，均可以执行上述步骤S405至S409。也就是说，每个缓存进行的数据对比可以是并行的，相比现有技术需要在源数据库中的数据全部读出后，才能进行数据对比，本发明实施例提高了对比效率。并且，现有技术在进行哈希查询时，需要在整个源数据库中查找，采用本发明实施例提供的一致性对比方法，数据查询是在一个分段区间中进行，提高了查找效率。

另外，对于上述方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明所必须的。

本发明实施例还提供一种数据一致性对比装置50，用于实施上述方法实施例提供的一种数据一致性对比的方法，如图5A所示，该方法包括：

分段单元51，用于对源存储设备中的所有数据进行有序的打点分段，得到多个分段区间。

读取单元52，用于读取每个所述分段区间中的源数据。

写入单元53，用于将每条所述源数据的哈希值存储在缓存中，得到所述源存储设备的对比快照。

所述读取单元52还用于，读取目标存储设备中的目标数据。

其中，所述目标存储设备中存储有所述源存储设备中的数据的备份。

对比单元54，用于根据所述对比快照对比所述目标数据与所述源数据，得到所述目标数据与所述源数据之间的差异信息。

采用上述一致性对比装置50，该装置对源存储设备中的数据进行打点分段耗费的时间小于对源存储设备中的数据进行分页的时间，进而提高了数据一致性对比的效率。并且，不同于数据分页的无序，对数据进行打点分段是有序的，基于此，本发明还可以进一步达到其他优点。

可选地，所述分段单元51具体用于：对所述源存储设备中的源数据进行打点；将每相邻的两个点连成左开右闭的所述分段区间。

可选地，所述读取单元52具体用于，采用N个线程分别读取N个分段区间中的源数据；所述写入单元53具体用于，将每个所述分段区间中的每条源数据的哈希值存储在对应所述分段区间的缓存中，得到N个对比快照，其中，N个分段区间与N个缓存一一对应。也就是说，每一个分段区间对应一个独立的缓存，从而提高了并发写入能力。并且，由于一个分段区间中的源数据哈希值写入对应的缓存后，无需等到其他分段区间的数据读取完成，即可开始进行与目标存储设备中的数据的对比，节省了时间，从而提高了数据对比的效率。

可选地，所述读取单元52还用于：在第一分段区间中的所有源数据的哈希值均存入对应的第一缓存后，读取所述目标存储设备的第一分段区间中的目标数据，所述第一分段区间是所述N个分段区间中的任一分段区间；所述读取单元52还用于，根据所述第一缓存中的哈希值在所述第一分段区间中获取源数据；所述对比单元54具体用于，对比所述目标数据与所述源数据，得到所述目标数据与所述源数据之间的差异信息。也就是说，每个缓存进行的数据对比可以是并行的，相比现有技术需要在源数据库中的数据全部读出后，才能进行数据对比，本发明实施例提高了对比效率。并且，现有技术在进行哈希查询时，需要在整个源数据库中查找，采用本发明实施例提供的一致性对比方法，数据查询是在一个分段区间中进行，提高了查找效率。

可选地，如图5B所示，该装置50还包括：确定单元55，用于确定所述源存储设备的第一分段区间中的源数据量超过阈值；其中，所述分段单元51还用于，对所述第一分段区间补充分段点，以将所述第一分段区间分成新的多个分段区间。

值得说明的是，该阈值可以预先设置，也可以在初始打点分段后，确定每一分段的数据量，并根据该数据量设定阈值。例如，该八个分段区间中，每个分段区间的数据量为10万。在此种情况下，本发明实施例可以设定单个分段区间的数据量最大阈值为20万。这样，随着数据的新增写入，当第一分段区间中的数据量大于或等于20万时，可以对该第一分段区间分为两个新的分段区间。实现每个线程的负载均衡。

值得说明的是，以上对该装置50的单元划分，仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，上述分段单元51以及对比单元54可以划分为一个处理单元。并且，上述各功能单元的物理实现也可能有多种实现方式，例如，上述对比单元54具体可以是一中央处理器，也可以是ASIC(Application Specific Integrated Circuit，特定集成电路)。

另外，所属本领域的技术人员应该清楚地了解到，为描述的方便和简洁，上述描述的装置的各单元的具体工作过程，可以参考前述方法实施例中的对应过程，此处不再赘述。

在本申请所提供的实施例中，应该理解到，所公开的装置和方法，可以通过其它的方式实现。例如，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、RAM(Random Access Memory，随机存取存储器)、磁碟或者光盘等各种可以存储数据的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种数据一致性对比方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述读取每个所述分段区间中的源数据，并将每条所述源数据的哈希值存储在缓存中，包括：

3.根据权利要求2所述的方法，其特征在于，所述读取目标存储设备中的目标数据，包括：

在所述第一分段区间中的所有源数据的哈希值均存入对应的第一缓存后，读取所述目标存储设备的所述第一分段区间中的目标数据，所述第一分段区间是所述N个分段区间中的任一分段区间；

4.根据权利要求1至3任一项所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1至3任一项所述的方法，其特征在于，所述对源存储设备中的所有数据进行有序的打点分段，得到多个分段区间，包括：

对所述源存储设备中的源数据进行打点；

将每相邻的两个点连成左开右闭的所述分段区间。

6.一种数据一致性对比装置，其特征在于，包括：

读取单元，用于读取每个所述分段区间中的源数据；

7.根据权利要求6所述的装置，其特征在于，所述读取单元具体用于，采用N个线程分别读取N个分段区间中的源数据；

8.根据权利要求6所述的装置，其特征在于，所述读取单元还用于：

9.根据权利要求6至8任一项所述的装置，其特征在于，还包括：

10.根据权利要求6至8任一项所述的装置，其特征在于，所述分段单元具体用于：

对所述源存储设备中的源数据进行打点；

将每相邻的两个点连成左开右闭的所述分段区间。