WO2012041110A1

WO2012041110A1 - 数据比对方法和装置

Info

Publication number: WO2012041110A1
Application number: PCT/CN2011/076964
Authority: WO
Inventors: 高水波; 华国栋; 黎楚兵; 史美康
Original assignee: 中兴通讯股份有限公司
Priority date: 2010-09-27
Filing date: 2011-07-07
Publication date: 2012-04-05
Also published as: CN101957858A

Abstract

本发明公开了一种数据比对方法和装置，其中，该方法包括：将源文件的第一哈希HASH信息与目标文件的第二HASH信息进行比较；根据比较结果生成上述源文件与上述目标文件的比对结果。本发明解决了现有技术中的数据比对方法导致内存占用率较高的问题，达到了减少执行时间和提高处理效率的效果。

Description

数据比对方法和装置技术领域本发明涉及通信领域，具体而言，涉及一种数据比对方法和装置。背景技术随着当前通讯业的不断发展，相关软件系统也越来越复杂，这些系统一般都包含许多的子系统和外围系统，为了保证这些系统数据的一致性，经常需要去比较各系统间的同类数据，使其保持一致，以保证整个系统的正常运行。由于在通讯行业内，比较的这类数据量通常十分庞大，釆用一般的文本比较工具来处理很容易出错，目前业内也有各式各样的比对方法： 1 ) 釆用第三方工具，诸如 ue、 merge等工具软件结合使用来比对；

2 ) 在数据库中通过存储过程釆用游标的方式来比对；

3 ) 釆用 hash ( Hash, —种常用的数据存储结构，又叫哈希表或散列表）表存储数据的方式来比对。上述方法 1 ) 用来比较小数据量的文件数据时还可以胜任，但如果用来处理大量数据的时候，往往操作者会顾此失彼，产生很多错误，这样也致使比对的效率十分氏下；方法 2 ) 所釆用的方式是借助数据库的特性来处理完成比对工作，这不失为一个简便的处理方式，但是其缺点正是数据库本身带来的：对系统软、硬件环境的依赖性高，处理速度也很慢；方法 3 ) 是当前被普遍釆用的一种比对方法，相对于前面的两种方式，其拥有处理效率较高的优势，但是发明人经过测试发现其在处理海量数据的时候，对计算机的软、硬件的要求艮高，对内存的占用率特别大。通过上述分析，根据现有技术中的数据比对方法，内存占用率较高，执行时间较长、效率较低。发明内容针对现有技术中的数据比对方法导致内存占用率较高的问题而提出本发明，为此，本发明的主要目的在于提供一种数据比对方法和装置，以解决上述问题至少之一。为了实现上述目的，根据本发明的一个方面，提供了一种数据比对方法，其包括：将源文件的第一哈希 HASH信息与目标文件的第二 HASH信息进行比较；根据比较结果生成上述源文件与上述目标文件的比对结果。将源文件的第一哈希 HASH信息与目标文件的第二 HASH信息进行比较包括：在内存中建立与上述源文件对应的内存索引表，其中，上述内存索引表包括与上述第一哈希 HASH信息中的所有 HASH值对应的索引记录；在上述内存索引表中查找是否存在与上述第二 HASH信息对应的索引记录，其中，上述索引记录中的 HASH值等于上述第二 HASH信息中的 HASH值。在内存中建立与上述源文件对应的内存索引表时，数据比对方法还包括：在上述内存中建立冲突列表，其中，上述冲突列表为连续存储空间，设置为保存在比对上述源文件与上述目标文件时产生的冲突元素。根据比较结果生成上述源文件与上述目标文件的比对结果包括：若在上述内存索引表中查找出存在与上述第二 HASH信息对应的索引记录，则生成第一指示信息，其中，上述第一指示信息设置为指示上述源文件与上述目标文件共同具有与查找出的上述索引记录中的 HASH值对应的数据信息；若在上述内存索引表中查找出不存在与上述第二 HASH信息对应的索引记录，则生成第二指示信息，其中，上述第二指示信息设置为指示上述源文件中不具有与上述第二 HASH信息中的 HASH值对应的数据信息。根据比较结果生成上述源文件与上述目标文件的比对结果包括：若在上述内存索引表中查找出存在与上述第二 HASH信息对应的索引记录，则将上述目标文件中与第二 HASH 信息对应的记录信息与上述源文件中与上述索引记录对应的记录信息进行比较；若两者相同，则生成第三指示信息，其中，上述第三指示信息设置为指示上述源文件与上述目标文件共同具有与查找出的上述索引记录中的 HASH值对应的数据信息；若在上述内存索引表中查找出不存在与上述第二 HASH信息对应的索引记录，则生成第四指示信息，其中，上述第四指示信息设置为指示上述源文件中不具有与上述第二 HASH信息中的 HASH 值对应的数据信息。上述源文件与上述目标文件具有相同的文件格式。为了实现上述目的，根据本发明的另一方面，提供了一种数据比对装置，其包括：比较单元，设置为将源文件的第一哈希 HASH信息与目标文件的第二 HASH信息进行比较；生成单元，设置为根据比较结果生成上述源文件与上述目标文件的比对结果。上述比较单元包括：第一建立模块，设置为在内存中建立与上述源文件对应的内存索引表，其中，上述内存索引表包括与上述第一哈希 HASH信息中的所有 HASH值对应的索引记录；查找模块，设置为在上述内存索引表中查找是否存在与上述第二 HASH信息对应的索引记录，其中，上述索引记录中的 HASH 值等于上述第二 HASH信息中的 HASH值。上述比较单元还包括：第二建立模块，设置为在内存中建立与上述源文件对应的内存索引表时，在上述内存中建立冲突列表，其中，上述冲突列表设置为保存在比对上述源文件与上述目标文件时产生的冲突元素。上述生成单元还包括：第一生成模块，设置为在上述内存索引表中查找出存在与上述第二 HASH信息对应的索引记录时，生成第一指示信息，其中，上述第一指示信息设置为指示上述源文件与上述目标文件共同具有与查找出的上述索引记录中的 HASH值对应的数据信息；第二生成模块，设置为在上述内存索引表中查找出不存在与上述第二 HASH信息对应的索引记录时，生成第二指示信息，其中，上述第二指示信息设置为指示上述源文件中不具有与上述第二 HASH信息中的 HASH值对应的数据信息。上述比较单元还包括：比较模块，设置为在上述内存索引表中查找出存在与上述第二 HASH信息对应的索引记录时，将上述目标文件中与第二 HASH 信息对应的记录信息与上述源文件中与上述索引记录对应的记录信息进行比较。上述生成单元还包括：第三生成模块，设置为在两者相同，则生成第三指示信息，其中，上述第三指示信息设置为指示上述源文件与上述目标文件共同具有与查找出的上述索引记录中的 HASH值对应的数据信息。本发明通过比对源文件与目标文件的 HASH信息，而不是数据本身，解决了现有技术中的数据比对方法导致内存占用率较高的问题，进而达到了减少执行时间和提高处理效率的效果。此外，本发明通过比较 HASH信息，使得比对过程不依赖于数据的特征，能够处理不同种类的格式化数据，其中，格式化数据时没有任何特征可以提取。本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。附图说明此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：图 1是根据本发明实施例的数据比对方法的一种优选流程图；图 2是根据本发明实施例的数据比对方法的另一种优选流程图；图 3是根据本发明实施例的内存索引模型的示意图；图 4是根据本发明实施例的数据比对装置的一种优选示意图；图 5是根据本发明实施例的数据比对装置的另一种优选示意图。具体实施方式下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。实施例 1 图 1是根据本发明实施例的数据比对方法的一种优选流程图，其包括：

S 102 , 将源文件的第一哈希 HASH信息与目标文件的第二 HASH信息进行比较；

S 104, 才艮据比较结果生成上述源文件与上述目标文件的比对结果。本实施例通过比对源文件与目标文件的 HASH信息，而不是数据本身，解决了现有技术中的数据比对方法导致内存占用率较高的问题，进而达到了减少执行时间和提高处理效率的效果。优选的，将源文件的第一哈希 HASH信息与目标文件的第二 HASH信息进行比较包括：在内存中建立与所述源文件对应的内存索引表，其中，所述内存索引表包括与所述第一哈希 HASH信息中的所有 HASH值对应的索引记录；在所述内存索引表中查找是否存在与所述第二 HASH信息对应的索引记录，其中，所述索引记录中的 HASH值等于所述第二 HASH信息中的 HASH值。通过本优选实施例中建立的内存索引表，能够快速的定位源文件的 HASH信息的位置，提高了处理效率。优选的，在内存中建立与所述源文件对应的内存索引表时，还包括：在所述内存中建立冲突列表，其中，所述冲突列表为连续存储空间，用于保存在比对所述源文件与所述目标文件时产生的冲突元素。通过本优选实施例中建立的冲突列表，内存的使用可以达到最优化。优选的，在上述几个优选实施例的基础上，根据比较结果生成所述源文件与所述目标文件的比对结果包括：若在所述内存索引表中查找出存在与所述第二 HASH信息对应的索引记录，则生成第一指示信息，其中，所述第一指示信息用于指示所述源文件与所述目标文件共同具有与查找出的所述索引记录中的 HASH值对应的数据信息；若在所述内存索引表中查找出不存在与所述第二 HASH信息对应的索引记录，则生成第二指示信息，其中，所述第二指示信息用于指示所述源文件中不具有与所述第二 HASH信息中的 HASH值对应的数据信息。通过本优选实施例的生成方式，可以便于用户查看比对结果。优选的，居比较结果生成所述源文件与所述目标文件的比对结果包括：

1 )若在所述内存索引表中查找出存在与所述第二 HASH信息对应的索引记录，则将所述目标文件中与第二 HASH 信息对应的记录信息与所述源文件中与所述索引记录对应的记录信息进行比较；若两者相同，则生成第三指示信息，其中，所述第三指示信息用于指示所述源文件与所述目标文件共同具有与查找出的所述索引记录中的 HASH值对应的数据信息； 2 ) 若在所述内存索引表中查找出不存在与所述第二 HASH信息对应的索引记录，则生成第四指示信息，其中，所述第四指示信息用于指示所述源文件中不具有与所述第二 HASH信息中的 HASH值对应的数据信息。通过本优选实施例的生成方式，可以便于用户查看比对结果。优选的，在上述几个优选实施例的基础上，所述内存索引表包括：多级

HASH结构、冲突列表以及源文件的记录偏移信息（例如，源文件中的一条记录在源文件中的偏移位置），如图 3 所示。通过本优选实施例的内存索引表，可以使得查找效率进一步提高。优选的，所述源文件与所述目标文件具有相同的文件格式。通过本优选实施例的格式限定，可以进一步提高比对的效率。实施例 2 图 2是根据本发明实施例的数据比对方法的另一种优选流程图，其包括：步骤 S201 : 获取用户提供的系统配置参数并进行相应解析。出现异常，则转到步骤 S205 , 否则跳转到步骤 S202。步骤 S202: 读取源文件进入内存，保存源文件数据的 HASH值信息和文件偏移信息。出现异常数据到步骤 S203 , 否则跳转到步骤 S204。步骤 S203 : 将异常数据写入到日志，然后跳转至步骤 S201。步骤 S204: 建立源文件信息的内存索引模型，主要包括三层 HASH索引和对应的冲突列表。如果出现异常到步骤 S205 , 否则到步骤 S206。步骤 S205：将内存模型失败写入日志，跳转到步骤 S214。步骤 S206: 从目标文件提取目标数据，进行解析和处理。步骤 S207: 计算目标文件数据的 HASH信息，如果发生异常，跳转到步骤 S208。否则，兆转至步 4聚 S209。步骤 S208: 将目标文件异常记录写入日志，然后跳转至步骤 S206。步骤 S209: 通过目标文件数据的 HASH值去内存索引模型中循环搜索源文件信息。例如，通过 HASH值查找源文件中是否存在对应的记录的偏移位置。步骤 S210: 如果存在 HASH值相同的记录，跳转到步骤 S211 , 否则跳转到步 4聚 S212。步骤 S211 :将目标文件对应的记录信息和源文件的上述偏移位置上的记录信息进行比较。步 4聚 S212: 将步 4聚 S211的比较结果写入到结果文件中。步骤 S213: 判断是否还有未完成比较的目标文件。如果还有，则跳转到步 Ml S206 , 否则到步 4聚 S214。步骤 S214: 结束文件比对。在本实施例中，系统参数通过动态的获取，底层比对方法使用 c代码来实现，通过釆用存储数据的 HASH值信息和文件偏移信息代替整个记录，然后建立内存索引模型，极大的优化的比对性能，系统在处理海量数据的时候性能表现优异。普通 PC机上比对 4000万条和 4000万条处理的时间控制在 20分钟以内。图 3是根据本优选实施例的内存索引模型的示意图。如图 3所示，该内存索引模型用于描述存储比对数据的数据结构，以 "CP_CODE |APP_CODE|USER" 为例来进行说明，图 3 中的第一哈希表 ( FIRST HASH TABL ) 存储的是 HASH 函数 funl 对字符串" CP CODE |APP CODE|USER"进行 HASH后所得值再对 FIRST HASH TABLE SIZE (第一哈希表大小）进行取模后得到的值，第二哈希表 ( SECOND HASH TABLE ) 存储的是 HASH函数 fun2对字符串 "CP CODE | APP CODE|USER"进行 HASH 后所得值再对 SECOND HASH TABLE SIZE (第二哈希表大小）进行取模后得到的值，冲突列表（ COLLISION QUEUE )存储的是冲突元素，偏移位置信息 ( SRC RECORD ARRAY )存储的是" CP CODE |APP CODE|USER"这行记录所在文件的文件偏移信息，优选的，还包括上述 HASH值信息。实施例 3 本实施例提供了源文件 a.txt和目标文件 b.txt, 其中 a.txt含有如下两条记录：

2013|950112345| 13012345678 2013|950112345| 13098765432 b.txt 有^口下两 ΐ己录：

2013|950112345| 13012345678 2014|950112345| 13098765432 用户分别指定按照全部字段比较。按照以上步骤 S201〜步骤 S214, 首先通过将 a txt加载到内存中，并建立好相应的内存模型。然后通过读取 b.txt文件，计算 HASH值，在内存模型中搜索，然后到 a.txt文件中读取相应记录进行比较。生成结果文件。 a txt独有的记录： 2013|950112345| 13098765432 b.txt独有的记录： 2014|950112345| 13098765432 a txt和 b.txt文件共有的记录： 2013|950112345| 13012345678 实施例 4 图 4是根据本发明实施例的数据比对装置的一种优选示意图，其包括：比较单元 402 ,用于将源文件的第一哈希 HASH信息与目标文件的第二 HASH信息进行比较；生成单元 404 , 与比较单元 402连接，用于根据比较结果生成所述源文件与所述目标文件的比对结果。本实施例通过比对源文件与目标文件的 HASH信息，而不是数据本身，解决了现有技术中的数据比对方法导致内存占用率较高的问题，进而达到了减少执行时间和提高处理效率的效果。优选的，所述比较单元 402包括：第一建立模块 4021 , 用于在内存中建立与所述源文件对应的内存索引表，其中，所述内存索引表包括与所述第一哈希 HASH信息中的所有 HASH值对应的索引记录；查找模块 4022 , 用于在所述内存索引表中查找是否存在与所述第二 HASH信息对应的索引记录，其中，所述索引记录中的 HASH值等于所述第二 HASH信息中的 HASH值。通过本优选实施例中建立的内存索引表，能够利用源文件中的 HASH信息快速地定位源文件的记录信息的位置，提高了处理效率。优选的，所述比较单元 402还包括：第二建立模块 4023 , 用于在内存中建立与所述源文件对应的内存索引表时，在所述内存中建立冲突列表，其中，所过本优选实施例中建立的冲突列表，内存的使用可以达到最优化。优选的，所述生成单元 404还包括：第一生成模块 4041 , 用于在所述内存索引表中查找出存在与所述第二 HASH信息对应的索引记录时，生成第一指示信息，其中，所述第一指示信息用于指示所述源文件与所述目标文件共同具有与查找出的所述索引记录中的 HASH值对应的数据信息；第二生成模块 4042 , 用于在所述内存索引表中查找出不存在与所述第二 HASH 信息对应的索引记录时，生成第二指示信息，其中，所述第二指示信息用于指示所述源文件中不具有与所述第二 HASH信息中的 HASH值对应的数据信息。通过本优选实施例的生成方式，可以便于用户查看比对结果。优选的，在上述几个优选实施例的基础上，所述比较单元 402还可以包括：比较模块 4024 , 用于在所述内存索引表中查找出存在与所述第二 HASH信息对应的索引记录时，将所述目标文件中与第二 HASH信息对应的记录信息与所述源文件中与所述索引记录对应的记录信息进行比较。在本优选实施例中，所述生成单元 404还包括：第三生成模块 4043 , 用于在两者相同，则生成第三指示信息，其中，所述第三指示信息用于指示所述源文件与所述目标文件共同具有与查找出的所述索引记录中的 HASH值对应的数据信息。通过本优选实施例的生成方式，可以便于用户查看比对结果。优选的，在上述几个优选实施例的基础上，所述内存索引表包括：多级 HASH结构、冲突列表以及源文件的记录偏移信息（例如，源文件中的一条记录在源文件中的偏移位置），如图 3 所示。通过本优选实施例的内存索引表，可以使得查找效率进一步提高。优选的，所述源文件与所述目标文件具有相同的文件格式。通过本优选实施例的格式限定，可以进一步提高比对的效率。实施例 5 图 5是根据本发明实施例的数据比对装置的另一种优选示意图，其包括：依次连接的系统参数解析模块 502 , 源文件加载与解析模块 504、内存索引创建模块 506、数据查找与比对模块 508以及结果文件生成模块 510。本发明实施例的数据比对装置通过以下主要步骤实现源文件与目标文件的比对：步骤 A、系统参数解析模块 502获取用户提供的动态系统参数，初始化系统环境变量；步骤 B、源文件加载与解析模块 504加载比对数据，将数据所在文件的偏移信息和 HASH信息读入内存；步骤 C、内存索引创建模块 506建立内存数据的内存索引模型；步骤 D、数据查找与比对模块 508启动比对程序，对数据文件进行比对；步骤 E、结果文件生成模块 510生成比对结果，以便用户查看日志和数据结果， -险证比对结果。本实施例通过与用户的交互动态获取配置信息；通过对数据的偏移信息和 HASH信息的存储代替整个数据的完整加入到内存，并且建立大块线性的冲突列表来保存冲突元素，使内存使用达到最优化，通过建立内存索引模型，能够快速的定位数据的源文件位置，以提升处理的性能。此外，上述实施例还具有很大的推广性，适合于任何格式化文本数据的海量数据的比对工作，不要求数据有任何的特征。文中所述的格式化文本数据指的是文本文件中的每行数据都遵从以下形式：

"字段 1 分隔符字段 2 分隔符 ... ...字段 n-1 分隔符字段 n 换行符" 此外，本发明可以处理没有任何特征的格式化文本数据，能极大的提升性能以及数据比对准确率；而且能通过动态获取系统运行参数的方式实现复杂的数据逻辑，这使得在当前各行业在排查诸如话单、报表、订购关系、用户信息等一些标准文件数据时的应用价值 4艮大。需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步 4聚。显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的 ^"神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

权利要求书

1. 一种数据比对方法，包括：

将源文件的第一哈希 HASH信息与目标文件的第二 HASH信息进行比较；

根据比较结果生成所述源文件与所述目标文件的比对结果。

2. 根据权利要求 1所述的方法，其中，将源文件的第一哈希 HASH信息与目标文件的第二 HASH信息进行比较包括：在内存中建立与所述源文件对应的内存索引表，其中，所述内存索引表包括与所述第一哈希 HASH信息中的所有 HASH值对应的索引记录；

在所述内存索引表中查找是否存在与所述第二 HASH信息对应的索引记录，其中，所述索引记录中的 HASH值等于所述第二 HASH信息中的 HASH值。

3. 根据权利要求 2所述的方法，其中，在内存中建立与所述源文件对应的内存索引表时，还包括：

在所述内存中建立冲突列表，其中，所述冲突列表为连续存储空间，

4. 根据权利要求 2所述的方法，其中，根据比较结果生成所述源文件与所述目标文件的比对结果包括：

若在所述内存索引表中查找出存在与所述第二 HASH信息对应的索引记录，则生成第一指示信息，其中，所述第一指示信息用于指示所述源文件与所述目标文件共同具有与查找出的所述索引记录中的 HASH值对应的数据信息；

若在所述内存索引表中查找出不存在与所述第二 HASH信息对应的索引记录，则生成第二指示信息，其中，所述第二指示信息用于指示所述源文件中不具有与所述第二 HASH信息中的 HASH值对应的数据信息。

5. 根据权利要求 2所述的方法，其中，根据比较结果生成所述源文件与所述目标文件的比对结果包括：

若在所述内存索引表中查找出存在与所述第二 HASH信息对应的索引记录，则将所述目标文件中与第二 HASH信息对应的记录信息与所述源文件中与所述索引记录对应的记录信息进行比较；若两者相同，则生成第三指示信息，其中，所述第三指示信息用于指示所述源文件与所述目标文件共同具有与查找出的所述索引记录中的 HASH值对应的数据信息；

若在所述内存索引表中查找出不存在与所述第二 HASH信息对应的索引记录，则生成第四指示信息，其中，所述第四指示信息用于指示所述源文件中不具有与所述第二 HASH信息中的 HASH值对应的数据信息。

6. 居权利要求 1所述的方法，其中，所述源文件与所述目标文件具有相同的文件格式。

7. —种数据比对装置，包括：

比较单元，设置为将源文件的第一哈希 HASH信息与目标文件的第二 HASH信息进行比较；

生成单元，设置为根据比较结果生成所述源文件与所述目标文件的比对结果。

8. 根据权利要求 7所述的装置，其中，所述比较单元包括：

第一建立模块，设置为在内存中建立与所述源文件对应的内存索引表，其中，所述内存索引表包括与所述第一哈希 HASH 信息中的所有 HASH值对应的索引记录；

查找模块，设置为在所述内存索引表中查找是否存在与所述第二 HASH信息对应的索引记录，其中，所述索引记录中的 HASH值等于所述第二 HASH信息中的 HASH值。

9. 根据权利要求 8所述的装置，其中，所述比较单元还包括：

第二建立模块，设置为在内存中建立与所述源文件对应的内存索引表时，在所述内存中建立冲突列表，其中，所述冲突列表设置为保存在比对所述源文件与所述目标文件时产生的冲突元素。

10. 根据权利要求 8所述的装置，其中，所述生成单元还包括：

第一生成模块，设置为在所述内存索引表中查找出存在与所述第二 HASH信息对应的索引记录时，生成第一指示信息，其中，所述第一指示信息设置为指示所述源文件与所述目标文件共同具有与查找出的所述索引记录中的 HASH值对应的数据信息；

第二生成模块，设置为在所述内存索引表中查找出不存在与所述第二 HASH信息对应的索引记录时，生成第二指示信息，其中，所述第二指示信息设置为指示所述源文件中不具有与所述第二 HASH 信息中的 HASH值对应的数据信息。

11. 根据权利要求 8所述的装置，其中，

所述比较单元还包括：

比较模块，设置为在所述内存索引表中查找出存在与所述第二 HASH信息对应的索引记录时，将所述目标文件中与第二 HASH信息对应的记录信息与所述源文件中与所述索引记录对应的记录信息进行比较；

所述生成单元还包括：

第三生成模块，设置为在两者相同，则生成第三指示信息，其中，所述第三指示信息设置为指示所述源文件与所述目标文件共同具有与查找出的所述索引记录中的 HASH值对应的数据信息。