CN101957858A

CN101957858A - 数据比对方法和装置

Info

Publication number: CN101957858A
Application number: CN2010105070303A
Authority: CN
Inventors: 高水波; 华国栋; 黎楚兵; 史美康
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2010-09-27
Filing date: 2010-09-27
Publication date: 2011-01-26
Also published as: WO2012041110A1

Abstract

本发明公开了一种数据比对方法和装置，其中，该方法包括：将源文件的第一哈希HASH信息与目标文件的第二HASH信息进行比较；根据比较结果生成上述源文件与上述目标文件的比对结果。本发明解决了现有技术中的数据比对方法导致内存占用率较高的问题，达到了减少执行时间和提高处理效率的效果。

Description

数据比对方法和装置

技术领域

本发明涉及通信领域，具体而言，涉及一种数据比对方法和装置。

背景技术

随着当前通讯业的不断发展，相关软件系统也越来越复杂，这些系统一般都包含许多的子系统和外围系统，为了保证这些系统数据的一致性，经常需要去比较各系统间的同类数据，使其保持一致，以保证整个系统的正常运行。

由于在通讯行业内，比较的这类数据量通常十分庞大，采用一般的文本比较工具来处理很容易出错，目前业内也有各式各样的比对方法：

1)采用第三方工具，诸如ue、merge等工具软件结合使用来比对；

2)在数据库中通过存储过程采用游标的方式来比对；

3)采用hash(Hash，一种常用的数据存储结构，又叫哈希表或散列表)表存储数据的方式来比对。

上述方法1)用来比较小数据量的文件数据时还可以胜任，但如果用来处理大量数据的时候，往往操作者会顾此失彼，产生很多错误，这样也致使比对的效率十分低下；方法2)所采用的方式是借助数据库的特性来处理完成比对工作，这不失为一个简便的处理方式，但是其缺点正是数据库本身带来的：对系统软、硬件环境的依赖性高，处理速度也很慢；方法3)是当前被普遍采用的一种比对方法，相对于前面的两种方式，其拥有处理效率较高的优势，但是发明人经过测试发现其在处理海量数据的时候，对计算机的软、硬件的要求很高，对内存的占用率特别大。

通过上述分析，根据现有技术中的数据比对方法，内存占用率较高，执行时间较长、效率较低。

发明内容

针对现有技术中的数据比对方法导致内存占用率较高的问题而提出本发明，为此，本发明的主要目的在于提供一种数据比对方法和装置，以解决上述问题至少之一。

为了实现上述目的，根据本发明的一个方面，提供了一种数据比对方法，其包括：将源文件的第一哈希HASH信息与目标文件的第二HASH信息进行比较；根据比较结果生成上述源文件与上述目标文件的比对结果。

进一步地，将源文件的第一哈希HASH信息与目标文件的第二HASH信息进行比较包括：在内存中建立与上述源文件对应的内存索引表，其中，上述内存索引表包括与上述第一哈希HASH信息中的所有HASH值对应的索引记录；在上述内存索引表中查找是否存在与上述第二HASH信息对应的索引记录，其中，上述索引记录中的HASH值等于上述第二HASH信息中的HASH值。

进一步地，在内存中建立与上述源文件对应的内存索引表时，还包括：在上述内存中建立冲突列表，其中，上述冲突列表为连续存储空间，用于保存在比对上述源文件与上述目标文件时产生的冲突元素。

进一步地，根据比较结果生成上述源文件与上述目标文件的比对结果包括：若在上述内存索引表中查找出存在与上述第二HASH信息对应的索引记录，则生成第一指示信息，其中，上述第一指示信息用于指示上述源文件与上述目标文件共同具有与查找出的上述索引记录中的HASH值对应的数据信息；若在上述内存索引表中查找出不存在与上述第二HASH信息对应的索引记录，则生成第二指示信息，其中，上述第二指示信息用于指示上述源文件中不具有与上述第二HASH信息中的HASH值对应的数据信息。

进一步地，根据比较结果生成上述源文件与上述目标文件的比对结果包括：若在上述内存索引表中查找出存在与上述第二HASH信息对应的索引记录，则将上述目标文件中与第二HASH信息对应的记录信息与上述源文件中与上述索引记录对应的记录信息进行比较；若两者相同，则生成第三指示信息，其中，上述第三指示信息用于指示上述源文件与上述目标文件共同具有与查找出的上述索引记录中的HASH值对应的数据信息；若在上述内存索引表中查找出不存在与上述第二HASH信息对应的索引记录，则生成第四指示信息，其中，上述第四指示信息用于指示上述源文件中不具有与上述第二HASH信息中的HASH值对应的数据信息。

进一步地，上述源文件与上述目标文件具有相同的文件格式。

为了实现上述目的，根据本发明的另一方面，提供了一种数据比对装置，其包括：比较单元，用于将源文件的第一哈希HASH信息与目标文件的第二HASH信息进行比较；生成单元，用于根据比较结果生成上述源文件与上述目标文件的比对结果。

进一步地，上述比较单元包括：第一建立模块，用于在内存中建立与上述源文件对应的内存索引表，其中，上述内存索引表包括与上述第一哈希HASH信息中的所有HASH值对应的索引记录；查找模块，用于在上述内存索引表中查找是否存在与上述第二HASH信息对应的索引记录，其中，上述索引记录中的HASH值等于上述第二HASH信息中的HASH值。

进一步地，上述比较单元还包括：第二建立模块，用于在内存中建立与上述源文件对应的内存索引表时，在上述内存中建立冲突列表，其中，上述冲突列表用于保存在比对上述源文件与上述目标文件时产生的冲突元素。

进一步地，上述生成单元还包括：第一生成模块，用于在上述内存索引表中查找出存在与上述第二HASH信息对应的索引记录时，生成第一指示信息，其中，上述第一指示信息用于指示上述源文件与上述目标文件共同具有与查找出的上述索引记录中的HASH值对应的数据信息；第二生成模块，用于在上述内存索引表中查找出不存在与上述第二HASH信息对应的索引记录时，生成第二指示信息，其中，上述第二指示信息用于指示上述源文件中不具有与上述第二HASH信息中的HASH值对应的数据信息。

进一步地，上述比较单元还包括：比较模块，用于在上述内存索引表中查找出存在与上述第二HASH信息对应的索引记录时，将上述目标文件中与第二HASH信息对应的记录信息与上述源文件中与上述索引记录对应的记录信息进行比较。上述生成单元还包括：第三生成模块，用于在两者相同，则生成第三指示信息，其中，上述第三指示信息用于指示上述源文件与上述目标文件共同具有与查找出的上述索引记录中的HASH值对应的数据信息。

本发明通过比对源文件与目标文件的HASH信息，而不是数据本身，解决了现有技术中的数据比对方法导致内存占用率较高的问题，进而达到了减少执行时间和提高处理效率的效果。此外，本发明通过比较HASH信息，使得比对过程不依赖于数据的特征，能够处理不同种类的格式化数据，其中，格式化数据时没有任何特征可以提取。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的数据比对方法的一种优选流程图；

图2是根据本发明实施例的数据比对方法的另一种优选流程图；

图3是根据本发明实施例的内存索引模型的示意图；

图4是根据本发明实施例的数据比对装置的一种优选示意图；

图5是根据本发明实施例的数据比对装置的另一种优选示意图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

实施例1

图1是根据本发明实施例的数据比对方法的一种优选流程图，其包括：

S102，将源文件的第一哈希HASH信息与目标文件的第二HASH信息进行比较；

S104，根据比较结果生成上述源文件与上述目标文件的比对结果。

本实施例通过比对源文件与目标文件的HASH信息，而不是数据本身，解决了现有技术中的数据比对方法导致内存占用率较高的问题，进而达到了减少执行时间和提高处理效率的效果。

优选的，将源文件的第一哈希HASH信息与目标文件的第二HASH信息进行比较包括：在内存中建立与所述源文件对应的内存索引表，其中，所述内存索引表包括与所述第一哈希HASH信息中的所有HASH值对应的索引记录；在所述内存索引表中查找是否存在与所述第二HASH信息对应的索引记录，其中，所述索引记录中的HASH值等于所述第二HASH信息中的HASH值。通过本优选实施例中建立的内存索引表，能够快速的定位源文件的HASH信息的位置，提高了处理效率。

优选的，在内存中建立与所述源文件对应的内存索引表时，还包括：在所述内存中建立冲突列表，其中，所述冲突列表为连续存储空间，用于保存在比对所述源文件与所述目标文件时产生的冲突元素。通过本优选实施例中建立的冲突列表，内存的使用可以达到最优化。

优选的，在上述几个优选实施例的基础上，根据比较结果生成所述源文件与所述目标文件的比对结果包括：若在所述内存索引表中查找出存在与所述第二HASH信息对应的索引记录，则生成第一指示信息，其中，所述第一指示信息用于指示所述源文件与所述目标文件共同具有与查找出的所述索引记录中的HASH值对应的数据信息；若在所述内存索引表中查找出不存在与所述第二HASH信息对应的索引记录，则生成第二指示信息，其中，所述第二指示信息用于指示所述源文件中不具有与所述第二HASH信息中的HASH值对应的数据信息。通过本优选实施例的生成方式，可以便于用户查看比对结果。

优选的，根据比较结果生成所述源文件与所述目标文件的比对结果包括：1)若在所述内存索引表中查找出存在与所述第二HASH信息对应的索引记录，则将所述目标文件中与第二HASH信息对应的记录信息与所述源文件中与所述索引记录对应的记录信息进行比较；若两者相同，则生成第三指示信息，其中，所述第三指示信息用于指示所述源文件与所述目标文件共同具有与查找出的所述索引记录中的HASH值对应的数据信息；2)若在所述内存索引表中查找出不存在与所述第二HASH信息对应的索引记录，则生成第四指示信息，其中，所述第四指示信息用于指示所述源文件中不具有与所述第二HASH信息中的HASH值对应的数据信息。通过本优选实施例的生成方式，可以便于用户查看比对结果。

优选的，在上述几个优选实施例的基础上，所述内存索引表包括：多级HASH结构、冲突列表以及源文件的记录偏移信息(例如，源文件中的一条记录在源文件中的偏移位置)，如图3所示。通过本优选实施例的内存索引表，可以使得查找效率进一步提高。

优选的，所述源文件与所述目标文件具有相同的文件格式。通过本优选实施例的格式限定，可以进一步提高比对的效率。

实施例2

图2是根据本发明实施例的数据比对方法的另一种优选流程图，其包括：

步骤S201：获取用户提供的系统配置参数并进行相应解析。出现异常，则转到步骤S203，否则跳转到步骤S202。

步骤S202：读取源文件进入内存，保存源文件数据的HASH值信息和文件偏移信息。出现异常数据到步骤S203，否则跳转到步骤S204。

步骤S203：将异常数据写入到日志，然后跳转至步骤S201。

步骤S204：建立源文件信息的内存索引模型，主要包括三层HASH索引和对应的冲突列表。如果出现异常到步骤S205，否则到步骤S206。

步骤S205：将内存模型失败写入日志，跳转到步骤S214。

步骤S206：从目标文件提取目标数据，进行解析和处理。

步骤S207：计算目标文件数据的HASH信息，如果发生异常，跳转到步骤S208。否则，跳转至步骤S209。

步骤S208：将目标文件异常记录写入日志，然后跳转至步骤S206。

步骤S209：通过目标文件数据的HASH值去内存索引模型中循环搜索源文件信息。例如，通过HASH值查找源文件中是否存在对应的记录的偏移位置。

步骤S210：如果存在HASH值相同的记录，跳转到步骤S211，否则跳转到步骤S212。

步骤S211：将目标文件对应的记录信息和源文件的上述偏移位置上的记录信息进行比较。

步骤S212：将步骤S211的比较结果写入到结果文件中。

步骤S213：判断是否还有未完成比较的目标文件。如果还有，则跳转到步骤S206，否则到步骤S214。

步骤S214：结束文件比对。

在本实施例中，系统参数通过动态的获取，底层比对方法使用c代码来实现，通过采用存储数据的HASH值信息和文件偏移信息代替整个记录，然后建立内存索引模型，极大的优化的比对性能，系统在处理海量数据的时候性能表现优异。普通PC机上比对4000万条和4000万条处理的时间控制在20分钟以内。

图3是根据本优选实施例的内存索引模型的示意图。如图3所示，该内存索引模型用于描述存储比对数据的数据结构，以“CP_CODE|APP_CODE|USER”为例来进行说明，图3中的第一哈希表(FIRST_HASH_TABL)存储的是HASH函数fun1对字符串“CP_CODE|APP_CODE|USER”进行HASH后所得值再对FIRST_HASH_TABLE_SIZE进行取模后得到的值，第二哈希表(SECOND_HASH_TABLE)存储的是HASH函数fun2对字符串“CP_CODE|APP_CODE|USER”进行HASH后所得值再对SECOND_HASH_TABLE_SIZE进行取模后得到的值，冲突列表(COLLISION QUEUE)存储的是冲突元素，偏移位置信息(SRC_RECORD_ARRAY)存储的是“CP_CODE|APP_CODE|USER”这行记录所在文件的文件偏移信息，优选的，还包括上述HASH值信息。

实施例3

本实施例提供了源文件a.txt和目标文件b.txt，其中a.txt含有如下两条记录：

2013|950112345|13012345678

2013|950112345|13098765432

b.txt含有如下两条记录：

2013|950112345|13012345678

2014|950112345|13098765432

用户分别指定按照全部字段比较。

按照以上步骤S201～步骤S214，首先通过将a.txt加载到内存中，并建立好相应的内存模型。然后通过读取b.txt文件，计算HASH值，在内存模型中搜索，然后到a.txt文件中读取相应记录进行比较。生成结果文件。

a.txt独有的记录：2013|950112345|13098765432

b.txt独有的记录：2014|950112345|13098765432

a.txt和b.txt文件共有的记录：2013|950112345|13012345678

实施例4

图4是根据本发明实施例的数据比对装置的一种优选示意图，其包括：比较单元402，用于将源文件的第一哈希HASH信息与目标文件的第二HASH信息进行比较；生成单元404，用于根据比较结果生成所述源文件与所述目标文件的比对结果。

优选的，所述比较单元402包括：第一建立模块4021，用于在内存中建立与所述源文件对应的内存索引表，其中，所述内存索引表包括与所述第一哈希HASH信息中的所有HASH值对应的索引记录；查找模块4022，用于在所述内存索引表中查找是否存在与所述第二HASH信息对应的索引记录，其中，所述索引记录中的HASH值等于所述第二HASH信息中的HASH值。通过本优选实施例中建立的内存索引表，能够利用源文件中的HASH信息快速地定位源文件的记录信息的位置，提高了处理效率。

优选的，所述比较单元402还包括：第二建立模块4023，用于在内存中建立与所述源文件对应的内存索引表时，在所述内存中建立冲突列表，其中，所述冲突列表用于保存在比对所述源文件与所述目标文件时产生的冲突元素。通过本优选实施例中建立的冲突列表，内存的使用可以达到最优化。

优选的，所述生成单元404还包括：第一生成模块4041，用于在所述内存索引表中查找出存在与所述第二HASH信息对应的索引记录时，生成第一指示信息，其中，所述第一指示信息用于指示所述源文件与所述目标文件共同具有与查找出的所述索引记录中的HASH值对应的数据信息；第二生成模块4042，用于在所述内存索引表中查找出不存在与所述第二HASH信息对应的索引记录时，生成第二指示信息，其中，所述第二指示信息用于指示所述源文件中不具有与所述第二HASH信息中的HASH值对应的数据信息。通过本优选实施例的生成方式，可以便于用户查看比对结果。

优选的，在上述几个优选实施例的基础上，所述比较单元402还可以包括：比较模块4024，用于在所述内存索引表中查找出存在与所述第二HASH信息对应的索引记录时，将所述目标文件中与第二HASH信息对应的记录信息与所述源文件中与所述索引记录对应的记录信息进行比较。在本优选实施例中，所述生成单元404还包括：第三生成模块4043，用于在两者相同，则生成第三指示信息，其中，所述第三指示信息用于指示所述源文件与所述目标文件共同具有与查找出的所述索引记录中的HASH值对应的数据信息。通过本优选实施例的生成方式，可以便于用户查看比对结果。

实施例5

图5是根据本发明实施例的数据比对装置的另一种优选示意图，其包括：系统参数解析模块502，源文件加载与解析模块504、内存索引创建模块506、数据查找与比对模块508以及结果文件生成模块510。

本发明实施例的数据比对装置通过以下主要步骤实现源文件与目标文件的比对：

步骤A、系统参数解析模块502获取用户提供的动态系统参数，初始化系统环境变量；

步骤B、源文件加载与解析模块504加载比对数据，将数据所在文件的偏移信息和HASH信息读入内存；

步骤C、内存索引创建模块506建立内存数据的内存索引模型；

步骤D、数据查找与比对模块508启动比对程序，对数据文件进行比对；

步骤E、结果文件生成模块510生成比对结果，以便用户查看日志和数据结果，验证比对结果。

本实施例通过与用户的交互动态获取配置信息；通过对数据的偏移信息和HASH信息的存储代替整个数据的完整加入到内存，并且建立大块线性的冲突列表来保存冲突元素，使内存使用达到最优化，通过建立内存索引模型，能够快速的定位数据的源文件位置，以提升处理的性能。

此外，上述实施例还具有很大的推广性，适合于任何格式化文本数据的海量数据的比对工作，不要求数据有任何的特征。文中所述的格式化文本数据指的是文本文件中的每行数据都遵从以下形式：

“字段1分隔符字段2分隔符......字段n-1分隔符字段n换行符”

此外，本发明可以处理没有任何特征的格式化文本数据，能极大的提升性能以及数据比对准确率；而且能通过动态获取系统运行参数的方式实现复杂的数据逻辑，这使得在当前各行业在排查诸如话单、报表、订购关系、用户信息等一些标准文件数据时的应用价值很大。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种数据比对方法，其特征在于，包括：

将源文件的第一哈希HASH信息与目标文件的第二HASH信息进行比较；

根据比较结果生成所述源文件与所述目标文件的比对结果。

2.根据权利要求1所述的方法，其特征在于，将源文件的第一哈希HASH信息与目标文件的第二HASH信息进行比较包括：

在内存中建立与所述源文件对应的内存索引表，其中，所述内存索引表包括与所述第一哈希HASH信息中的所有HASH值对应的索引记录；

在所述内存索引表中查找是否存在与所述第二HASH信息对应的索引记录，其中，所述索引记录中的HASH值等于所述第二HASH信息中的HASH值。

3.根据权利要求2所述的方法，其特征在于，在内存中建立与所述源文件对应的内存索引表时，还包括：

在所述内存中建立冲突列表，其中，所述冲突列表为连续存储空间，用于保存在比对所述源文件与所述目标文件时产生的冲突元素。

4.根据权利要求2所述的方法，其特征在于，根据比较结果生成所述源文件与所述目标文件的比对结果包括：

若在所述内存索引表中查找出存在与所述第二HASH信息对应的索引记录，则生成第一指示信息，其中，所述第一指示信息用于指示所述源文件与所述目标文件共同具有与查找出的所述索引记录中的HASH值对应的数据信息；

若在所述内存索引表中查找出不存在与所述第二HASH信息对应的索引记录，则生成第二指示信息，其中，所述第二指示信息用于指示所述源文件中不具有与所述第二HASH信息中的HASH值对应的数据信息。

5.根据权利要求2所述的方法，其特征在于，根据比较结果生成所述源文件与所述目标文件的比对结果包括：

若在所述内存索引表中查找出存在与所述第二HASH信息对应的索引记录，则将所述目标文件中与第二HASH信息对应的记录信息与所述源文件中与所述索引记录对应的记录信息进行比较；若两者相同，则生成第三指示信息，其中，所述第三指示信息用于指示所述源文件与所述目标文件共同具有与查找出的所述索引记录中的HASH值对应的数据信息；

若在所述内存索引表中查找出不存在与所述第二HASH信息对应的索引记录，则生成第四指示信息，其中，所述第四指示信息用于指示所述源文件中不具有与所述第二HASH信息中的HASH值对应的数据信息。

6.根据权利要求1所述的方法，其特征在于，所述源文件与所述目标文件具有相同的文件格式。

7.一种数据比对装置，其特征在于，包括：

比较单元，用于将源文件的第一哈希HASH信息与目标文件的第二HASH信息进行比较；

生成单元，用于根据比较结果生成所述源文件与所述目标文件的比对结果。

8.根据权利要求7所述的装置，其特征在于，所述比较单元包括：

第一建立模块，用于在内存中建立与所述源文件对应的内存索引表，其中，所述内存索引表包括与所述第一哈希HASH信息中的所有HASH值对应的索引记录；

查找模块，用于在所述内存索引表中查找是否存在与所述第二HASH信息对应的索引记录，其中，所述索引记录中的HASH值等于所述第二HASH信息中的HASH值。

9.根据权利要求8所述的装置，其特征在于，所述比较单元还包括：

第二建立模块，用于在内存中建立与所述源文件对应的内存索引表时，在所述内存中建立冲突列表，其中，所述冲突列表用于保存在比对所述源文件与所述目标文件时产生的冲突元素。

10.根据权利要求8所述的装置，其特征在于，所述生成单元还包括：

第一生成模块，用于在所述内存索引表中查找出存在与所述第二HASH信息对应的索引记录时，生成第一指示信息，其中，所述第一指示信息用于指示所述源文件与所述目标文件共同具有与查找出的所述索引记录中的HASH值对应的数据信息；

第二生成模块，用于在所述内存索引表中查找出不存在与所述第二HASH信息对应的索引记录时，生成第二指示信息，其中，所述第二指示信息用于指示所述源文件中不具有与所述第二HASH信息中的HASH值对应的数据信息。

11.根据权利要求8所述的装置，其特征在于，

所述比较单元还包括：

比较模块，用于在所述内存索引表中查找出存在与所述第二HASH信息对应的索引记录时，将所述目标文件中与第二HASH信息对应的记录信息与所述源文件中与所述索引记录对应的记录信息进行比较；

所述生成单元还包括：

第三生成模块，用于在两者相同，则生成第三指示信息，其中，所述第三指示信息用于指示所述源文件与所述目标文件共同具有与查找出的所述索引记录中的HASH值对应的数据信息。