CN101957858A - 数据比对方法和装置 - Google Patents

数据比对方法和装置 Download PDF

Info

Publication number
CN101957858A
CN101957858A CN2010105070303A CN201010507030A CN101957858A CN 101957858 A CN101957858 A CN 101957858A CN 2010105070303 A CN2010105070303 A CN 2010105070303A CN 201010507030 A CN201010507030 A CN 201010507030A CN 101957858 A CN101957858 A CN 101957858A
Authority
CN
China
Prior art keywords
hash
information
internal memory
source file
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2010105070303A
Other languages
English (en)
Inventor
高水波
华国栋
黎楚兵
史美康
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN2010105070303A priority Critical patent/CN101957858A/zh
Publication of CN101957858A publication Critical patent/CN101957858A/zh
Priority to PCT/CN2011/076964 priority patent/WO2012041110A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures

Abstract

本发明公开了一种数据比对方法和装置,其中,该方法包括:将源文件的第一哈希HASH信息与目标文件的第二HASH信息进行比较;根据比较结果生成上述源文件与上述目标文件的比对结果。本发明解决了现有技术中的数据比对方法导致内存占用率较高的问题,达到了减少执行时间和提高处理效率的效果。

Description

数据比对方法和装置
技术领域
本发明涉及通信领域,具体而言,涉及一种数据比对方法和装置。
背景技术
随着当前通讯业的不断发展,相关软件系统也越来越复杂,这些系统一般都包含许多的子系统和外围系统,为了保证这些系统数据的一致性,经常需要去比较各系统间的同类数据,使其保持一致,以保证整个系统的正常运行。
由于在通讯行业内,比较的这类数据量通常十分庞大,采用一般的文本比较工具来处理很容易出错,目前业内也有各式各样的比对方法:
1)采用第三方工具,诸如ue、merge等工具软件结合使用来比对;
2)在数据库中通过存储过程采用游标的方式来比对;
3)采用hash(Hash,一种常用的数据存储结构,又叫哈希表或散列表)表存储数据的方式来比对。
上述方法1)用来比较小数据量的文件数据时还可以胜任,但如果用来处理大量数据的时候,往往操作者会顾此失彼,产生很多错误,这样也致使比对的效率十分低下;方法2)所采用的方式是借助数据库的特性来处理完成比对工作,这不失为一个简便的处理方式,但是其缺点正是数据库本身带来的:对系统软、硬件环境的依赖性高,处理速度也很慢;方法3)是当前被普遍采用的一种比对方法,相对于前面的两种方式,其拥有处理效率较高的优势,但是发明人经过测试发现其在处理海量数据的时候,对计算机的软、硬件的要求很高,对内存的占用率特别大。
通过上述分析,根据现有技术中的数据比对方法,内存占用率较高,执行时间较长、效率较低。
发明内容
针对现有技术中的数据比对方法导致内存占用率较高的问题而提出本发明,为此,本发明的主要目的在于提供一种数据比对方法和装置,以解决上述问题至少之一。
为了实现上述目的,根据本发明的一个方面,提供了一种数据比对方法,其包括:将源文件的第一哈希HASH信息与目标文件的第二HASH信息进行比较;根据比较结果生成上述源文件与上述目标文件的比对结果。
进一步地,将源文件的第一哈希HASH信息与目标文件的第二HASH信息进行比较包括:在内存中建立与上述源文件对应的内存索引表,其中,上述内存索引表包括与上述第一哈希HASH信息中的所有HASH值对应的索引记录;在上述内存索引表中查找是否存在与上述第二HASH信息对应的索引记录,其中,上述索引记录中的HASH值等于上述第二HASH信息中的HASH值。
进一步地,在内存中建立与上述源文件对应的内存索引表时,还包括:在上述内存中建立冲突列表,其中,上述冲突列表为连续存储空间,用于保存在比对上述源文件与上述目标文件时产生的冲突元素。
进一步地,根据比较结果生成上述源文件与上述目标文件的比对结果包括:若在上述内存索引表中查找出存在与上述第二HASH信息对应的索引记录,则生成第一指示信息,其中,上述第一指示信息用于指示上述源文件与上述目标文件共同具有与查找出的上述索引记录中的HASH值对应的数据信息;若在上述内存索引表中查找出不存在与上述第二HASH信息对应的索引记录,则生成第二指示信息,其中,上述第二指示信息用于指示上述源文件中不具有与上述第二HASH信息中的HASH值对应的数据信息。
进一步地,根据比较结果生成上述源文件与上述目标文件的比对结果包括:若在上述内存索引表中查找出存在与上述第二HASH信息对应的索引记录,则将上述目标文件中与第二HASH信息对应的记录信息与上述源文件中与上述索引记录对应的记录信息进行比较;若两者相同,则生成第三指示信息,其中,上述第三指示信息用于指示上述源文件与上述目标文件共同具有与查找出的上述索引记录中的HASH值对应的数据信息;若在上述内存索引表中查找出不存在与上述第二HASH信息对应的索引记录,则生成第四指示信息,其中,上述第四指示信息用于指示上述源文件中不具有与上述第二HASH信息中的HASH值对应的数据信息。
进一步地,上述源文件与上述目标文件具有相同的文件格式。
为了实现上述目的,根据本发明的另一方面,提供了一种数据比对装置,其包括:比较单元,用于将源文件的第一哈希HASH信息与目标文件的第二HASH信息进行比较;生成单元,用于根据比较结果生成上述源文件与上述目标文件的比对结果。
进一步地,上述比较单元包括:第一建立模块,用于在内存中建立与上述源文件对应的内存索引表,其中,上述内存索引表包括与上述第一哈希HASH信息中的所有HASH值对应的索引记录;查找模块,用于在上述内存索引表中查找是否存在与上述第二HASH信息对应的索引记录,其中,上述索引记录中的HASH值等于上述第二HASH信息中的HASH值。
进一步地,上述比较单元还包括:第二建立模块,用于在内存中建立与上述源文件对应的内存索引表时,在上述内存中建立冲突列表,其中,上述冲突列表用于保存在比对上述源文件与上述目标文件时产生的冲突元素。
进一步地,上述生成单元还包括:第一生成模块,用于在上述内存索引表中查找出存在与上述第二HASH信息对应的索引记录时,生成第一指示信息,其中,上述第一指示信息用于指示上述源文件与上述目标文件共同具有与查找出的上述索引记录中的HASH值对应的数据信息;第二生成模块,用于在上述内存索引表中查找出不存在与上述第二HASH信息对应的索引记录时,生成第二指示信息,其中,上述第二指示信息用于指示上述源文件中不具有与上述第二HASH信息中的HASH值对应的数据信息。
进一步地,上述比较单元还包括:比较模块,用于在上述内存索引表中查找出存在与上述第二HASH信息对应的索引记录时,将上述目标文件中与第二HASH信息对应的记录信息与上述源文件中与上述索引记录对应的记录信息进行比较。上述生成单元还包括:第三生成模块,用于在两者相同,则生成第三指示信息,其中,上述第三指示信息用于指示上述源文件与上述目标文件共同具有与查找出的上述索引记录中的HASH值对应的数据信息。
本发明通过比对源文件与目标文件的HASH信息,而不是数据本身,解决了现有技术中的数据比对方法导致内存占用率较高的问题,进而达到了减少执行时间和提高处理效率的效果。此外,本发明通过比较HASH信息,使得比对过程不依赖于数据的特征,能够处理不同种类的格式化数据,其中,格式化数据时没有任何特征可以提取。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的数据比对方法的一种优选流程图;
图2是根据本发明实施例的数据比对方法的另一种优选流程图;
图3是根据本发明实施例的内存索引模型的示意图;
图4是根据本发明实施例的数据比对装置的一种优选示意图;
图5是根据本发明实施例的数据比对装置的另一种优选示意图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
实施例1
图1是根据本发明实施例的数据比对方法的一种优选流程图,其包括:
S102,将源文件的第一哈希HASH信息与目标文件的第二HASH信息进行比较;
S104,根据比较结果生成上述源文件与上述目标文件的比对结果。
本实施例通过比对源文件与目标文件的HASH信息,而不是数据本身,解决了现有技术中的数据比对方法导致内存占用率较高的问题,进而达到了减少执行时间和提高处理效率的效果。
优选的,将源文件的第一哈希HASH信息与目标文件的第二HASH信息进行比较包括:在内存中建立与所述源文件对应的内存索引表,其中,所述内存索引表包括与所述第一哈希HASH信息中的所有HASH值对应的索引记录;在所述内存索引表中查找是否存在与所述第二HASH信息对应的索引记录,其中,所述索引记录中的HASH值等于所述第二HASH信息中的HASH值。通过本优选实施例中建立的内存索引表,能够快速的定位源文件的HASH信息的位置,提高了处理效率。
优选的,在内存中建立与所述源文件对应的内存索引表时,还包括:在所述内存中建立冲突列表,其中,所述冲突列表为连续存储空间,用于保存在比对所述源文件与所述目标文件时产生的冲突元素。通过本优选实施例中建立的冲突列表,内存的使用可以达到最优化。
优选的,在上述几个优选实施例的基础上,根据比较结果生成所述源文件与所述目标文件的比对结果包括:若在所述内存索引表中查找出存在与所述第二HASH信息对应的索引记录,则生成第一指示信息,其中,所述第一指示信息用于指示所述源文件与所述目标文件共同具有与查找出的所述索引记录中的HASH值对应的数据信息;若在所述内存索引表中查找出不存在与所述第二HASH信息对应的索引记录,则生成第二指示信息,其中,所述第二指示信息用于指示所述源文件中不具有与所述第二HASH信息中的HASH值对应的数据信息。通过本优选实施例的生成方式,可以便于用户查看比对结果。
优选的,根据比较结果生成所述源文件与所述目标文件的比对结果包括:1)若在所述内存索引表中查找出存在与所述第二HASH信息对应的索引记录,则将所述目标文件中与第二HASH信息对应的记录信息与所述源文件中与所述索引记录对应的记录信息进行比较;若两者相同,则生成第三指示信息,其中,所述第三指示信息用于指示所述源文件与所述目标文件共同具有与查找出的所述索引记录中的HASH值对应的数据信息;2)若在所述内存索引表中查找出不存在与所述第二HASH信息对应的索引记录,则生成第四指示信息,其中,所述第四指示信息用于指示所述源文件中不具有与所述第二HASH信息中的HASH值对应的数据信息。通过本优选实施例的生成方式,可以便于用户查看比对结果。
优选的,在上述几个优选实施例的基础上,所述内存索引表包括:多级HASH结构、冲突列表以及源文件的记录偏移信息(例如,源文件中的一条记录在源文件中的偏移位置),如图3所示。通过本优选实施例的内存索引表,可以使得查找效率进一步提高。
优选的,所述源文件与所述目标文件具有相同的文件格式。通过本优选实施例的格式限定,可以进一步提高比对的效率。
实施例2
图2是根据本发明实施例的数据比对方法的另一种优选流程图,其包括:
步骤S201:获取用户提供的系统配置参数并进行相应解析。出现异常,则转到步骤S203,否则跳转到步骤S202。
步骤S202:读取源文件进入内存,保存源文件数据的HASH值信息和文件偏移信息。出现异常数据到步骤S203,否则跳转到步骤S204。
步骤S203:将异常数据写入到日志,然后跳转至步骤S201。
步骤S204:建立源文件信息的内存索引模型,主要包括三层HASH索引和对应的冲突列表。如果出现异常到步骤S205,否则到步骤S206。
步骤S205:将内存模型失败写入日志,跳转到步骤S214。
步骤S206:从目标文件提取目标数据,进行解析和处理。
步骤S207:计算目标文件数据的HASH信息,如果发生异常,跳转到步骤S208。否则,跳转至步骤S209。
步骤S208:将目标文件异常记录写入日志,然后跳转至步骤S206。
步骤S209:通过目标文件数据的HASH值去内存索引模型中循环搜索源文件信息。例如,通过HASH值查找源文件中是否存在对应的记录的偏移位置。
步骤S210:如果存在HASH值相同的记录,跳转到步骤S211,否则跳转到步骤S212。
步骤S211:将目标文件对应的记录信息和源文件的上述偏移位置上的记录信息进行比较。
步骤S212:将步骤S211的比较结果写入到结果文件中。
步骤S213:判断是否还有未完成比较的目标文件。如果还有,则跳转到步骤S206,否则到步骤S214。
步骤S214:结束文件比对。
在本实施例中,系统参数通过动态的获取,底层比对方法使用c代码来实现,通过采用存储数据的HASH值信息和文件偏移信息代替整个记录,然后建立内存索引模型,极大的优化的比对性能,系统在处理海量数据的时候性能表现优异。普通PC机上比对4000万条和4000万条处理的时间控制在20分钟以内。
图3是根据本优选实施例的内存索引模型的示意图。如图3所示,该内存索引模型用于描述存储比对数据的数据结构,以“CP_CODE|APP_CODE|USER”为例来进行说明,图3中的第一哈希表(FIRST_HASH_TABL)存储的是HASH函数fun1对字符串“CP_CODE|APP_CODE|USER”进行HASH后所得值再对FIRST_HASH_TABLE_SIZE进行取模后得到的值,第二哈希表(SECOND_HASH_TABLE)存储的是HASH函数fun2对字符串“CP_CODE|APP_CODE|USER”进行HASH后所得值再对SECOND_HASH_TABLE_SIZE进行取模后得到的值,冲突列表(COLLISION QUEUE)存储的是冲突元素,偏移位置信息(SRC_RECORD_ARRAY)存储的是“CP_CODE|APP_CODE|USER”这行记录所在文件的文件偏移信息,优选的,还包括上述HASH值信息。
实施例3
本实施例提供了源文件a.txt和目标文件b.txt,其中a.txt含有如下两条记录:
2013|950112345|13012345678
2013|950112345|13098765432
b.txt含有如下两条记录:
2013|950112345|13012345678
2014|950112345|13098765432
用户分别指定按照全部字段比较。
按照以上步骤S201~步骤S214,首先通过将a.txt加载到内存中,并建立好相应的内存模型。然后通过读取b.txt文件,计算HASH值,在内存模型中搜索,然后到a.txt文件中读取相应记录进行比较。生成结果文件。
a.txt独有的记录:2013|950112345|13098765432
b.txt独有的记录:2014|950112345|13098765432
a.txt和b.txt文件共有的记录:2013|950112345|13012345678
实施例4
图4是根据本发明实施例的数据比对装置的一种优选示意图,其包括:比较单元402,用于将源文件的第一哈希HASH信息与目标文件的第二HASH信息进行比较;生成单元404,用于根据比较结果生成所述源文件与所述目标文件的比对结果。
本实施例通过比对源文件与目标文件的HASH信息,而不是数据本身,解决了现有技术中的数据比对方法导致内存占用率较高的问题,进而达到了减少执行时间和提高处理效率的效果。
优选的,所述比较单元402包括:第一建立模块4021,用于在内存中建立与所述源文件对应的内存索引表,其中,所述内存索引表包括与所述第一哈希HASH信息中的所有HASH值对应的索引记录;查找模块4022,用于在所述内存索引表中查找是否存在与所述第二HASH信息对应的索引记录,其中,所述索引记录中的HASH值等于所述第二HASH信息中的HASH值。通过本优选实施例中建立的内存索引表,能够利用源文件中的HASH信息快速地定位源文件的记录信息的位置,提高了处理效率。
优选的,所述比较单元402还包括:第二建立模块4023,用于在内存中建立与所述源文件对应的内存索引表时,在所述内存中建立冲突列表,其中,所述冲突列表用于保存在比对所述源文件与所述目标文件时产生的冲突元素。通过本优选实施例中建立的冲突列表,内存的使用可以达到最优化。
优选的,所述生成单元404还包括:第一生成模块4041,用于在所述内存索引表中查找出存在与所述第二HASH信息对应的索引记录时,生成第一指示信息,其中,所述第一指示信息用于指示所述源文件与所述目标文件共同具有与查找出的所述索引记录中的HASH值对应的数据信息;第二生成模块4042,用于在所述内存索引表中查找出不存在与所述第二HASH信息对应的索引记录时,生成第二指示信息,其中,所述第二指示信息用于指示所述源文件中不具有与所述第二HASH信息中的HASH值对应的数据信息。通过本优选实施例的生成方式,可以便于用户查看比对结果。
优选的,在上述几个优选实施例的基础上,所述比较单元402还可以包括:比较模块4024,用于在所述内存索引表中查找出存在与所述第二HASH信息对应的索引记录时,将所述目标文件中与第二HASH信息对应的记录信息与所述源文件中与所述索引记录对应的记录信息进行比较。在本优选实施例中,所述生成单元404还包括:第三生成模块4043,用于在两者相同,则生成第三指示信息,其中,所述第三指示信息用于指示所述源文件与所述目标文件共同具有与查找出的所述索引记录中的HASH值对应的数据信息。通过本优选实施例的生成方式,可以便于用户查看比对结果。
优选的,在上述几个优选实施例的基础上,所述内存索引表包括:多级HASH结构、冲突列表以及源文件的记录偏移信息(例如,源文件中的一条记录在源文件中的偏移位置),如图3所示。通过本优选实施例的内存索引表,可以使得查找效率进一步提高。
优选的,所述源文件与所述目标文件具有相同的文件格式。通过本优选实施例的格式限定,可以进一步提高比对的效率。
实施例5
图5是根据本发明实施例的数据比对装置的另一种优选示意图,其包括:系统参数解析模块502,源文件加载与解析模块504、内存索引创建模块506、数据查找与比对模块508以及结果文件生成模块510。
本发明实施例的数据比对装置通过以下主要步骤实现源文件与目标文件的比对:
步骤A、系统参数解析模块502获取用户提供的动态系统参数,初始化系统环境变量;
步骤B、源文件加载与解析模块504加载比对数据,将数据所在文件的偏移信息和HASH信息读入内存;
步骤C、内存索引创建模块506建立内存数据的内存索引模型;
步骤D、数据查找与比对模块508启动比对程序,对数据文件进行比对;
步骤E、结果文件生成模块510生成比对结果,以便用户查看日志和数据结果,验证比对结果。
本实施例通过与用户的交互动态获取配置信息;通过对数据的偏移信息和HASH信息的存储代替整个数据的完整加入到内存,并且建立大块线性的冲突列表来保存冲突元素,使内存使用达到最优化,通过建立内存索引模型,能够快速的定位数据的源文件位置,以提升处理的性能。
此外,上述实施例还具有很大的推广性,适合于任何格式化文本数据的海量数据的比对工作,不要求数据有任何的特征。文中所述的格式化文本数据指的是文本文件中的每行数据都遵从以下形式:
“字段1分隔符字段2分隔符......字段n-1分隔符字段n换行符”
此外,本发明可以处理没有任何特征的格式化文本数据,能极大的提升性能以及数据比对准确率;而且能通过动态获取系统运行参数的方式实现复杂的数据逻辑,这使得在当前各行业在排查诸如话单、报表、订购关系、用户信息等一些标准文件数据时的应用价值很大。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (11)

1.一种数据比对方法,其特征在于,包括:
将源文件的第一哈希HASH信息与目标文件的第二HASH信息进行比较;
根据比较结果生成所述源文件与所述目标文件的比对结果。
2.根据权利要求1所述的方法,其特征在于,将源文件的第一哈希HASH信息与目标文件的第二HASH信息进行比较包括:
在内存中建立与所述源文件对应的内存索引表,其中,所述内存索引表包括与所述第一哈希HASH信息中的所有HASH值对应的索引记录;
在所述内存索引表中查找是否存在与所述第二HASH信息对应的索引记录,其中,所述索引记录中的HASH值等于所述第二HASH信息中的HASH值。
3.根据权利要求2所述的方法,其特征在于,在内存中建立与所述源文件对应的内存索引表时,还包括:
在所述内存中建立冲突列表,其中,所述冲突列表为连续存储空间,用于保存在比对所述源文件与所述目标文件时产生的冲突元素。
4.根据权利要求2所述的方法,其特征在于,根据比较结果生成所述源文件与所述目标文件的比对结果包括:
若在所述内存索引表中查找出存在与所述第二HASH信息对应的索引记录,则生成第一指示信息,其中,所述第一指示信息用于指示所述源文件与所述目标文件共同具有与查找出的所述索引记录中的HASH值对应的数据信息;
若在所述内存索引表中查找出不存在与所述第二HASH信息对应的索引记录,则生成第二指示信息,其中,所述第二指示信息用于指示所述源文件中不具有与所述第二HASH信息中的HASH值对应的数据信息。
5.根据权利要求2所述的方法,其特征在于,根据比较结果生成所述源文件与所述目标文件的比对结果包括:
若在所述内存索引表中查找出存在与所述第二HASH信息对应的索引记录,则将所述目标文件中与第二HASH信息对应的记录信息与所述源文件中与所述索引记录对应的记录信息进行比较;若两者相同,则生成第三指示信息,其中,所述第三指示信息用于指示所述源文件与所述目标文件共同具有与查找出的所述索引记录中的HASH值对应的数据信息;
若在所述内存索引表中查找出不存在与所述第二HASH信息对应的索引记录,则生成第四指示信息,其中,所述第四指示信息用于指示所述源文件中不具有与所述第二HASH信息中的HASH值对应的数据信息。
6.根据权利要求1所述的方法,其特征在于,所述源文件与所述目标文件具有相同的文件格式。
7.一种数据比对装置,其特征在于,包括:
比较单元,用于将源文件的第一哈希HASH信息与目标文件的第二HASH信息进行比较;
生成单元,用于根据比较结果生成所述源文件与所述目标文件的比对结果。
8.根据权利要求7所述的装置,其特征在于,所述比较单元包括:
第一建立模块,用于在内存中建立与所述源文件对应的内存索引表,其中,所述内存索引表包括与所述第一哈希HASH信息中的所有HASH值对应的索引记录;
查找模块,用于在所述内存索引表中查找是否存在与所述第二HASH信息对应的索引记录,其中,所述索引记录中的HASH值等于所述第二HASH信息中的HASH值。
9.根据权利要求8所述的装置,其特征在于,所述比较单元还包括:
第二建立模块,用于在内存中建立与所述源文件对应的内存索引表时,在所述内存中建立冲突列表,其中,所述冲突列表用于保存在比对所述源文件与所述目标文件时产生的冲突元素。
10.根据权利要求8所述的装置,其特征在于,所述生成单元还包括:
第一生成模块,用于在所述内存索引表中查找出存在与所述第二HASH信息对应的索引记录时,生成第一指示信息,其中,所述第一指示信息用于指示所述源文件与所述目标文件共同具有与查找出的所述索引记录中的HASH值对应的数据信息;
第二生成模块,用于在所述内存索引表中查找出不存在与所述第二HASH信息对应的索引记录时,生成第二指示信息,其中,所述第二指示信息用于指示所述源文件中不具有与所述第二HASH信息中的HASH值对应的数据信息。
11.根据权利要求8所述的装置,其特征在于,
所述比较单元还包括:
比较模块,用于在所述内存索引表中查找出存在与所述第二HASH信息对应的索引记录时,将所述目标文件中与第二HASH信息对应的记录信息与所述源文件中与所述索引记录对应的记录信息进行比较;
所述生成单元还包括:
第三生成模块,用于在两者相同,则生成第三指示信息,其中,所述第三指示信息用于指示所述源文件与所述目标文件共同具有与查找出的所述索引记录中的HASH值对应的数据信息。
CN2010105070303A 2010-09-27 2010-09-27 数据比对方法和装置 Pending CN101957858A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN2010105070303A CN101957858A (zh) 2010-09-27 2010-09-27 数据比对方法和装置
PCT/CN2011/076964 WO2012041110A1 (zh) 2010-09-27 2011-07-07 数据比对方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010105070303A CN101957858A (zh) 2010-09-27 2010-09-27 数据比对方法和装置

Publications (1)

Publication Number Publication Date
CN101957858A true CN101957858A (zh) 2011-01-26

Family

ID=43485187

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010105070303A Pending CN101957858A (zh) 2010-09-27 2010-09-27 数据比对方法和装置

Country Status (2)

Country Link
CN (1) CN101957858A (zh)
WO (1) WO2012041110A1 (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012041110A1 (zh) * 2010-09-27 2012-04-05 中兴通讯股份有限公司 数据比对方法和装置
CN103678583A (zh) * 2013-12-11 2014-03-26 北京华胜天成科技股份有限公司 结构化数据比较的方法及系统
CN103729342A (zh) * 2012-10-12 2014-04-16 中国银联股份有限公司 文件比对方法及装置
CN103970728A (zh) * 2013-02-01 2014-08-06 中国银联股份有限公司 一种文件的比对方法和系统
CN104021132A (zh) * 2013-12-08 2014-09-03 郑州正信科技发展股份有限公司 主备数据库数据一致性核查备份方法及其系统
CN104079581A (zh) * 2014-07-16 2014-10-01 金红宇 身份认证方法及设备
CN104123280A (zh) * 2013-04-24 2014-10-29 中国银联股份有限公司 文件比对方法和设备
CN104750743A (zh) * 2013-12-31 2015-07-01 中国银联股份有限公司 一种交易文件勾对系统和方法
CN105653554A (zh) * 2014-11-14 2016-06-08 卓望数码技术(深圳)有限公司 一种文件数据比对方法和系统
CN108733674A (zh) * 2017-04-14 2018-11-02 宁德时代新能源科技股份有限公司 一种a2l文件合并方法及装置
WO2018214897A1 (zh) * 2017-05-25 2018-11-29 阿里巴巴集团控股有限公司 一种数据库状态确定方法、一致性验证方法及装置
CN109886801A (zh) * 2019-01-28 2019-06-14 上海孚厘金融信息服务有限公司 一种电子银行流水真伪鉴别方法及装置
CN110109920A (zh) * 2019-03-19 2019-08-09 咪咕文化科技有限公司 数据比对方法及服务器
CN110262885A (zh) * 2019-06-20 2019-09-20 北京奇艺世纪科技有限公司 一种数据请求处理方法、装置、存储介质及计算机设备
CN110991065A (zh) * 2019-12-11 2020-04-10 清华大学 一种建筑信息模型中设计变更自动识别方法
CN111158590A (zh) * 2019-12-17 2020-05-15 苏州浪潮智能科技有限公司 一种解决哈希冲突的方法和设备
CN111191436A (zh) * 2020-01-03 2020-05-22 北大方正集团有限公司 版式文档的比对方法、装置、设备及计算机存储介质
CN114118008A (zh) * 2022-01-21 2022-03-01 西安羚控电子科技有限公司 一种基于bs架构的数据对比系统及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0991303A (ja) * 1995-09-22 1997-04-04 Fujitsu Ltd データ管理装置
CN1794236A (zh) * 2004-12-21 2006-06-28 英特尔公司 高效的基于cam在分组有效载荷中进行串搜索的技术
CN1979516A (zh) * 2005-12-10 2007-06-13 腾讯科技(深圳)有限公司 一种图像文件的验证及使用方法
CN101398837A (zh) * 2008-10-23 2009-04-01 深圳市奇迹通讯有限公司 一种快速匹配短信文本的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101957858A (zh) * 2010-09-27 2011-01-26 中兴通讯股份有限公司 数据比对方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0991303A (ja) * 1995-09-22 1997-04-04 Fujitsu Ltd データ管理装置
CN1794236A (zh) * 2004-12-21 2006-06-28 英特尔公司 高效的基于cam在分组有效载荷中进行串搜索的技术
CN1979516A (zh) * 2005-12-10 2007-06-13 腾讯科技(深圳)有限公司 一种图像文件的验证及使用方法
CN101398837A (zh) * 2008-10-23 2009-04-01 深圳市奇迹通讯有限公司 一种快速匹配短信文本的方法

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012041110A1 (zh) * 2010-09-27 2012-04-05 中兴通讯股份有限公司 数据比对方法和装置
CN103729342A (zh) * 2012-10-12 2014-04-16 中国银联股份有限公司 文件比对方法及装置
CN103970728A (zh) * 2013-02-01 2014-08-06 中国银联股份有限公司 一种文件的比对方法和系统
CN104123280A (zh) * 2013-04-24 2014-10-29 中国银联股份有限公司 文件比对方法和设备
CN104123280B (zh) * 2013-04-24 2017-08-25 中国银联股份有限公司 文件比对方法和设备
CN104021132A (zh) * 2013-12-08 2014-09-03 郑州正信科技发展股份有限公司 主备数据库数据一致性核查备份方法及其系统
CN104021132B (zh) * 2013-12-08 2017-08-22 郑州正信科技发展股份有限公司 主备数据库数据一致性核查备份方法及其系统
CN103678583B (zh) * 2013-12-11 2017-07-21 北京华胜天成科技股份有限公司 结构化数据比较的方法及系统
CN103678583A (zh) * 2013-12-11 2014-03-26 北京华胜天成科技股份有限公司 结构化数据比较的方法及系统
CN104750743A (zh) * 2013-12-31 2015-07-01 中国银联股份有限公司 一种交易文件勾对系统和方法
CN104079581A (zh) * 2014-07-16 2014-10-01 金红宇 身份认证方法及设备
CN104079581B (zh) * 2014-07-16 2017-07-11 金红宇 身份认证方法及设备
CN105653554B (zh) * 2014-11-14 2019-07-16 卓望数码技术(深圳)有限公司 一种文件数据比对方法和系统
CN105653554A (zh) * 2014-11-14 2016-06-08 卓望数码技术(深圳)有限公司 一种文件数据比对方法和系统
CN108733674A (zh) * 2017-04-14 2018-11-02 宁德时代新能源科技股份有限公司 一种a2l文件合并方法及装置
WO2018214897A1 (zh) * 2017-05-25 2018-11-29 阿里巴巴集团控股有限公司 一种数据库状态确定方法、一致性验证方法及装置
US10789243B2 (en) 2017-05-25 2020-09-29 Alibaba Group Holding Limited Database state determining method and device, and consistency verifying method and device
CN109886801A (zh) * 2019-01-28 2019-06-14 上海孚厘金融信息服务有限公司 一种电子银行流水真伪鉴别方法及装置
CN110109920A (zh) * 2019-03-19 2019-08-09 咪咕文化科技有限公司 数据比对方法及服务器
CN110262885A (zh) * 2019-06-20 2019-09-20 北京奇艺世纪科技有限公司 一种数据请求处理方法、装置、存储介质及计算机设备
CN110991065A (zh) * 2019-12-11 2020-04-10 清华大学 一种建筑信息模型中设计变更自动识别方法
WO2021114483A1 (zh) * 2019-12-11 2021-06-17 清华大学 一种建筑信息模型中设计变更自动识别方法
CN110991065B (zh) * 2019-12-11 2021-10-29 清华大学 一种建筑信息模型中设计变更自动识别方法
CN111158590A (zh) * 2019-12-17 2020-05-15 苏州浪潮智能科技有限公司 一种解决哈希冲突的方法和设备
CN111158590B (zh) * 2019-12-17 2021-07-06 苏州浪潮智能科技有限公司 一种解决哈希冲突的方法和设备
CN111191436A (zh) * 2020-01-03 2020-05-22 北大方正集团有限公司 版式文档的比对方法、装置、设备及计算机存储介质
CN114118008A (zh) * 2022-01-21 2022-03-01 西安羚控电子科技有限公司 一种基于bs架构的数据对比系统及方法
CN114118008B (zh) * 2022-01-21 2022-05-10 西安羚控电子科技有限公司 一种基于bs架构的数据对比系统及方法

Also Published As

Publication number Publication date
WO2012041110A1 (zh) 2012-04-05

Similar Documents

Publication Publication Date Title
CN101957858A (zh) 数据比对方法和装置
Zhang et al. Bed-tree: an all-purpose index structure for string similarity search based on edit distance
US9129007B2 (en) Indexing and querying hash sequence matrices
EP3133505A1 (en) Clustering storage method and device
US8380737B2 (en) Computing intersection of sets of numbers
US8713427B2 (en) Apparatus and method for extracting cascading style sheet rules
JP2005267600A5 (zh)
US20110238708A1 (en) Database management method, a database management system and a program thereof
US10776427B2 (en) Efficient conditional state mapping in a pattern matching automaton
CN102591855A (zh) 一种数据标识方法及系统
CN105706092A (zh) 四值模拟的方法和系统
KR20190079354A (ko) 분할 공간 기반의 공간 데이터 객체 질의처리장치 및 방법, 이를 기록한 기록매체
CN110109894A (zh) 非关系型数据库的实现方法、装置、存储介质和设备
CN111444192A (zh) 块链式账本中全局状态的哈希的生成方法、装置及设备
CN104572785A (zh) 一种分布式创建索引的方法和装置
US9165008B1 (en) System and method for data compression using a dynamic compression dictionary
US20070174329A1 (en) Presenting a reason why a secondary data structure associated with a database needs rebuilding
CN106874329A (zh) 数据库表索引的实现方法和装置
CN105389394A (zh) 基于多个数据库集群的数据请求处理方法及装置
US8645388B1 (en) Method and system for processing a query
US10846598B2 (en) Pattern matching
CN115080684B (zh) 网盘文档索引方法、装置、网盘及存储介质
CN113806803B (zh) 一种数据存储方法、系统、终端设备及存储介质
CN113407657A (zh) 基于单级数据库的数据查询方法、装置、设备及存储介质
US20140081986A1 (en) Computing device and method for generating sequence indexes for data files

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20110126