CN105787041B

CN105787041B - 基于数据特征码的大文件比对方法以及比对系统

Info

Publication number: CN105787041B
Application number: CN201610106195.7A
Authority: CN
Inventors: 张工厂
Original assignee: China Unionpay Co Ltd
Current assignee: China Unionpay Co Ltd
Priority date: 2016-02-26
Filing date: 2016-02-26
Publication date: 2019-08-13
Anticipated expiration: 2036-02-26
Also published as: CN105787041A

Abstract

本发明涉及基于数据特征码的大文件比对方法及其比对系统。本发明的方法包括下述步骤：特征码提取比对步骤，对大文件提取数据特征码，按照所述数据特征码生成特征码文件，比对所述特征码文件是否一致；文件拆分步骤，在所述特征码文件的比对结果为一致的情况下，基于上述特征码文件将所述大文件进行拆分以生成拆分后的N个子文件；子文件比对步骤，并发对所述N个子文件进行比对；以及结果合并步骤，将所述子文件比对步骤的比对结果进行合并。根据本发明，能够提高数据处理效率，对资源要求不高，即使在配置较低的机器上也能正常运行。

Description

基于数据特征码的大文件比对方法以及比对系统

技术领域

本发明涉及大数据处理技术，具体地涉及基于数据特征码的大文件比对方法以及比对系统。

背景技术

批量处理系统（比如跨行清算系统），往往生成很大量的流水文件。版本上线前，往往会进行新旧系统版本的结果输出进行内容比对。其中，如果相同交易的记录只要一样，即使记录顺序不一样，也认为是相同，面对如此大的文件（单个文件大小就将达到数GB），现有工具往往无法处理，会产生比如内存耗光导致系统宕机的情况。

发明内容

鉴于上述问题，本发明旨在提供一种处理效率高、对配置资源要求不高，即使在配置较低的机器上也能够轻松完成大文件的比对的基于数据特征码的大文件比对系统以及比对方法。

本发明的基于数据特征码的大文件比对方法，其特征在于，包括下述步骤：

特征码提取比对步骤，对大文件提取数据特征码，按照所述数据特征码生成特征码文件，比对所述特征码文件是否一致；

文件拆分步骤，在所述特征码文件的比对结果为一致的情况下，基于上述特征码文件将所述大文件进行拆分以生成拆分后的N个子文件；

子文件比对步骤，并发对所述N个子文件进行比对；以及

结果合并步骤，将所述子文件比对步骤的比对结果进行合并。

优选地，所述特征码提取比对步骤包括下述子步骤：

对大文件提取数据特征码；

对生成的数据特征码进行去重；

按照所述去重后的数据特征码生成特征码文件；

比对所述特征码文件是否一致，在所述特征码文件一致的情况下进行所述文件拆分步骤，否则结束处理。

优选地，所述特征码提取比对步骤包括下述子步骤：

对大文件的记录进行规定算法变换；

对规定算法变换后的记录提取数据特征码；

对生成的数据特征码进行去重；

按照所述去重后的数据特征码生成特征码文件；

优选地，所述文件拆分步骤包括下述子步骤：

将所述特征码文件拆分成N个具有相同记录数的N个子特征码文件；以及

将所述大文件中匹配所述N个子特征码文件的记录进行均匀拆分以生成N个拆分后的子文件。

优选地，在所述子文件比对步骤中，并发对所述N个子文件进行比对。

优选地，在所述结果合并步骤中，将所述子文件比对步骤的N个子文件的比对结果进行合并。

本发明的基于数据特征码的大文件比对系统，其特征在于，具备：

特征码提取比对模块，用于对大文件提取数据特征码，按照所述数据特征码生成特征码文件，比对所述特征码文件是否一致；

文件拆分模块，在所述特征码提取比对模块的比对结果为一致的情况下，用于基于上述特征码文件将所述大文件进行拆分以生成拆分后的N个子文件；

子文件比对模块，用于对所述文件拆分模块输出的N个子文件进行比对；以及

结果合并模块，用于对所述子文件比对模块输出的比对结果进行合并。

优选地，所述特征码提取比对模块用于对大文件提取数据特征码并对生成的数据特征码进行去重，按照所述去重后的数据特征码生成特征码文件，比对所述特征码文件是否一致，在所述特征码文件一致的情况下将结果输出到所述文件拆分模块，否则结束处理。

优选地，所述特征码提取比对模块用于对大文件的记录进行规定算法变换，对规定算法变换后的记录提取数据特征码，对生成的数据特征码进行去重，按照所述去重后的数据特征码生成特征码文件，比对所述特征码文件是否一致，在所述特征码文件一致的情况下将结果输出到所述文件拆分模块，否则结束处理。

优选地，所述文件拆分模块用于将所述特征码文件拆分成N个具有相同记录数的N个子特征码文件并且将所述大文件中匹配所述N个子特征码文件的记录进行均匀拆分以生成N个拆分后的子文件。

优选地，所述子文件比对模块并发对所述N个子文件进行比对。

优选地，所述结果合并模块将所述子文件比对模块输出的N个子文件的比对结果进行合并。

如上所述，根据本发明的基于数据特征码的大文件比对系统以及比对方法具有以下技术效果：能够根据需要指定特征码，灵活性高；对机器环境配置要求不高，适用范围广泛；特征码文件较之原文件所占空间大大减小，可用于快速确定原大文件是否不一致，能够提高数据处理效率；在拆分和比对环节，能够充分利用机器资源进行并发处理，性能好，处理效率高。

附图说明

图1是表示本发明一实施方式的基于数据特征码的大文件比对方法的流程图。

图2（a）～（c）表示本发明的基于数据特征码的大文件比对方法中特征码提取、去重的一个具体示例。

图3表示该具体示例中的特征码文件的内容。

图4是本发明的基于数据特征码的大文件比对系统的构造示意图。

具体实施方式

下面介绍的是本发明的多个实施例中的一些，旨在提供对本发明的基本了解。并不旨在确认本发明的关键或决定性的要素或限定所要保护的范围。

本发明的基于数据特征码的大文件比对方法以及比对系统是可对指定数据特征（例如，在流水文件中，流水号基本能确定交易，根据流水文件的这种特征，可以指定流水号作为特征码字段。当然本发明并不仅限于将流水号作为数据特征的情况，可以按照实际进行数据处理的需要进行指定）进行提取，生成特征码文件。由于该特征码文件体积很小，可快速确定原文件是否不一致，如果该特征码文件不一致，则原大文件肯定不一致，并根据特征码进行大文件切分，将大文件切分为若干小文件（切分过程并发处理），再并发对小文件进行比对处理，最终汇总各小文件比对结果。本发明的基于数据特征码的大文件比对方法以及比对系统处理效率较高，而且对资源要求不高，在配置较低的机器上也能正常运行。

本发明一实施方式的基于数据特征码的大文件比对方法主要包括：特征码提取及比对步骤、文件拆分步骤、并发比对步骤以及结果合并步骤。

下面，参照图1对于本发明一实施方式的基于数据特征码的大文件比对方法进行具体说明。

如图1所示，本发明一实施方式的基于数据特征码的大文件比对方法包括下述步骤：

在步骤S100，对大文件提取数据特征码，按照所述数据特征码生成特征码文件。

在步骤S200中，比对所述特征码文件是否一致。

在比对一致的情况下（即图1中“Y”的情况下），进入步骤S300，否则（即图1中“N”的情况下）跳至步骤S600结束处理。

在步骤S300中，在所述特征码文件的比对结果为一致的情况下，基于上述特征码文件将所述大文件进行拆分以生成拆分后的N个子文件。

在步骤S400中，并发对所述N个子文件进行比对。

在步骤S500中，将所述子文件比对步骤的比对结果进行合并。在步骤S500完成后继续步骤S600结束处理。

接着，对于步骤S100～S400进行具体说明。

首先，对于步骤S100和步骤S200进行说明。

在步骤S100中，针对不同的文件，可根据其数据特征对大文件生成特征码文件，在步骤S200中，比对所述特征码文件是否一致。该过程，是将大文件中的特征码提取、去重的过程，以保证切分后同一特征码的记录被切在同一子文件中，方便比对。在此过程中，提取、去重后的特征码集合，可以作为大文件拆分的依据。这一过程也可以称之为特征码文件生成。

作为具体示例，例如有类似图2（a）所示的文件，该文件第一个字段为交易流水号，一般情况下不同交易该字段也不同，根据该特点，对此文件可考虑采用该交易流水号字段作为其特征码。当然，也可以采用对记录进行算法变换后再取特征码，例如hash算法，这里为方便理解，采用最简单的方式进行示例介绍。

在提取特征码（即交易流水号）之后，生成如图2（b）所示内容的特征码文件。

接着，对于提取特征码之后生成的特征码文件进行去重，去除重复特征码的目的，是为了保证后续切分文件时，同一特征码的记录能分到同一个子文件中，经过去重之后，特征码文件内容为图2（c）所示。

像上述具体示例那样的跨行清算系统中的流水，一条记录近1000字节，假如指定流水号作为数据特征码（例如，6字节），对一个近8GB的流水文件，提取特征码后生成的特征码文件只有60MB，针对这60MB的文件进行处理，较之针对8GB的文件相比，效率要高很多。

同时，该特征码文件可用于快速判断和确定文件是否不一致，即针对新旧版本流水文件各生成一次特征码文件，并进行特征码文件的比对，如果特征码文件不一致，则两个版本的流水肯定不一致，并且能快速确定差异内容。因此，在步骤S200中，比对所述特征码文件是否一致。如果特征码文件比对不通过，则不进行后序步骤，直接进至步骤S600，如果特征码文件比对通过，则进行后续步骤，即进行步骤S300。

接着，对于文件拆分步骤S300进行说明。在步骤S200中对特征码文件进行比对后，如果特征码文件一致，则在步骤S300中对大文件进行拆分。拆分过程是先将特征码文件拆成若干个记录数一致的子文件，例如N个，这里N为正整数。将特征码文件拆分成N个记录数一致的子文件，并且每个子文件的记录数可自行指定，这样能够保证后续切分出的子文件数据量基本一致，以保证后序的并发比对的性能，并且将大文件中匹配该子特征码文件的记录进行均匀拆分，这样可以生成N个拆分后的子文件。

例如，接着图2（a）～图2（c）所示的具体示例，图3表示该具体示例中的特征码文件的内容。如图3所示，特征码文件共有3行。假如要拆成三个子文件，则能够以每行作为一个特征码子文件。然后，分别根据特征码子文件，对原大文件进行特征码匹配，符合同一特征码子文件特征的记录拆分到同一子文件中，这样拆分下来的子文件，同一特征的必定在同一子文件中。

对于拆分后的子文件，在步骤S400中进行子文件的比对。大文件拆分成N个子文件之后，可以并发对子文件进行比对，（所谓并发比对即指并行地进行子文件比对。通过进行并发比对，总体处理时间就与一个子文件的比对时间一致，能够提高处理效率，例如，对拆分后大小为550MB的子文件比对几十秒内即可完成。

接着，对于完成比对的子文件，在步骤S500中，将子文件比对步骤的比对结果进行合并。各子文件并发比对，每个子文件的比对结果会记录在对应的比对结果文件中，结果合并就是将各子文件比对结果汇总，方便查看，汇总后的结果中可以体现子文件名是否一致、或者差异情况等。

如上所述，本发明的基于数据特征码的大文件比对方法具有下述优点：特征数据可以自行指定，使得本发明能够适用于多种类型的文件；特征码文件体积较原文件小很多，可用于快速判断文件是否不一致；拆分后的小文件数据均匀，适合并发处理，且并行处理性能较优。

接着，对于本发明的基于数据特征码的大文件比对系统进行说明。图4是本发明的基于数据特征码的大文件比对系统的构造示意图。

如图4所示，本发明的基于数据特征码的大文件比对系统具备：特征码提取比对模块100，用于对大文件提取数据特征码，按照所述数据特征码生成特征码文件，比对所述特征码文件是否一致；文件拆分模块200，在所述特征码提取比对模块的比对结果为一致的情况下，用于基于上述特征码文件将所述大文件进行拆分以生成拆分后的N个子文件，其中N为正整数；子文件比对模块300，用于对所述文件拆分模块输出的N个子文件进行比对；以及结果合并模块400，用于对所述子文件比对模块输出的比对结果进行合并。

其中，所述特征码提取比对模块100用于对大文件提取数据特征码并对生成的数据特征码进行去重，按照所述去重后的数据特征码生成特征码文件，比对所述特征码文件是否一致，在所述特征码文件一致的情况下将结果输出到所述文件拆分模块，否则结束处理。或者，所述特征码提取比对模块100用于对大文件的记录进行规定算法变换，对规定算法变换后的记录提取数据特征码，对生成的数据特征码进行去重，按照所述去重后的数据特征码生成特征码文件，比对所述特征码文件是否一致，在所述特征码文件一致的情况下将结果输出到所述文件拆分模块，否则结束处理。

所述文件拆分模块200用于将所述特征码文件拆分成N个具有相同记录数的N个子特征码文件并且将所述大文件中匹配所述N个子特征码文件的记录进行均匀拆分以生成N个拆分后的子文件。

所述子文件比对模块300并发对所述N个子文件进行比对。

所述结果合并模块400将所述子文件比对模块输出的N个子文件的比对结果进行合并。

以上例子主要说明了本发明的基于数据特征码的大文件比对系统以及比对方法。尽管只对其中一些本发明的具体实施方式进行了描述，但是本领域普通技术人员应当了解，本发明可以在不偏离其主旨与范围内以许多其他的形式实施。因此，所展示的例子与实施方式被视为示意性的而非限制性的，在不脱离如所附各权利要求所定义的本发明精神及范围的情况下，本发明可能涵盖各种的修改与替换。

Claims

1.一种基于数据特征码的大文件比对方法，其特征在于，包括下述步骤：

文件拆分步骤，在所述特征码文件的比对结果为一致的情况下，基于上述特征码文件将所述大文件进行拆分以生成拆分后的N个子文件，其中N为正整数；

子文件比对步骤，并发对所述N个子文件进行比对；以及

结果合并步骤，将所述子文件比对步骤的比对结果进行合并，

其中，所述文件拆分步骤包括下述子步骤：

2.如权利要求1所述的基于数据特征码的大文件比对方法，其特征在于，

所述特征码提取比对步骤包括下述子步骤：

对大文件提取数据特征码；

对生成的数据特征码进行去重；

按照所述去重后的数据特征码生成特征码文件；以及

3.如权利要求1所述的基于数据特征码的大文件比对方法，其特征在于，

所述特征码提取比对步骤包括下述子步骤：

对大文件的记录进行规定算法变换；

对规定算法变换后的记录提取数据特征码；

对生成的数据特征码进行去重；

按照所述去重后的数据特征码生成特征码文件；以及

4.如权利要求2或3所述的基于数据特征码的大文件比对方法，其特征在于，

在所述结果合并步骤中，将所述子文件比对步骤的N个子文件的比对结果进行合并。

5.一种基于数据特征码的大文件比对系统，其特征在于，具备：

文件拆分模块，在所述特征码提取比对模块的比对结果为一致的情况下，用于基于上述特征码文件将所述大文件进行拆分以生成拆分后的N个子文件，其中N为正整数；

结果合并模块，用于对所述子文件比对模块输出的比对结果进行合并，

其中，所述文件拆分模块用于将所述特征码文件拆分成N个具有相同记录数的N个子特征码文件并且将所述大文件中匹配所述N个子特征码文件的记录进行均匀拆分以生成N个拆分后的子文件。

6.如权利要求5所述的基于数据特征码的大文件比对系统，其特征在于，

所述特征码提取比对模块用于对大文件提取数据特征码并对生成的数据特征码进行去重，按照所述去重后的数据特征码生成特征码文件，比对所述特征码文件是否一致，在所述特征码文件一致的情况下将结果输出到所述文件拆分模块，否则结束处理。

7.如权利要求5所述的基于数据特征码的大文件比对系统，其特征在于，

所述特征码提取比对模块用于对大文件的记录进行规定算法变换，对规定算法变换后的记录提取数据特征码，对生成的数据特征码进行去重，按照所述去重后的数据特征码生成特征码文件，比对所述特征码文件是否一致，在所述特征码文件一致的情况下将结果输出到所述文件拆分模块，否则结束处理。

8.如权利要求6或7所述的基于数据特征码的大文件比对系统，其特征在于，

所述子文件比对模块并发对所述N个子文件进行比对。

9.如权利要求6或7所述的基于数据特征码的大文件比对系统，其特征在于，

所述结果合并模块将所述子文件比对模块输出的N个子文件的比对结果进行合并。