CN114090519A

CN114090519A - 文件比对方法及其装置、介质以及分布式系统

Info

Publication number: CN114090519A
Application number: CN202111372047.7A
Authority: CN
Inventors: 杨超; 唐成山; 陈军
Original assignee: China Construction Bank Corp
Current assignee: China Construction Bank Corp
Priority date: 2021-11-18
Filing date: 2021-11-18
Publication date: 2022-02-25

Abstract

本申请涉及大数据处理技术领域，特别涉及一种文件比对方法及其装置、介质以及分布式系统。包括：获取待比对的第一文件和第二文件。根据第一文件和第二文件中的每条记录的主键，分别将第一文件、第二文件分成至少两组数据，其中，每组数据包含至少一条记录，主键用于标识第一文件以及第二文件中的每条记录。基于第一文件的至少两组数据以及第二文件的至少两组数据，将第一文件中的每组数据与第二文件中的每组数据进行比对，获得文件比对结果。可以理解的是，通过分别将第一文件、第二文件分成至少两组数据，可以使得分组后的第一文件和第二文件的比对任务可以在多个计算设备上并行完成，从而提高文件比对效率。

Description

文件比对方法及其装置、介质以及分布式系统

技术领域

本申请涉及大数据处理技术领域，特别涉及一种文件比对方法及其装置、介质以及分布式系统。

背景技术

近几年，在移动互联网时代背景下，随着银行金融业的发展，银行的批量处理系统不断更新升级，在批量处理系统(比如跨行清算系统)运行时，往往生成大量的流水文件。因此，在批量处理系统的新版本上线前，会将旧系统运行时生成的文件与新系统运行时生成的文件进行内容比对，返回的比对结果为相同文件或不同文件，根据比对结果测试新系统的稳定性。

但是，由于旧系统运行时生成的文件与新系统运行时生成的文件的数据量很大(例如，新旧系统生成的文件大小可能达到数GB)，文件比对的计算量也很大，则需要等待较长时间才能返回比对结果。并且，在对数据量很大的文件进行比对时，由于系统错误或网络问题等原因，在文件比对过程中文件比对失败，则将导致的大数据量文件需要全部重新进行比对，影响文件的比对效率。

发明内容

本申请实施例提供了一种文件对比方法及其装置、介质以及分布式系统。

第一方面，本申请实施例提供了一种文件对比方法，包括：获取待比对的第一文件和第二文件；根据第一文件和第二文件中的每条记录的主键，分别将第一文件、第二文件分成至少两组数据，其中，每组数据包含至少一条记录，主键用于标识第一文件以及第二文件中的每条记录；基于第一文件的至少两组数据以及第二文件的至少两组数据，将第一文件中的每组数据与所述第二文件中的每组数据进行比对，获得文件比对结果。可以理解的是，通过分别将第一文件、第二文件分成至少两组数据，可以使得分组后的第一文件和第二文件的比对任务可以在多个计算设备上并行完成，从而提高文件比对效率。

在上述第一方面的一种可能的实现中，上述方法还包括：方法应用于分布式系统，分布式系统包括管理节点和多个计算节点。

在上述第一方面的一种可能的实现中，上述方法还包括：管理节点用于获取待比对的第一文件和第二文件，并且方法还包括：管理节点根据多个计算节点的计算性能，向至少一个计算节点发送分组指令，其中分组指令用于指令将第一文件、第二文件分成至少两组数据。

在上述第一方面的一种可能的实现中，上述方法还包括：管理节点用于获取待比对的第一文件和第二文件的分组结果，并且方法还包括：管理节点根据多个计算节点的计算性能，向至少一个计算节点发送比对指令，其中比对指令用于指令将第一文件中的每组数据与第二文件中的每组数据进行比对，获得文件比对结果。

在上述第一方面的一种可能的实现中，上述方法还包括：根据第一文件和第二文件中的每条记录的主键，分别将第一文件、第二文件分成至少两组数据，其中，每组数据包含至少一条记录，主键用于标识第一文件以及第二文件中的每条记录包括：主键包括字段信息；根据第一文件和第二文件中的每条记录的主键包含的字段信息，分别将第一文件、第二文件分成至少两组数据，其中，一组数据中的每条记录的主键包含的字段信息相同。

在上述第一方面的一种可能的实现中，上述方法还包括：字段信息包括以下至少一个：时间字段、关键词字段。

在上述第一方面的一种可能的实现中，上述方法还包括：根据第一文件和第二文件中的每条记录的主键，分别将第一文件、第二文件分成至少两组数据，其中，每组数据包含至少一条记录，主键用于标识第一文件以及第二文件中的每条记录包括：通过哈希算法计算第一文件和第二文件中的每条记录的主键对应的哈希值；根据第一文件和第二文件中的每条记录的主键对应的哈希值，分别将第一文件、第二文件分成至少两组数据，其中，一组数据中的每条记录的主键对应的哈希值相同。

在上述第一方面的一种可能的实现中，上述方法还包括：基于第一文件的至少两组数据以及第二文件的至少两组数据，将第一文件中的每组数据与第二文件中的每组数据进行一一比对，获得文件比对结果包括：根据第一文件的每组数据的长度，对第一文件中的至少两组数据进行排序，获得排序后的第一文件的至少两组数据，以及根据第二文件的每组数据的长度，对第二文件中的至少两组数据进行排序，获得排序后的第二文件的至少两组数据；将排序后的第一文件的至少两组数据中的每组数据与排序后的第二文件的至少两组数据中的每组数据进行一一比对，获得文件比对结果。

在上述第一方面的一种可能的实现中，上述方法还包括：第一文件和第二文件的文件类型包括以下至少一种：文本文件，表文件。

第二方面，本申请实施例提供了一种文件比对装置，包括：获取模块，用于获取待比对的第一文件、第二文件；分组模块，用于根据第一文件和第二文件中的每条记录的主键，分别将第一文件、第二文件分成至少两组数据，其中，每组数据包含至少一条记录，主键用于标识第一文件以及第二文件中的每条记录；比对模块，用于基于第一文件的至少两组数据以及第二文件的至少两组数据，将第一文件中的每组数据与第二文件中的每组数据进行比对，获得文件比对结果。

第三方面，本申请实施例提供了一种可读介质，可读介质上存储有指令，该指令在分布式系统上执行时使分布式系统执行第一方面以及第一方面可能的各实现中的文件对比方法。

第四方面，本申请实施例提供了一种分布式系统，包括：存储器，用于存储由分布式系统的一个或多个处理器执行的指令，以及处理器，是分布式系统的处理器之一，用于执行第一方面以及第一方面可能的各实现中的文件对比方法。

第五方面，本申请实施例提供了一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现第一方面以及第一方面可能的各实现中的文件对比方法。

附图说明

图1根据本申请的一些实施例，示出了一种分布式系统示意图；

图2根据本申请的一些实施例，示出了一种文件比对的流程图；

图3根据本申请的一些实施例，示出了一种文件比对的流程图；

图4根据本申请的一些实施例，示出了一种待比对文件拆分成多个子文件示意图；

图5根据本申请的一些实施例，示出了一种子文件分组示意图；

图6根据本申请的一些实施例，示出了一种文件比对装置示意图；

图7根据本申请的一些实施例，示出了一种分布式系统的框图；

图8根据本申请一些实施例，示出了一种片上系统(SoC)的框图。

具体实施方式

本申请的说明性实施例包括但不限于文件对比方法及其装置、介质以及分布式系统。

本申请所有实施方式对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。

在详细披露本申请的具体实施方案的细节之前，为便于理解，这里先对本申请实施例使用的关键名词进行解释：

主键(PRIMARY KEY)：由一个或多个字段组成，可以用于唯一的标识文件中的某一条记录。一个文件的主键可以由多个关键字共同组成。主键是一种唯一关键字，文件定义的一部分。主关键字是可选的，并且可在CREATE TABLE语句或ALTER TABLE语句中定义。

分布式计算：应用于分布式系统，即把一个数据量大的待比对文件分解成多个计算量小的子文件分布到若干个计算节点上并行计算，然后综合子文件的计算结果得到最终结果。

为了解决上述问题，本申请提供了一种文件比对方法，包括：获取待比对的第一文件和第二文件；根据第一文件和第二文件中的每条记录的主键，分别将第一文件、第二文件分成至少两组数据，其中，每组数据包含至少一条记录，主键用于标识第一文件以及第二文件中的每条记录；基于第一文件的至少两组数据以及第二文件的至少两组数据，将第一文件中的每组数据与第二文件中的每组数据进行比对，获得文件比对结果。可以理解的是，通过分别将第一文件、第二文件分成至少两组数据，可以使得分组后的第一文件和第二文件的比对任务可以在多个计算设备上并行完成，从而提高文件比对效率。

进一步地，本申请的技术方案可以应用于分布式系统，该分布式系统包括管理节点和多个计算节点，管理节点根据多个计算节点的计算性能，向至少一个计算节点发送分组指令，其中分组指令用于指令将第一文件、第二文件分成至少两组数据，至少一个计算节点根据第一文件和第二文件中的每条记录的主键包含的字段信息，分别将第一文件、第二文件分成至少两组数据，其中，一组数据中的每条记录的主键包含的字段信息相同。

本申请可以应用于银行金融系统在系统更新时，对新旧系统的测试。例如，新旧系统分别产生大文件，通过对两个大文件的比对，根据比对结果，可以确定新系统生成的数据的准确性以及稳定性。其中，银行金融系统可以是跨行清算系统，跨行清算系统生成的文件可以是用户的转账流水文件。

为使本申请的目的、技术方案和优点更加清楚，下面结合图1至图8详细说明本申请的技术方案。图1所示为本申请实施例提供的一种分布式系统10示意图；分布式系统10，用于获取待比对文件，并对待比对文件进行处理，生成文件的比对结果。如图1所示，分布式处理系统10可以包括管理节点100和n个计算节点200，n个计算节点200分别是计算节点200-1、计算节点200-2、计算节点200-3、……、计算节点200-n。

在一些实施例中，管理节点100用于对各个计算节点200进行资源管理、主备管理、文件管理和任务管理中的至少一种。资源管理是指对各个计算节点200中的计算资源进行管理。例如，管理节点100可以根据各个计算节点200的计算性能，给各个计算节点200分配所要处理的任务，例如，该任务可以是待比对文件的分组任务，也可以是待比对文件的比对任务。主备管理是指各个计算节点200在发生故障时，实现主备切换管理，例如，计算节点200-1发生故障时，管理节点100可以将计算节点200-1所要处理的数据发送给计算节点200-n处理。文件管理是指对需要分布式系统10处理的待比对文件设置分组规则，各个计算节点200根据分组规则，将比对文件分解成子文件。任务管理是指对于各个计算节点200所要处理的若干个任务进行管理。在不同的计算系统中，管理节点100可能具有不同的名称，比如，主控节点(Master node)。

在一些实施例中，管理节点100通过有线网络、无线网络或专用硬件接口与计算节点200相连。

在一些实施例中，计算节点200负责处理对待比对文件的分组任务、排序任务、合并任务以及比对任务，下文对计算节点200处理待比对文件的内容做详细描述，在此不做赘述。多个计算节点200之间通过有线网络、无线网络或专用硬件接口相连。

在一些实施例中，分布式系统10可以是云服务集群10或计算机集群10等，该云服务集群10或计算机集群10可以由管理节点100、n个计算节点200以及节点之间的通信网络构成。管理节点100和/或计算节点200可以是独立的计算机设备，管理节点100和/或计算节点200也可以是虚拟机VM，管理节点100和/或计算节点200还可以是一个计算机设备上的不同处理器，或者多个计算机设备上的不同处理器。

例如，在管理节点100和各个计算节点200均是独立的计算机设备的情况，每个计算机设备可以是相同的，也可以是不同的，但每个计算机设备的硬件结构基本是一致的。在管理节点100和各个计算节点200均是虚拟机(VM)的情况下，虚拟机可以运行于一个计算机设备上，也可以位于多个计算机设备上。该虚拟机还可以是不依赖于独立的计算机设备，而是从资源池中划分出来的计算和传输资源。

可以理解的是，分布式系统10的管理节点100和计算节点200可以在通用的硬件实体上来实现，也可以由运行在通用硬件上的虚拟机来实现。本申请实施例不限定管理节点100是物理实体还是逻辑实体，也不限定计算节点200是物理实体还是逻辑实体。下面将以待比对文件为文件A和文件B，分布式系统10比对文件A和文件B，并生成比对结果为例，对图1所示的分布式系统10处理待比对文件的流程进行说明。

图2为根据本申请的实施例，示出的一种文件比对的流程图。其中，图2描述的实施方式对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。如图2所示，文件比对过程包括：

S201：分布式系统10获取待比对的第一文件、第二文件。

在一些实施例中，第一文件和第二文件可以是需要比对的包含数据量较大的两个文件，通过比对这两个文件，确定这两个文件是否一致。第一文件和第二文件可以是文本文件，也可以是表文件。待比对文件可以是银行的新旧系统分别生成的两个文件，也可以是现有的待比对的第一文件和第二文件。

S202：分布式系统10根据第一文件和第二文件中的每条记录的主键，分别将第一文件、第二文件分成至少两组数据，其中，每组数据包含至少一条记录，主键用于标识第一文件和第二文件中的每条记录。

例如，第一文件可以为文本文件，则第一文件包含e行文本记录，每行文本记录的主键用于的标识该行文本记录。其中，每行文本记录的主键由一个或多个字段组成，多个字段可以连接成一个字符串。分布式系统10根据第一文件的主键，将第一文件分解成M组数据，其中，第一文件的主键用于的标识第一文件中的一条记录。同理，第二文件可以为文本文件，则第二文件包含f行文本记录，每行文本记录的主键用于的标识该行文本记录。分布式系统10根据第二文件的主键，将第二文件分解成M组数据，其中，第二文件的主键用于的标识第二文件中的一条记录。

具体的，例如，分布式系统10可以根据第一文件中的主键包含的字段信息，将第一文件划分为M组数据，其中，包含相同字段信息的主键对应的记录划分为一组。同理，分布式系统10可以根据第二文件中的主键包含的字段信息，将第二文件划分为N组数据，其中，包含相同字段信息的主键对应的记录划分为一组。字段信息可以是时间字段，该字段信息也可以是关键词字段。

例如，待比对文件为银行流水文件，时间字段可以是时间点字段，也可以是时间段字段。关键词字段可以是银行卡号的前6位，也可以是完整的银行卡号，还可以是用户的姓名，还可以是用户的身份证号等。

具体的，例如，分布式系统10还可以通过运行哈希算法，计算第一文件中每个主键对应的哈希值，根据每条记录的主键对应的哈希值，将第一文件划分为M组数据。其中，哈希值相同的主键对应的记录划分为一组数据。同理，分布式系统10可以通过运行哈希算法，计算第二文件中每个主键对应的哈希值，根据每条记录的主键对应的哈希值，将第二文件划分为M组数据。其中，哈希值相同的主键对应的记录划分为一组数据。哈希算法可以是以下至少一种：散列哈希算法、除法哈希算法、乘法哈希算法、斐波那契(Fibonacci)哈希算法。

S203：分布式系统10基于第一文件的至少两组数据以及第二文件的至少两组数据，将第一文件中的每组数据与第二文件中的每组数据进行一一比对，获得文件比对结果。

可以理解的是，图2中的分布式系统10可以是一个电子设备，也可以是图1场景中的包括管理节点100和n个计算节点200的设备集群，下面详细描述在分布式系统10为设备集群时，对待比对的第一文件和第二文件进行分布式处理的过程进行详细描述。

在一些实施例中，分布式系统10包括多个计算节点，分布式系统10中的至少一个计算节点根据第一文件和第二文件中的每条记录的主键，分别将第一文件、第二文件分成至少两组数据，从而使得分布式系统10中的多个计算节点可以同时对第一文件、第二文件中的部分数据进行比对，获得第一文件和第二文件的比对结果，提高文件比对效率。

图3为根据本申请的实施例，示出的一种文件比对的流程图。其中，图3描述的实施方式对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。如图3所示，文件比对过程包括：

S301：管理节点100获取待比对文件，其中，待比对文件包括第一文件，第二文件。

在一些实施例中，待比对文件可以是需要比对的包含数据量较大的两个文件，通过比对这两个文件，确定这两个文件是否一致。

例如，在银行的批量处理系统不断更新升级时，在相同条件下，待比对文件可以是旧批量处理系统与新批量处理系统运行时，分别生成的流水文件。可以理解的是，通过比对旧批量处理系统与新批量处理系统运行时，分别生成的流水文件，可以用于测试新批量处理系统处理银行业务的准确性和稳定性。

在一些实施例中，待比对文件可以是文本文件，也可以是表文件；待比对文件可以是银行的新旧系统分别生成的两个文件，也可以是现有的待比对文件。可以理解的是，根据实际的应用，本申请对待比对文件的表现形式和具体内容不做具体限定。

下文以待比对文件为旧批量处理系统运行时生成的流水文件(即文件A)以及新批量处理系统运行时生成的流水文件(即文件B)为例说明本申请的文件比对的过程。

S302：管理节点100根据待比对文件数据量以及N个计算节点的计算性能，确定N个计算节点所要处理的子文件的数据量。

在一些实施例中，管理节点100可以分别获取N个计算节点的计算性能，管理节点100根据获取的N个计算节点200的计算性能以及待比对文件数据量，确定N个计算节点所要处理的子文件。

例如，如图4所示，分布式系统10包括4个计算节点，分别为计算节点200-1、计算节点200-2、计算节点200-3、计算节点200-4。管理节点100根据获取的4个计算节点200的计算性能以及文件A和文件B的数据量，将文件A拆分成2个子文件，即{A₁、A₂}，将文件B拆分成2个子文件，即{B₁、B₂}。其中，子文件A₁为计算节点200-1所要处理的子文件，子文件A₂为计算节点200-2所要处理的子文件；子文件B₁为计算节点200-3所要处理的子文件；子文件B₂为计算节点200-4所要处理的子文件。

S303：管理节点100向计算节点200-1发送处理子文件A₁的通知，其中，该通知包括子文件A₁在内存中的存储位置以及存储范围。

在一些实施例中，管理节点100可以根据获取的每个计算节点所要处理的子文件在内存中的位置和范围，分别向每个计算节点发送处理子文件的通知，其中，该通知包括每个计算节点所要处理等子文件在内存中的存储位置以及存储范围。

例如，管理节点100根据获取的子文件A₁、子文件A₂、子文件B₁、子文件B₂在内存中的存储位置以及存储范围，分别向计算节点200-1、计算节点200-2、计算节点200-3、计算节点200-4发送处理子文件A₁、子文件A₂、子文件B₁、子文件B₂的通知。例如，管理节点100向计算节点200-1发送的处理子文件A₁的通知包括：子文件A₁在内存中的存储位置以及存储范围。

可以理解，管理节点100分别向计算节点200-2、计算节点200-3、计算节点200-4发送处理子文件A₂、子文件B₁、子文件B₂的通知的具体过程与管理节点100向计算节点200-1发送处理子文件A₁的通知的内容相同，在此不做赘述。

S304：计算节点200-1根据管理节点100发送的处理子文件A₁的通知，获取子文件A₁。

S305：计算节点200-1根据子文件A₁中的每条记录的主键，将子文件A₁分解成M组数据，其中，子文件A₁的主键用于的标识子文件A₁中的一条记录，每组数据包含至少一条记录。

在一些实施例中，计算节点200-1可以通过运行哈希算法，计算子文件A₁中每个主键对应的哈希值，根据每条记录的主键对应的哈希值，将子文件A₁划分为M组数据。其中，哈希值相同的主键对应的记录划分为一组数据。

具体地，计算节点200-1可以将子文件A₁中每个主键作为键值(key)输入到哈希算法中，从而输出每个主键对应的哈希值(hash value)。计算节点200-1将哈希值相同的每个主键标识的每条记录划分为一组数据。

在一些实施例中，哈希算法可以是以下至少一种：散列哈希算法、除法哈希算法、乘法哈希算法、斐波那契(Fibonacci)哈希算法。

可以理解的是，计算节点200-1通过哈希算法计算子文件A₁的每个主键对应的哈希值，根据每个主键对应的哈希值，将子文件A₁划分为M组数据。但是，在子文件A₁的数据量较大时，子文件包含的主键的数量也较多，则计算节点200-1运行哈希算法计算子文件A₁的每个主键对应的哈希值的计算量较大，将子文件A₁划分为M组数据所需的时间较长，从而使得文件比对的时间较长，分布式系统10的处理文件比对的效率变低。

在其他一些实施例中，计算节点200-1也可以根据子文件A₁中的主键包含的字段信息，将子文件A₁划分为M组数据，其中，包含相同字段信息的主键对应的记录划分为一组。该字段信息可以是时间字段，该字段信息也可以是关键词字段。

例如，字段信息为时间字段时，该时间字段可以为时间点字段，例如，时间点字段可以为2021年10月10日12点10分。该字段信息也可以是时间段字段，例如，时间段字段可以为2021年1月1日00点00分00秒至2021年12月30日24点60分60秒，时间段字段可以为2021年1月1日00点00分00秒至2021年1月30日24点60分60秒。

例如，该字段信息为关键词字段时，该关键词字段可以是银行卡号的前6位，例如，银行卡号的前6位为621700。该关键词字段也可以是完整的银行卡号，例如，银行卡号为621700XXXXXX。该关键词字段还可以是用户的姓名，例如，该关键词字段为“张三”。

在一些实施例中，子文件A₁可以为文本文件，则子文件A₁包含e行文本记录，每行文本记录的主键用于的标识该行文本记录。其中，每行文本记录的主键由一个或多个字段组成，多个字段可以连接成一个字符串。计算节点200-1根据子文件A₁的主键，将子文件A1分解成M组数据，其中，子文件A₁的主键用于的标识子文件A₁中的一条记录。

具体地，例如，如图5所示，子文件A₁包含10行文本记录，计算节点200-1可以通过计算子文件A₁中每个主键对应的哈希值，根据每个主键对应的哈希值，将子文件A₁划分为4组数据，A₁划分的4组数据可以表示为{m₁₁、m₁₂、m₁₃、m₁₄}。其中，数据m₁₁可以是2行文本记录，数据m₁₁中的每行文本记录的键值对应的哈希值相同；数据m₁₂可以包含2行文本记录，数据m₁₂中的每行文本记录的键值对应的哈希值相同；数据m₁₃可以包含2行文本记录，数据m₁₃中的每行文本记录的键值对应的哈希值相同；数据m₁₄可以包含4行文本记录，数据m₁₄中的每行文本记录的键值对应的哈希值相同。

例如，计算节点200-1也可以根据子文件A₁中的主键包含的字段信息，将子文件A₁划分为4组数据；其中，每组数据中的每行文本记录的主键包含相同的字段信息，例如，每组数据中的每行文本记录的主键可以包含相同的时间段，每组数据中的每行文本记录的主键可以包含相同的银行卡号，每组数据中的每行文本记录的主键还可以包含相同的用户姓名等。

由上述描述可知，相较于计算节点200-1先通过运行哈希算法计算子文件A₁中每个主键对应的哈希值，根据每条记录的主键对应的哈希值，将子文件A₁划分为M组数据；计算节点200-1直接根据每条记录的主键包含的字段信息将子文件A₁划分为M组数据，可以免除运行哈希算法，从而大大降低计算节点200-1分组数据的运算时间，提高文件比对效率。

可以理解的是，计算节点200-2、计算节点200-3以及计算节点200-4分别根据子文件A₂、子文件B₁、子文件B₂中的每条记录的主键，将子文件A₂、子文件B₁、子文件B₂分解成M组或N组数据的具体内容与计算节点200-1根据子文件A₁中的每条记录的主键，将子文件A₁分解成M组数据的内容相同，在此不做赘述。

S306：计算节点200-1根据每组数据长度以及插入排序法，对M组数据进行排序，获得排序后的M组数据。

例如，计算节点200-1可以先将子文件A₁中的部分文本记录划分成3组数据，分别为{m₁₁、m₁₂、m₁₃}，计算节点200-1根据每组数据的长度，对3组数据进行排序，获得3组数据的排序结果为{m₁₃、m₁₁、m₁₂}。当计算节点200-1划分出第4组数据m₁₄时，计算节点200-1可以通过插入排序法将m₁₄插入到前3组数据的排序结果中，则获得的排序后的4组数据可以为{m₁₃、m₁₁、m₁₄、m₁₂}。可以理解，计算节点200-1对子文件A₁进行分组排序处理，获得子文件A₁的分组排序结果即为{m₁₃、m₁₁、m₁₄、m₁₂}。

S307：管理节点100从计算节点200-1中获取子文件A₁的分组排序结果。

例如，管理节点100从计算节点200-1中获取子文件A₁的分组排序结果，即{m₃、m₁₁、m₁₄、m₁₂}。

上述步骤S303至步骤S307中，主要以计算节点200-1生成子文件A₁的分组排序结果进行说明，分布式系统10中的其他计算节点生成子文件的分组排序结果的过程与计算节点200-1生成子文件A₁的分组排序结果的过程相同，在此不做赘述。

S308：管理节点100基于每个计算节点生成的子文件的分组排序结果以及每个计算节点的计算性能，确定所要合并每个子文件的分组排序结果的计算节点。

在一些实施例中，管理节点100可以根据每个计算节点的计算性能，以及从每个计算节点中获取的子文件的分组排序结果，将合并每个子文件的分组排序结果的任务分配给有计算性能的一个或多个计算节点处理。

S309：管理节点100向计算节点100-1发送合并每个子文件的分组排序结果的通知。

在一些实施例中，管理节点100可以根据每个计算节点的计算性能，可以将合并每个子文件的分组排序结果的任务分配给有计算性能的一个或多个计算节点处理，并通知有计算性能的一个或多个计算节点处理合并多个子文件的分组排序结果。

例如，计算节点200-1具有处理合并多个子文件的分组排序结果的计算性能，管理节点100可以通知计算节点200-1合并子文件A₁、子文件A₂、子文件B₁以及子文件B₂的分组排序结果。在其他一些实施例中，例如，计算节点200-1和计算节点200-2具有处理合并多个子文件的分组排序结果的计算性能，管理节点100可以通知计算节点200-1合并子文件A₁和子文件A₂的分组排序结果，并且管理节点100可以通知计算节点200-2合并子文件B₁和子文件B₂的分组排序结果。下文以管理节点100可以通知计算节点200-1合并子文件A₁、子文件A₂、子文件B₁以及子文件B₂的分组排序结果为例，说明本申请的合并多个子文件的分组排序结果，生成待比对文件的分组数据的过程。

S310：计算节点200-1合并多个子文件的分组排序结果，生成待比对文件的分组数据。

在一些实施例中，计算节点200-1可以将每个子文件中序列号相同的数据进行合并，生成待比对文件的分组数据。

例如，计算节点200-1对子文件A₁进行分组，并对分组结果进行排序，获得排序后的4组数据{m₁₃、m₁₁、m₁₄、m₁₂}；计算节点200-2对子文件A₂进行分组，并对分组结果进行排序，获得排序后的4组数据{m₂₃、m₂₁、m₂₄、m₂₂}；计算节点200-3对子文件B₁进行分组，并对分组结果进行排序，获得排序后的4组数据{m₃₃、m₃₁、m₃₄、m₃₂}；计算节点200-4对子文件B₂进行分组，并对分组结果进行排序，获得排序后的4组数据{m₄₃、m₄₁、m₄₄、m₄₂}。

例如，管理节点100可以通知计算节点200-1合并每个计算节点生成每个子文件的处理结果，获得分组后的待比对文件。A文件的分组数据可以为{X₃、X₁、X₄、X₂}，其中，数据X₃为数据m₁₃与数据m₂₃的合并结果；数据X₁为数据m₁₁与数据m₂₁的合并结果；数据X₄为数据m₁₄与数据m₂₄的合并结果；数据X₂为数据m₁₂与数据m₂₂的合并结果。B文件的分组数据可以为{Y₃、Y₁、Y₄、Y₂}，其中，数据Y₃为数据m₃₃与数据m₃₃的合并结果；数据Y₁为数据m₃₁与数据m₄₁的合并结果；数据Y₄为数据m₃₄与数据m₄₄的合并结果；数据Y₂为数据m₃₂与数据m₄₂的合并结果。

可以理解，计算节点200-1通过对M组数据进行排序，获得排序后的M组数据，可以使得计算节点200-1对每个子文件中的数据进行合并时，可以对子文件中序列号相同的数据进行合并，提高数据合并效率，进而提高文件的比对效率。例如，数据m₁₃与数据m₂₃的序列号均为3，则将数据m₁₃与数据m₂₃进行合并，获得数据X₃。

S311：计算节点200-1对待比对文件中的数据进行比对，生成数据比对结果。

例如，计算节点200-1对文件A和文件B中的数据进行比对，获得数据的比对结果，管理节点100根据每组数据的比对结果，确定文件A和文件B的比对结果。

具体地，例如，计算节点200-1可以对数据X₃与数据Y₃进行比对，获得数据X₃与数据Y₃的比对结果。计算节点200-1可以对数据X₁与数据Y₁进行比对，获得数据X₁与数据Y₁的比对结果；计算节点200-1可以对数据X₃与数据Y₃进行比对，获得数据X₃与数据Y₃的比对结果；计算节点200-1可以对数据X₄与数据Y₄进行比对，获得数据X₄与数据Y₄的比对结果；数据X₂与数据Y₂进行比对，获得数据X₂与数据Y₂的比对结果。

S312：管理节点100从计算节点200-1获取生成的数据比对结果。

S313：管理节点100根据每组数据的比对结果，确定文件A和文件B的比对结果。

由图3的过程可知，本申请的文件比对过程可以应用于分布式系统20，分布式系统20包括管理节点100，n个计算节点200。通过将文件分组任务以及文件比对任务，分配给多个计算节点进行并行处理，减少文件比对所用的时间，从而提高文件的比对效率。

图6根据本申请的一些实施例，示出了一种文件对比装置600的结构框图。其中，图6描述的实施方式对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。如图6所示，具体地，包括：

获取模块601，获取待比对的第一文件、第二文件。

分组模块602，用于根据第一文件和第二文件中的每条记录的主键，分别将第一文件、第二文件分成至少两组数据，其中，每组数据包含至少一条记录，主键用于标识第一文件以及第二文件中的每条记录。

比对模块603，用于基于第一文件的至少两组数据以及第二文件的至少两组数据，将第一文件中的每组数据与第二文件中的每组数据进行比对，获得文件比对结果。

在一些实施例中，文件对比装置应用于分布式系统，分布式系统包括管理节点和多个计算节点。管理节点用于获取待比对的第一文件和第二文件，并且管理节点根据多个计算节点的计算性能，向至少一个计算节点发送分组指令，其中分组指令用于指令将第一文件、第二文件分成至少两组数据。管理节点用于获取待比对的第一文件和第二文件的分组结果，并且管理节点根据多个计算节点的计算性能，向至少一个计算节点发送比对指令，其中比对指令用于指令将第一文件中的每组数据与第二文件中的每组数据进行比对，获得文件比对结果。

在一些实施例中，文件对比装置还包括：根据第一文件和第二文件中的每条记录的主键，分别将第一文件、第二文件分成至少两组数据，其中，每组数据包含至少一条记录，主键用于标识第一文件以及第二文件中的每条记录包括：主键包括字段信息；根据第一文件和第二文件中的每条记录的主键包含的字段信息，分别将第一文件、第二文件分成至少两组数据，其中，一组数据中的每条记录的主键包含的字段信息相同。

在一些实施例中，文件对比装置还包括：字段信息包括以下至少一个：时间字段、关键词字段。字段信息包括以下至少一个：时间字段、关键词字段。

在一些实施例中，文件对比装置还包括：根据第一文件和第二文件中的每条记录的主键，分别将第一文件、第二文件分成至少两组数据，其中，每组数据包含至少一条记录，主键用于标识第一文件以及第二文件中的每条记录包括：通过哈希算法计算第一文件和第二文件中的每条记录的主键对应的哈希值；根据第一文件和第二文件中的每条记录的主键对应的哈希值，分别将第一文件、第二文件分成至少两组数据，其中，一组数据中的每条记录的主键对应的哈希值相同。

在一些实施例中，文件对比装置还包括：基于第一文件的至少两组数据以及第二文件的至少两组数据，将第一文件中的每组数据与第二文件中的每组数据进行一一比对，获得文件比对结果包括：根据第一文件的每组数据的长度，对第一文件中的至少两组数据进行排序，获得排序后的第一文件的至少两组数据，以及根据第二文件的每组数据的长度，对第二文件中的至少两组数据进行排序，获得排序后的第二文件的至少两组数据；将排序后的第一文件的至少两组数据中的每组数据与排序后的第二文件的至少两组数据中的每组数据进行一一比对，获得文件比对结果。

在一些实施例中，文件对比装置还包括：第一文件和第二文件的文件类型包括以下至少一种：文本文件，表文件。

可以理解，图6所示的文件对比装置600与本申请提供的文件对比方法相对应，以上关于本申请提供的文件对比方法的具体描述中的技术细节依然适用于图6所示的文件对比装置600，具体描述请参见上文，在此不再赘述。

图7所示为根据本申请的一些实施例的分布式系统10的框图。图7示意性地示出了根据多个实施例的示例分布式系统10。在一些实施例中，分布式系统10可以包括一个或多个处理器1004，与处理器1004中的至少一个连接的系统控制逻辑1008，与系统控制逻辑1008连接的系统内存1012，与系统控制逻辑1008连接的非易失性存储器(NVM)1016，以及与系统控制逻辑1008连接的网络接口1020。

在一些实施例中，处理器1004可以包括一个或多个单核或多核处理器。在一些实施例中，处理器1004可以包括通用处理器和专用处理器(例如，图形处理器，应用处理器，基带处理器等)的任意组合。

在一些实施例中，系统控制逻辑1008可以包括任意合适的接口控制器，以向处理器1004中的至少一个和/或与系统控制逻辑1008通信的任意合适的设备或组件提供任意合适的接口。

在一些实施例中，系统控制逻辑1008可以包括一个或多个存储器控制器，以提供连接到系统内存1012的接口。系统内存1012可以用于加载以及存储数据和/或指令。在一些实施例中分布式系统10的内存1012可以包括任意合适的易失性存储器，例如合适的动态随机存取存储器(DRAM)。

NVM1016可以包括用于存储数据和/或指令的一个或多个有形的、非暂时性的计算机可读介质。在一些实施例中，NVM1016可以包括闪存等任意合适的非易失性存储器和/或任意合适的非易失性存储设备，例如HDD(Hard Disk Drive，硬盘驱动器)，CD(CompactDisc，光盘)驱动器，DVD(Digital Versatile Disc，数字通用光盘)驱动器中的至少一个。

NVM1016可以包括安装分布式系统10的装置上的一部分存储资源，或者它可以由设备访问，但不一定是设备的一部分。例如，可以经由网络接口1020通过网络访问NVM/存储1016。

特别地，系统内存1012和NVM1016可以分别包括：指令1024的暂时副本和永久副本。指令1024可以包括：由处理器1004中的至少一个执行时导致分布式系统10实施如图2至图3所示的方法的指令。在一些实施例中，指令1024、硬件、固件和/或其软件组件可另外地/替代地置于系统控制逻辑1008，网络接口1020和/或处理器1004中。

网络接口1020可以包括收发器，用于为分布式系统10提供无线电接口，进而通过一个或多个网络与任意其他合适的设备(如前端模块，天线等)进行通信。在一些实施例中，网络接口1020可以集成于分布式系统10的其他组件。例如，网络接口1020可以集成于处理器1004，系统内存1012，NVM1016，和具有指令的固件设备(未示出)中的至少一种，当处理器1004中的至少一个执行所述指令时，分布式系统10实现如图2或图3所示的方法。

网络接口1020可以进一步包括任意合适的硬件和/或固件，以提供多输入多输出无线电接口。例如，网络接口1020可以是网络适配器，无线网络适配器，电话调制解调器和/或无线调制解调器。

在一个实施例中，处理器1004中的至少一个可以与用于系统控制逻辑1008的一个或多个控制器的逻辑封装在一起，以形成系统封装(SiP)。在一个实施例中，处理器1004中的至少一个可以与用于系统控制逻辑1008的一个或多个控制器的逻辑集成在同一管芯上，以形成片上系统(SoC)。

分布式系统10可以进一步包括：输入/输出(I/0)设备1032。I/0设备1032可以包括用户界面，使得用户能够与分布式系统10进行交互；外围组件接口的设计使得外围组件也能够与分布式系统10交互。在一些实施例中，分布式系统10还包括传感器，用于确定与分布式系统10相关的环境条件和地理位置信息的至少一种。

根据本申请的实施例，图8示出了一种SoC(System on Chip，片上系统)1100的框图。在图8中，相似的部件具有同样的附图标记。另外，虚线框是更先进的SoC的可选特征。在图8中，SoC 1100包括：互连单元1150，其被耦合至应用处理器1110；系统代理单元1170；总线控制器单元1180；集成存储器控制器单元1140；一组或一个或多个协处理器1120，其可包括集成图形逻辑、图像处理器、音频处理器和文件对比器；静态随机存取存储器(SRAM)单元1130；直接存储器存取(DMA)单元1160。在一个实施例中，协处理器1120包括专用处理器，诸如例如网络或通信处理器、压缩引擎、GPU、高吞吐量MIC处理器、或嵌入式处理器等等。

本申请公开的机制的各实施例可以被实现在硬件、软件、固件或这些实现方法的组合中。本申请的实施例可实现为在可编程系统上执行的计算机程序或程序代码，该可编程系统包括至少一个处理器、存储系统(包括易失性和非易失性存储器和/或存储元件)、至少一个输入设备以及至少一个输出设备。

可将程序代码应用于输入指令，以执行本申请描述的各功能并生成输出信息。可以按已知方式将输出信息应用于一个或多个输出设备。为了本申请的目的，处理系统包括具有诸如例如数字信号处理器(DSP)、微控制器、专用集成电路(ASIC)或微处理器之类的处理器的任何系统。

程序代码可以用高级程序化语言或面向对象的编程语言来实现，以便与处理系统通信。在需要时，也可用汇编语言或机器语言来实现程序代码。事实上，本申请中描述的机制不限于任何特定编程语言的范围。在任一情形下，该语言可以是编译语言或解释语言。

在一些情况下，所公开的实施例可以以硬件、固件、软件或其任何组合来实现。所公开的实施例还可以被实现为由一个或多个暂时或非暂时性机器可读(例如，计算机可读)存储介质承载或存储在其上的指令，其可以由一个或多个处理器读取和执行。例如，指令可以通过网络或通过其他计算机可读介质分发。因此，机器可读介质可以包括用于以机器(例如，计算机)可读的形式存储或传输信息的任何机制，包括但不限于，软盘、光盘、光碟、只读存储器(CD-ROMs)、磁光盘、只读存储器(ROM)、随机存取存储器(RAM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、磁卡或光卡、闪存、或用于利用因特网以电、光、声或其他形式的传播信号来传输信息，例如，载波、红外信号数字信号等)的有形的机器可读存储器。因此，机器可读介质包括适合于以机器(例如，计算机)可读的形式存储或传输电子指令或信息的任何类型的机器可读介质。

在附图中，可以以特定布置和/或顺序示出一些结构或方法特征。然而，应该理解，可能不需要这样的特定布置和/或排序。而是，在一些实施例中，这些特征可以以不同于说明性附图中所示的方式和/或顺序来布置。另外，在特定图中包括结构或方法特征并不意味着暗示在所有实施例中都需要这样的特征，并且在一些实施例中，可以不包括这些特征或者可以与其他特征组合。

需要说明的是，本申请各设备实施例中提到的各单元/模块都是逻辑单元/模块，在物理上，一个逻辑单元/模块可以是一个物理单元/模块，也可以是一个物理单元/模块的一部分，还可以以多个物理单元/模块的组合实现，这些逻辑单元/模块本身的物理实现方式并不是最重要的，这些逻辑单元/模块所实现的功能的组合才是解决本申请所提出的技术问题的关键。此外，为了突出本申请的创新部分，本申请上述各设备实施例并没有将与解决本申请所提出的技术问题关系不太密切的单元/模块引入，这并不表明上述设备实施例并不存在其它的单元/模块。

需要说明的是，在本专利的示例和说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

虽然通过参照本申请的某些优选实施例，已经对本申请进行了图示和描述，但本领域的普通技术人员应该明白，可以在形式上和细节上对其作各种改变，而不偏离本申请的精神和范围。

Claims

1.一种文件比对方法，其特征在于，所述方法包括：

获取待比对的第一文件和第二文件；

根据所述第一文件和所述第二文件中的每条记录的主键，分别将所述第一文件、所述第二文件分成至少两组数据，其中，每组数据包含至少一条记录，所述主键用于标识所述第一文件以及所述第二文件中的每条记录；

基于所述第一文件的至少两组数据以及所述第二文件的至少两组数据，将所述第一文件中的每组数据与所述第二文件中的每组数据进行比对，获得文件比对结果。

2.根据权利要求1所述的方法，其特征在于，所述方法应用于分布式系统，所述分布式系统包括管理节点和多个计算节点。

3.根据权利要求2所述的方法，其特征在于，所述管理节点用于获取待比对的第一文件和第二文件，并且所述方法还包括：

所述管理节点根据所述多个计算节点的计算性能，向至少一个所述计算节点发送分组指令，其中所述分组指令用于指令将所述第一文件、所述第二文件分成至少两组数据。

4.根据权利要求2所述的方法，其特征在于，所述管理节点用于获取所述待比对的第一文件和第二文件的分组结果，并且所述方法还包括：

所述管理节点根据所述多个计算节点的计算性能，向至少一个所述计算节点发送比对指令，其中所述比对指令用于指令将所述第一文件中的每组数据与所述第二文件中的每组数据进行比对，获得文件比对结果。

5.根据权利要求1所述的方法，其特征在于，根据所述第一文件和所述第二文件中的每条记录的主键，分别将所述第一文件、所述第二文件分成至少两组数据，其中，每组数据包含至少一条记录，所述主键用于标识所述第一文件以及所述第二文件中的每条记录包括：

所述主键包括字段信息；

根据所述第一文件和所述第二文件中的每条记录的主键包含的字段信息，分别将所述第一文件、所述第二文件分成至少两组数据，其中，一组数据中的每条记录的主键包含的字段信息相同。

6.根据权利要求5所述的方法，其特征在于，所述字段信息包括以下至少一个：时间字段、关键词字段。

7.根据权利要求1所述的方法，其特征在于，根据所述第一文件和所述第二文件中的每条记录的主键，分别将所述第一文件、所述第二文件分成至少两组数据，其中，每组数据包含至少一条记录，所述主键用于标识所述第一文件以及所述第二文件中的每条记录包括：

通过哈希算法计算所述第一文件和所述第二文件中的每条记录的所述主键对应的哈希值；

根据所述第一文件和所述第二文件中的每条记录的所述主键对应的哈希值，分别将所述第一文件、所述第二文件分成至少两组数据，其中，一组数据中的每条记录的主键对应的哈希值相同。

8.根据权利要求1所述的方法，其特征在于，基于所述第一文件的至少两组数据以及所述第二文件的至少两组数据，将所述第一文件中的每组数据与所述第二文件中的每组数据进行一一比对，获得文件比对结果包括：

根据所述第一文件的每组数据的长度，对所述第一文件中的至少两组数据进行排序，获得排序后的第一文件的至少两组数据，以及根据所述第二文件的每组数据的长度，对所述第二文件中的至少两组数据进行排序，获得排序后的第二文件的至少两组数据；

将所述排序后的第一文件的至少两组数据中的每组数据与所述排序后的第二文件的至少两组数据中的每组数据进行一一比对，获得文件比对结果。

9.根据权利要求1所述的方法，其特征在于，所述第一文件和所述第二文件的文件类型包括以下至少一种：文本文件，表文件。

10.一种文件比对装置，其特征在于，所述装置包括：

获取模块，用于获取待比对的第一文件、第二文件；

分组模块，用于根据所述第一文件和所述第二文件中的每条记录的主键，分别将所述第一文件、所述第二文件分成至少两组数据，其中，每组数据包含至少一条记录，所述主键用于标识所述第一文件以及所述第二文件中的每条记录；

比对模块，用于基于所述第一文件的至少两组数据以及所述第二文件的至少两组数据，将所述第一文件中的每组数据与所述第二文件中的每组数据进行比对，获得文件比对结果。

11.一种可读介质，其特征在于，所述可读介质上存储有指令，该指令在分布式系统上执行时使分布式系统执行权利要求1至9中任一项所述的文件比对方法。

12.一种分布式系统，包括：

存储器，用于存储由分布式系统的一个或多个处理器执行的指令，以及处理器，是分布式系统的处理器之一，用于执行权利要求1至9中任一项所述的文件比对方法。

13.一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现权利要求1至9中任一项所述的文件比对方法。