CN109241500A

CN109241500A - 文件批量比对方法、装置、计算机设备和存储介质

Info

Publication number: CN109241500A
Application number: CN201810923581.4A
Authority: CN
Inventors: 羊桂斌
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2018-08-14
Filing date: 2018-08-14
Publication date: 2019-01-18
Anticipated expiration: 2038-08-14
Also published as: CN109241500B

Abstract

本申请涉及一种基于数据资源的文件批量比对方法、装置、计算机设备和存储介质。该方法包括：分别根据第一模板及第一日志、第二模板及第二日志批量生成多个第一文件、第二文件，并对多个第一文件、第二文件进行批量比对得到多种差异数据，根据差异数据分别为多个第一文件、第二文件添加差异标签，根据差异标签分别在第一文件及第二文件中提取对应的第一目标文件、第二目标文件，根据第一目标文件和第二目标文件获得异常数据列表，根据异常数据列表，对业务系统内的多个数据执行筛选操作，获得多个异常数据，对异常数据进行数据处理，获得符合预设规则的数据。可实现多个异常数据的批量比对，有效减少人工比对，提高工作效率。

Description

文件批量比对方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种文件批量比对方法、装置、计算机设备和存储介质。

背景技术

在保险业务场景下，可根据日主文件和文件模板生成多个文件，可通过生成的多个文件获取保险业务相关数据，而当修改其中某个生成文件的模板或者日志文件出现更新时，会导致根据更新后的日志文件或文件模板新生成的文件与原有文件之间存在大量差异数据，且由于保险业务中有多种不同类型的文件，以及多个文件模板和大量的日志文件，其中所包括的文件或文件模板、日志文件等出现变动时，对于保险业务相关的业务数据会带来数据异常等问题，因此需要对大量的文件的更新前后版本进行比对，以获得其中的差异数据，并对差异数据进行进一步地处理。

由于传统方案是通过人工对一个个更新前后的不同文件进行比对，由于保险业务中涉及的文件数量庞大，具有的差异数据增多，因此需要消耗大量的人力资源，导致工作效率低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够有效减少人工比对，提高工作效率的文件批量比对方法、装置、计算机设备和存储介质。

一种文件批量比对方法，所述方法包括：

从数据库中获取第一模版以及第一日志；获取第二模版以及第二日志；

根据所述第一模版以及第一日志批量生成多个第一文件；

根据所述第二模版以及第二日志批量生成多个第二文件；

对所述多个第一文件以及所述多个第二文件进行批量比对，得到多种差异数据；

分别获取所述差异数据与所述多个第一文件、多个第二文件之间的对应关系，并根据所述对应关系分别为多个第一文件以及多个第二文件添加差异标签；

根据所述差异标签在所述第一文件中提取对应的第一目标文件；

根据所述差异标签在所述第二文件中提取对应的第二目标文件；根据所述第一目标文件和所述第二目标文件获得异常数据列表；

根据所述异常数据列表，对业务系统内的多个数据执行筛选操作，获得多个异常数据，并对所述异常数据进行数据处理，获得符合预设规则的数据。

在其中一个实施例中，所述对所述多个第一文件以及所述多个第二文件进行批量比对，得到多种差异数据包括：

建立第一文件与第一文件夹间的对应关系，将多个第一文件分别存入对应的第一文件夹；

建立第一文件与第一文件夹间的对应关系，并将多个第二文件分别存入对应的第二文件夹；

分别对多个所述第一文件夹与多个所述第二文件夹执行一一比对操作，分别得到与多个第一文件夹、多个第二文件夹对应的多种差异数据。

在其中一个实施例中，在所述根据所述差异数据分别为多个第一文件以及多个第二文件添加差异标签之前，还包括：

获取差异数据的多项属性；

根据差异数据的多项属性，对所述差异数据进行分类，得到所述差异数据对应的差异类别；

根据所述差异类别生成对应的差异标签。

在其中一个实施例中，所述根据所述差异数据分别为多个第一文件以及多个第二文件添加差异标签包括：

获取所述差异数据对应的差异类别，以及与所述差异类别对应的差异标签；

将所述差异数据作为决策树进行数据处理的数据集，将所述差异类别作为决策树的分支，根据所述数据集和所述分支生成决策树；

利用所述决策树生成节点结果，分别建立所述节点结果和所述多个第一文件、多个第二文件的对应关系，并根据所述对应关系分别为多个第一文件以及多个第二文件添加差异标签。

在其中一个实施例中，所述根据所述差异数据在所述第一文件中提取对应的第一目标文件包括：

当第一文件的差异标签数量达到阈值时，将携带所述差异标签的第一文件标记为第一目标文件；

提取所述第一目标文件。

一种文件批量比对装置，所述装置包括：

第一获取模块，用于从数据库中获取第一模版以及第一日志；获取第二模版以及第二日志；

文件生成模块，用于根据所述第一模版以及第一日志批量生成多个第一文件；根据所述第二模版以及第二日志批量生成多个第二文件；

差异数据获取模块，用于对所述多个第一文件以及所述多个第二文件进行批量比对，得到多种差异数据；

差异标签添加模块，用于分别获取所述差异数据与所述多个第一文件、多个第二文件之间的对应关系，并根据所述差异数据分别为多个第一文件以及多个第二文件添加差异标签；

目标文件生成模块，用于根据所述差异标签在所述第一文件中提取对应的第一目标文件；根据所述差异标签在所述第二文件中提取对应的第二目标文件；

异常数据列表获取模块，用于根据所述第一目标文件和所述第二目标文件获得异常数据列表；

数据处理模块，用于根据所述异常数据列表，对业务系统内的多个数据执行筛选操作，获得多个异常数据，并对所述异常数据进行数据处理，获得符合预设规则的数据。

在其中一个实施例中，所述差异数据获取模块还用于建立第一文件与第一文件夹间的对应关系，将多个第一文件分别存入对应的第一文件夹；建立第一文件与第一文件夹间的对应关系，并将多个第二文件分别存入对应的第二文件夹；分别对所述多个第一文件夹与所述多个第二文件夹执行一一比对，分别得到与多个第一文件夹、多个第二文件夹对应的多种差异数据。

在其中一个实施例中，所述装置还包括差异标签生成模块，用于获取差异数据的多项属性；根据差异数据的多项属性，对所述差异数据进行分类，得到所述差异数据对应的差异类别；根据所述差异类别生成对应的差异标签。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

根据所述第一模版以及第一日志批量生成多个第一文件；

根据所述第二模版以及第二日志批量生成多个第二文件；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

根据所述第一模版以及第一日志批量生成多个第一文件；

根据所述第二模版以及第二日志批量生成多个第二文件；

上述文件批量比对方法、装置、计算机设备和存储介质，服务器分别根据第一模板及第一日志、第二模板及第二日志批量生成多个第一文件、第二文件，并对多个第一文件和多个第二文件进行批量比对得到多种差异数据，根据差异数据分别为多个第一文件及多个第二文件添加差异标签，根据差异标签分别在第一文件及第二文件中提取对应的第一目标文件、第二目标文件，根据第一目标文件和第二目标文件获得异常数据列表，根据异常数据列表，对业务系统内的多个数据执行筛选操作，获得多个异常数据，并对异常数据进行数据处理，获得符合预设规则的数据。可通过服务器实现对多个文件的差异比对，获得比对结果，并根据比对结果提取对应的异常数据列表，根据异常数据列表可实现对业务系统内的多个异常数据进行批量比对，有效减少人工比对，提高工作效率。

附图说明

图1为一个实施例中文件批量比对方法的应用场景图；

图2为一个实施例中文件批量比对方法的流程示意图；

图3为另一个实施例中文件批量比对方法的流程示意图；

图4为一个实施例中文件批量比对装置的结构框图；

图5为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的文件批量比对方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104通过网络进行通信。服务器104从终端102中获取第一模板及第一日志，根据第一模板和第一日志批量生成多个第一文件，获取第二模板和第二日志，根据第二目标和第二日志生成多个第二文件；服务器104对多个第一文件、第二文件进行批量比对，得到多种差异数据，根据差异数据分别为多个第一文件和第二文件添加差异标签，根据差异标签分别在第一文件、第二文件中提取对应的第一目标文件、第二目标文件，根据第一目标文件和第二目标文件获得异常数据列表；对终端102内的多个数据执行筛选操作，获得多个异常数据，并对异常数据进行数据处理，获得符合预设规则的数据。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种文件批量比对方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

S202，服务器从数据库中获取第一模版以及第一日志；获取第二模版以及第二日志。

具体地，服务器可从终端数据库中获取第一模板、第一日志，以及第二模板、第二日至。服务器获取的第一模板为更新前的文件模板，所获取的第一日志为更新前的日志文件。服务器获取的第二模板为更新后的文件模板，所获取的第二日志为更新后的日志文件。

S204，服务器利用第一模版以及第一日志批量生成多个第一文件；利用第二模版以及第二日志批量生成多个第二文件。

具体地，第一文件为更新前的文件，第二文件为更新后的文件，服务器根据第一模板和第一日志，也就是更新前的文件模板和日志文件，批量生成多个第一文件，即更新前的文件。服务器根据第二模板和第二日志，也就是更新后的文件模板和日志文件，批量生成多个第二文件，即更新后的文件。

S206，服务器对多个第一文件以及多个第二文件进行批量比对，得到多种差异数据。

其中，服务器将生成的多个第一文件，即更新前的文件存入新建的第一文件夹，将生成的多个第二文件，即更新后的文件存入新建的第二天文件夹中。

具体地，服务器预先设立新建的多个第一文件夹和多个第一文件间的对应关系，预先设立新建的多个第一文件夹和多个第一文件之间的对应关系，比如，第一文件夹可以是A1、A2、A3…An，第一文件夹A1下的第一文件为a1，以此类推，第一文件夹A2下的第一文件为a2，第一文件夹An下的第一文件为an。同样的，第二文件夹可以是B1、B2、B3…Bn，第二文件夹B1下的第一文件为b1，第二文件夹B2下的第二文件为b2，第二文件夹Bn下的第二文件为bn。

进一步地，服务器建立多个第一文件和多个第二文件之间的对应关系，有第一文件a1与第二文件b1对应，第一文件a2与第二文件b2对应，第一文件an与文件bn对应。

在本实施例中，第一文件夹A1与第二文件夹B1对应，第一文件a1与第二文件b2对应，也就是说，服务器将多个第一文件夹和多个第二文件夹进行比对，得到第一文件夹和第二文件夹之间的差异数据，同时可根据多个第一文件与多个第二文件间的对应关系，根据所获得的多个第一文件夹以及多个第二文件夹间的差异数据，进而获得多个第一文件和第二文件之间的多种差异数据。

S208，服务器分别获取差异数据与多个第一文件、多个第二文件之间的对应关系，并根据对应关系分别为多个第一文件以及多个第二文件添加差异标签。

其中，差异数据包括多项属性，具体包括数据类型、差异类别以及文件所处位置，数据类型包括数字型、字符型、字节型以及文本型，差异类别为用于对差异数据进行，同时可根据差异类别生成与之对应的差异标签。

具体地，服务器根据生成的多种差异数据，获取差异的多个属性，根据多个属性中的差异类别，生成与之对应的差异标签，并分别为多个第一文件和多个第二文件添加差异标签。

S210，服务器根据差异标签在第一文件中提取对应的第一目标文件；根据差异标签在第二文件中提取对应的第二目标文件。

具体地，服务器获取多个第一文件所包括的差异标签的数量，统计不同第一文件中差异标签的数量，并根据差异标签的数量的大小，将对应的第一文件进行排序，获取差异标签数量最大的第一文件，并将此第一文件标记为第一目标文件，将第一目标文件提取出来。

服务器获取多个第二文件所包括的差异标签的数量，统计不同第二文件中差异标签的数量，并根据差异标签的数量的大小，将对应的第二文件进行排序，获取差异标签数量最大的第二文件，并将此第二文件标记为第二目标文件，将第二目标文件提取出来。

S212，服务器根据第一目标文件和第二目标文件获得异常数据列表。

具体地，第一目标文件为更新前的目标文件，第二目标文件为更新后的目标文件。服务器获取的第一目标文件，即更新前的目标文件，以及第二目标文件，即更新后的目标文件，并对第一目标文件和第二目标文件进行比对，获得异常数据列表。

S214，服务器根据异常数据列表，对业务系统内的多个数据执行筛选操作，获得多个异常数据，并对异常数据进行数据处理，获得符合预设规则的数据。

具体地，异常数据列表内包括第一目标文件和第二目标文件进行比对得到的差异数据，由于更新前后的目标文件之间存在的差异数据会影响业务数据，因此服务器需要从业务系统内筛选获取更新前后的目标文件之间存在的差异数据，并将这些差异数据作为异常数据处理，并所获得的多个异常数据可进行数据处理，获得符合预设规则的数据。其中，符合预设规则的数据即为通过数据处理后，将第一目标文件和第二目标文件中的异常数据，根据业务规则进行调整或删除后，获得的正常数据。

上述文件批量比对方法了，服务器分别根据第一模板及第一日志、第二模板及第二日志批量生成多个第一文件、第二文件，并对多个第一文件和多个第二文件进行批量比对得到多种差异数据，根据差异数据分别为多个第一文件及多个第二文件添加差异标签，根据差异标签分别在第一文件及第二文件中提取对应的第一目标文件、第二目标文件，根据第一目标文件和第二目标文件获得异常数据列表；根据异常数据列表，对业务系统内的多个数据执行筛选操作，获得多个异常数据，并对异常数据进行数据处理，获得符合预设规则的数据。可通过服务器实现对多个文件的差异比对，获得比对结果，并根据比对结果提取对应的异常数据列表，根据异常数据列表可实现对业务系统内的多个异常数据进行批量比对，有效减少人工比对，提高工作效率。

在一个实施例中，如图3所示，提供了一种文件批量比对方法，在根据差异数据分别为多个第一文件以及多个第二文件添加差异标签之前，该方法还包括：

S302，服务器获取差异数据的多项属性。

S304，服务器根据差异数据的多项属性，对差异数据进行分类，得到差异数据对应的差异类别。

S306，服务器根据差异类别生成对应的差异标签。

上述步骤，根据差异数据的其中一个属性，即差异类别，将差异数据进行分类，并根据差异类别生成差异标签，差异标签可分别添加至不同第一文件、第二文件中，用于体现不同文件的差异数据，可加快差异数据获取速度。

在一个实施例中，提供了一种对多个第一文件以及多个第二文件进行批量比对，得到多种差异数据的步骤，包括：

服务器建立第一文件与第一文件夹间的对应关系，并将多个第一文件分别存入对应的第一文件夹，建立第一文件与第一文件夹间的对应关系，并将多个第二文件分别存入对应的第二文件夹，分别对多个第一文件夹与多个第二文件夹执行一一比对操作，分别得到与多个第一文件夹、多个第二文件夹对应的多种差异数据。

服务器将生成的多个第一文件，即更新前的文件存入新建的第一文件夹，将生成的多个第二文件，即更新后的文件存入新建的第二天文件夹中。

进一步地，服务器建立多个第一文件和多个第二文件之间的对应关系，有第一文件a1与第二文件b1对应，第一文件a2与第二文件b2对应，第一文件an与第二文件bn对应。

上述步骤，通过设立多个第一文件夹和多个第二文件夹，用于存放多个第一文件、第二文件，并采用文件夹比对方式，可实现多个文件的快速比对，减少人工操作，提高了工作效率。

在一个实施例中，提供了一种根据差异数据分别为多个第一文件以及多个第二文件添加差异标签的步骤，包括：

服务器获取差异数据对应的差异类别，以及与差异类别对应的差异标签；将差异数据作为决策树进行数据处理的数据集，将差异类别作为决策树的分支，根据数据集和所述分支生成决策树；利用决策树生成节点结果，分别建立所述节点结果和所述多个第一文件、多个第二文件的对应关系，根据对应关系分别为多个第一文件以及多个第二文件添加差异标签。

其中，决策树算法是一种逼近离散函数值的方法，首先对数据进行处理，利用归纳算法生成可读的规则和决策树，然后使用决策对新数据进行分析，本质上决策树是通过一系列规则对数据进行分类的过程。描述简单，当数据量较大时仍能够快速的将数据进行分类。

决策树构造可以分两步进行，第一步，决策树的生成：由训练样本集生成决策树的过程，训练样本数据集用于数据分析处理的数据集。第二步，决策树的剪枝：决策树的剪枝是对上一阶段生成的决策树进行检验、校正和修下的过程，主要样本数据集或测试数据集中的数据校验决策树生成过程中产生的初步规则，将那些影响预衡准确性的分枝剪除。

具体地，服务器将获取的差异数据作为决策树进行数据处理的数据集，将差异类别作为决策树的分支，利用差异数据和差异类别生成节点结果，也就是添加差异标签的结果，包括将差异标签添加至不同的第一文件和不同第二文件中。

上述步骤，利用差异数据和差异项组成决策树，并根据决策树的节点结果，将差异标签添加至不同的第一文件和不同第二文件中，可将多个标签添加至相同或不同的第一文件、第二文件中，减少人工进行差异标签添加的操作。

在一个实施例中，提供了一种根据差异数据在第一文件中提取对应的第一目标文件的步骤，包括：当第一文件的差异标签数量达到阈值时，将携带差异标签的第一文件标记为第一目标文件；提取第一目标文件。

还提供了一种根据差异数据在第二文件中提取对应的第二目标文件的步骤，包括：服务器根据差异数据分别为多个第二文件添加差异标签；当第二文件的差异标签数量达到阈值时，将携带差异标签的第二文件标记为第二目标文件；提取第二目标文件。

上述步骤，服务器通过计算多个第一文件所包括的差异标签的数量，以及计算第二文件中包括的差异标签的数量，并将获取差异标签数量最大的第一文件、第二文件，并分别将此第一文件、第二文件标记为第一目标文件、第二目标文件，将第一目标文件以及第二目标文件提取出来，可将提取出来的第一目标文件或第二目标文件作为携带最多差异标签的代表性文件，减少执行文件比对操作的次数，节约计算机资源，提高效率。

应该理解的是，虽然图2-3的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-3中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图4所示，提供了一种文件批量比对装置，包括：第一获取模块402、文件生成模块404、差异数据获取模块406、差异标签添加模块408、目标文件生成模块410、异常数据列表获取模块412和数据处理模块414，其中：

第一获取模块402，用于从数据库中获取第一模版以及第一日志；获取第二模版以及第二日志。

具体地，服务器获取的第一模板为更新前的文件模板，所获取的第一日志为更新前的日志文件。服务器获取的第二模板为更新后的文件模板，所获取的第二日志为更新后的日志文件。

文件生成模块404，用于利用第一模版以及第一日志批量生成多个第一文件；利用第二模版以及第二日志批量生成多个第二文件。

差异数据获取模块406，用于对多个第一文件以及多个第二文件进行批量比对，到多种差异数据。

具体地，服务器将生成的多个第一文件，即更新前的文件存入新建的第一文件夹，将生成的多个第二文件，即更新后的文件存入新建的第二天文件夹中，价格第一文件夹和第二文件夹进行比对，得到第一文件夹和第二文件夹之间的差异数据，即获得多个第一文件和第二文件之间的多种差异数据。

其中，服务器预先设立新建的多个第一文件夹和多个第一文件间的对应关系，预先设立新建的多个第一文件夹和多个第一文件之间的对应关系，比如，第一文件夹可以是A1、A2、A3…An，第一文件夹A1下的第一文件为a1，以此类推，第一文件夹A2下的第一文件为a2，第一文件夹An下的第一文件为an。同样的，第二文件夹可以是B1、B2、B3…Bn，第二文件夹B1下的第一文件为b1，第二文件夹B2下的第二文件为b2，第二文件夹Bn下的第二文件为bn。

差异标签添加模块408，服务器分别获取差异数据与多个第一文件、多个第二文件之间的对应关系，并根据对应关系分别为多个第一文件以及多个第二文件添加差异标签。

目标文件生成模块410，用于根据差异标签在第一文件中提取对应的第一目标文件；根据差异标签在第二文件中提取对应的第二目标文件。

异常数据列表获取模块412，用于根据第一目标文件和第二目标文件获得异常数据列表。

数据处理模块414，用于根据异常数据列表，对业务系统内的多个数据执行筛选操作，获得多个异常数据，并对异常数据进行数据处理，获得符合预设规则的数据。

上述文件批量比对装置，服务器分别根据第一模板及第一日志、第二模板及第二日志批量生成多个第一文件、第二文件，并对多个第一文件和多个第二文件进行批量比对得到多种差异数据，根据差异数据分别为多个第一文件及多个第二文件添加差异标签，根据差异标签分别在第一文件及第二文件中提取对应的第一目标文件、第二目标文件，根据第一目标文件和第二目标文件获得异常数据列表，根据异常数据列表，对业务系统内的多个数据执行筛选操作，获得多个异常数据，并对异常数据进行数据处理，获得符合预设规则的数据。可通过服务器实现对多个文件的差异比对，获得比对结果，并根据比对结果提取对应的异常数据列表，根据异常数据列表可实现对业务系统内的多个异常数据进行批量比对，有效减少人工比对，提高工作效率。

在一个实施例中，提供了一种差异数据获取模块，该差异数据获取模块还用于，将多个第一文件存入对应的第一文件夹，将多个第二文件存入对应的第二文件夹，对第一文件夹与第二文件夹进行比对，得到多种差异数据。

具体地，服务器建立第一文件与第一文件夹间的对应关系，并将多个第一文件分别存入对应的第一文件夹，建立第一文件与第一文件夹间的对应关系，并将多个第二文件分别存入对应的第二文件夹，分别对多个第一文件夹与多个第二文件夹执行一一比对操作，分别得到与多个第一文件夹、多个第二文件夹对应的多种差异数据。

上述差异数据获取模块，通过设立多个第一文件夹和多个第二文件夹，用于存放多个第一文件、第二文件，并采用文件夹比对方式，可实现多个文件的快速比对，减少人工操作，提高了工作效率。

在一个实施例中，提供了一种文件批量比对装置，该装置还包括：差异标签生成模块，用于获取差异数据的多项属性；根据差异数据的多项属性，对所述差异数据进行分类，得到所述差异数据对应的差异类别；根据所述差异类别生成对应的差异标签。

上述差异标签生成模块，根据差异数据的其中一个属性，即差异类别，将差异数据进行分类，并根据差异类别生成差异标签，差异标签可分别添加至不同第一文件、第二文件中，用于体现不同文件的差异数据，可加快差异数据获取速度。

在一个实施例中，提供了一种差异标签添加模块，该差异标签添加模块还用于，获取差异数据对应的差异类别，以及与差异类别对应的差异标签；将差异数据作为决策树进行数据处理的数据集，将差异类别作为决策树的分支，根据数据集和所述分支生成决策树；利用决策树生成节点结果，分别建立节点结果和多个第一文件、多个第二文件的对应关系，并根据对应关系分别为多个第一文件以及多个第二文件添加差异标签。

上述差异标签添加模块，，利用差异数据和差异项组成决策树，并根据决策树的节点结果，将差异标签添加至不同的第一文件和不同第二文件中，可将多个标签添加至相同或不同的第一文件、第二文件中，减少人工进行差异标签添加的操作。

在一个实施例中，提供了一种目标文件生成模块，还用于当第一文件的差异标签数量达到阈值时，将携带差异标签的第一文件标记为第一目标文件；提取第一目标文件。

还用于根据差异数据分别为多个第二文件添加差异标签；当第二文件的差异标签数量达到阈值时，将携带差异标签的第二文件标记为第二目标文件；提取第二目标文件。

上述目标文件生成模块，通过统计多个第一文件或第二文件中包括的差异标签的数量，并将获取差异标签数量最大的第一文件、第二文件，并分别将此第一文件、第二文件标记为第一目标文件、第二目标文件，将第一目标文件以及第二目标文件提取出来，可将提取出来的第一目标文件或第二目标文件作为携带最多差异标签的代表性文件，减少执行文件比对操作的次数，节约计算机资源，提高效率。

关于文件批量比对装置的具体限定可以参见上文中对于文件批量比对方法的限定，在此不再赘述。上述文件批量比对装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储差异数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文件批量比对方法。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

根据所述第一模版以及第一日志批量生成多个第一文件；

根据所述第二模版以及第二日志批量生成多个第二文件；

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

获取差异数据的多项属性；

根据差异数据的多项属性，对差异数据进行分类，得述差异数据对应的差异类别；

根据差异类别生成对应的差异标签。

提取第一目标文件。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

根据所述第一模版以及第一日志批量生成多个第一文件；

根据所述第二模版以及第二日志批量生成多个第二文件；

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

获取差异数据的多项属性；

根据差异类别生成对应的差异标签。

提取第一目标文件。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种文件批量比对方法，所述方法包括：

根据所述第一模版以及第一日志批量生成多个第一文件；

根据所述第二模版以及第二日志批量生成多个第二文件；

2.根据权利要求1所述的方法，其特征在于，所述对所述多个第一文件以及所述多个第二文件进行批量比对，得到多种差异数据包括：

3.根据权利要求1所述的方法，其特征在于，在所述根据所述差异数据分别为多个第一文件以及多个第二文件添加差异标签之前，还包括：

获取差异数据的多项属性；

根据所述差异类别生成对应的差异标签。

4.根据权利要求1所述的方法，其特征在于，所述根据所述差异数据分别为多个第一文件以及多个第二文件添加差异标签包括：

5.根据权利要求1所述的方法，其特征在于，所述根据所述差异数据在所述第一文件中提取对应的第一目标文件包括：

提取所述第一目标文件。

6.一种文件批量比对装置，其特征在于，所述装置包括：

7.根据权利要求6所述的文件批量比对装置，其特征在于，所述差异数据获取模块还用于建立第一文件与第一文件夹间的对应关系，将多个第一文件分别存入对应的第一文件夹；建立第一文件与第一文件夹间的对应关系，并将多个第二文件分别存入对应的第二文件夹；分别对所述多个第一文件夹与所述多个第二文件夹执行一一比对，分别得到与多个第一文件夹、多个第二文件夹对应的多种差异数据。

8.根据权利要求6所述的文件批量比对装置，其特征在于，所述装置还包括差异标签生成模块，用于获取差异数据的多项属性；根据差异数据的多项属性，对所述差异数据进行分类，得到所述差异数据对应的差异类别；根据所述差异类别生成对应的差异标签。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述文件批量比对方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的文件批量比对方法的步骤。