CN108304554B

CN108304554B - 文件拆分方法、装置、计算机设备和存储介质

Info

Publication number: CN108304554B
Application number: CN201810106722.3A
Authority: CN
Inventors: 古立夫; 周承亮; 朱胜元; 黄克海; 柳水泉; 石芸
Original assignee: Ping An Securities Co Ltd
Current assignee: Ping An Securities Co Ltd
Priority date: 2018-02-02
Filing date: 2018-02-02
Publication date: 2020-07-28
Anticipated expiration: 2038-02-02
Also published as: CN108304554A

Abstract

本申请涉及一种文件拆分方法、装置、计算机设备和存储介质。所述方法包括：获取多个待拆分文件，识别多个待拆分文件之间的关联度，根据关联度确定多个待拆分文件的优先等级；识别多个待拆分文件的文件类型，根据文件类型获取对应的拆分规则；拆分规则包括多个拆分维度；根据拆分规则和优先等级，调用多线程对多个待拆分文件进行拆分，得到每个待拆分文件在不同拆分维度的多个子文件；对多个子文件分别添加对应的维度标识；根据维度标识，将多个子文件发送至相应的结算设备。采用本方法能够提高文件拆分效率。

Description

文件拆分方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种文件拆分方法、装置、计算机设备和存储介质。

背景技术

证券作为一种投资手段，越来越多的人购买证券。在证券交易过程中，交易所在交易结束后将当日的交易数据提交至中国证券登记结算有限公司(简称“登记公司”)。登记公司对交易数据进行清算，产生大量的清算记录，将大量清算记录记载在多个目标文件中，将目标文件发送给证券公司。证券公司根据目标文件进行证券结算。由于登记公司可能将不同业务类型，不同股东或者不同席位对应的清算记录记载在一个目标文件中，如将A股、基金、债券、ETF(Exchange Traded Funds，交易所交易基金)、权证等的清算记录记载在同一个目标文件中，使得证券公司在证券结算过程中，需要对多个目标文件进行拆分。传统方式中证券公司采用VFP(Visual FoxPro，一种数据库管理工具)对目标文件进行拆分，但VFP对于大量的目标文件只能逐个拆分，使得目标文件拆分效率低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高目标文件拆分效率的目标文件拆分方法、装置、计算机设备和存储介质。

一种文件拆分方法，所述方法包括：

获取多个待拆分文件，识别多个待拆分文件之间的关联度，根据所述关联度确定多个待拆分文件的优先等级；

识别多个待拆分文件的文件类型，根据所述文件类型获取对应的拆分规则；所述拆分规则包括多个拆分维度；

根据所述拆分规则和所述优先等级，调用多线程对多个待拆分文件进行拆分，得到每个待拆分文件在不同拆分维度的多个子文件；

对多个所述子文件分别添加对应的维度标识；

根据所述维度标识，将多个所述子文件发送至相应的结算设备。

一种文件拆分装置，所述装置包括：

文件关联模块，用于获取多个待拆分文件，识别多个待拆分文件之间的关联度，根据所述关联度确定多个待拆分文件的优先等级；

文件拆分模块，用于识别多个待拆分文件的文件类型，根据所述文件类型获取对应的拆分规则；所述拆分规则包括多个拆分维度；根据所述拆分规则和所述优先等级，调用多线程对多个待拆分文件进行拆分，得到每个待拆分文件在不同拆分维度的多个子文件；

文件分配模块，用于对多个所述子文件分别添加对应的维度标识；根据所述维度标识，将多个所述子文件发送至相应的结算设备。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一项方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项方法的步骤。

上述文件拆分方法、装置、计算机设备和存储介质，根据多个待拆分文件之间的关联度，可以确定多个待拆分文件的优先等级；根据多个待拆分文件的文件类型，可以获取分别对应的拆分规则；根据确定的优先等级，可以调用多线程按照拆分规则中的不同拆分维度对多个待拆分文件进行拆分，进而可以得到每个待拆分文件在不同拆分维度的多个子文件；通过对多个子文件分别添加对应的维度标识，可以根据维度标识，将多个子文件发送至相应的结算设备进行结算。由于针对不同类型的文件配置了包含多个拆分维度和不同拆分方式的拆分规则，从而即可以支持对多种类型待拆分文件进行拆分，也可以支持从多种维度对待拆分文件进行拆分；采用多线程对多个待拆分文件进行拆分，使得拆分效率得到大幅提升；将不同拆分维度的子文件分配至不同的结算设备进行结算，可以提高结算效率。

附图说明

图1为一个实施例中文件拆分方法的应用场景图；

图2为一个实施例中文件拆分方法的流程示意图；

图3为一个实施例中文件拆分装置的结构框图；

图4为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的文件拆分方法，可以应用于如图1所示的应用环境中。其中，登记设备102通过网络与拆分设备104进行通信；拆分设备104通过网络与结算设备106进行通信。其中，登记设备102是登记公司用于向证券公司传输目标文件的计算机设备。拆分设备104是证券公司用于将目标文件拆分为多个子文件的计算机设备。结算设备106是证券公司用于根据多个子文件进行证券结算的计算机设备。登记设备102、拆分设备104与结算设备106分别可以是终端或服务器中的至少一种。若为终端，可以是智能手机、平板电脑、台式计算机或笔记本电脑中的至少一种，但并不局限于此。若为服务器，可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群。本实施例拆分设备104包括目标服务器1042和拆分终端1044。其中，目标服务器1042上运行了用于获取目标文件的应用程序。该应用程序可以是由登记公司提供的第三方应用程序。拆分终端1044可以是基于windows系统(一种操作系统)的终端。

目标服务器1042利用应用程序接收登记设备102发送的多个目标文件。目标服务器1042上部署了目标数据库。目标服务器1042在接收目标文件过程中，通过磁盘镜像映射将接收到的目标文件存储至目标数据库。登记设备102在向目标服务器1042传输目标文件的过程中，每传输一定数量的目标文件会发送一个结束标识符。目标服务器1042在目标数据库中检测是否存在结束标识符，当存在结束标识符时，根据接收时序在目标数据库提取该结束标识符与上一个结束标识符之间的目标文件，将提取到的目标文件作为待拆分文件发送至拆分终端1044。拆分终端1044根据待拆分文件的文件名称等属性识别多个待拆分文件之间的关联度，根据关联度确定多个待拆分文件的优先等级。拆分终端1044识别多个待拆分文件的文件类型，根据文件类型获取对应的拆分规则。拆分规则包括多个拆分维度。拆分终端1044根据拆分规则和优先等级，调用多线程对多个待拆分文件进行拆分，得到每个待拆分文件在不同拆分维度的多个子文件，对多个子文件分别添加对应的维度标识，根据维度标识将多个子文件发送至相应的结算设备106。上述文件拆分过程，拆分终端采用多线程对多个待拆分文件进行拆分，使得拆分效率得到大幅提升；且支持多种类型文件的拆分，支持从多种维度对文件进行拆分。

在一个实施例中，如图2所示，提供了一种文件拆分方法，以该方法应用于图1中的拆分设备为例进行说明，包括以下步骤：

步骤202，获取多个待拆分文件，识别多个待拆分文件之间的关联度，根据关联度确定多个待拆分文件的优先等级。

目标服务器利用应用程序接收登记设备发送的多个目标文件。目标服务器在接收目标文件过程中，通过磁盘镜像映射将接收到的目标文件存储至目标数据库。当多个目标文件全部或部分接收完毕时，目标服务器将接收到的多个目标文件作为待拆分文件发送至拆分终端。待拆分文件记录了多条清算记录。清算记录可以是不同业务类型，不同股东或者不同席位对应的清算数据。

拆分终端根据待拆分文件的文件名称或文件描述等属性识别多个待拆分文件之间的关联度。文件名称包含了待拆分文件的用途等信息。文件描述可以是待拆分文件在登记设备的存储路径等。在另一个实施例中，文件描述可以是拆分终端在接收得到待拆分文件后，在待拆分文件中提取主题信息，利用提取到的主题信息生成的。主题信息可以是待拆分文件中多条清算记录分别对应的业务类型、股东或席位等信息。容易理解，具有相似用途、相同存储路径或相似主题信息的多个待拆分文件具有较高的相似度。

拆分终端根据关联度确定多个待拆分文件的优先等级。具体的，拆分终端比较多个待拆分文件的相似度是否高于阈值。相似度高于阈值的多个待拆分文件可以记作相关的多个待拆分文件。相似度低于或等于阈值的多个待拆分文件可以记作不相关的多个待拆分文件。拆分终端根据相似度对相关的多个待拆分文件进行排序，根据排序确定相关的多个待拆分文件为不同的优先等级。拆分终端将不相关的多个待拆分文件确定为相同的优先等级。例如，拆分终端接收到A1～A10共计10个待拆分文件，其中A1～A5属于相关的待拆分文件，且相似度由A1至A5依序降低；A6～A8属于相关的待拆分文件，且相似度由A6至A8依序降低；其他为不相关的待拆分文件，则可以将待拆分文件A1、A6、A9和A10的优先等级确定为最高优选等级，将待拆分文件A2和A7的优先等级确定为次高优选等级，依次类推。

步骤204，识别多个待拆分文件的文件类型，根据文件类型获取对应的拆分规则；拆分规则包括多个拆分维度。

拆分终端预存储了多种文件类型以及对应的拆分规则。文件类型可以是dbf.数据库表文件或txt.文本文件等。拆分规则包括多种拆分维度，如业务类型，股东或者席位等，其中，业务类型可以是A股、基金、债券、ETF、权证等。拆分规则可以是相关人员预先在拆分终端配置的。具体的，当需要配置拆分规则时，相关人员可以在拆分终端发起配置请求，拆分终端根据配置请求生成配置页面。相关人员通过拆分终端可以在配置页面添加多种文件类型和多种拆分维度，拆分终端对添加的一种或多种拆分维度进行存储。相关人还可以通过拆分终端对某种拆分规则进行修改。采用页面配置的方式添加或更新拆分规则，使得相关人员无需对代码进行修改，提高拆分规则设置过程中信息的可读性，可以降低对相关人员的技术要求，也可以提高拆分规则的添加效率以及更新效率。

步骤206，根据拆分规则和优先等级，调用多线程对多个待拆分文件进行拆分，得到每个待拆分文件在不同拆分维度的多个子文件。

拆分终端识别多个待拆分文件的文件类型，根据文件类型获取对应的拆分规则。拆分终端根据最高优先等级的多个待拆分文件分别对应的拆分规则，调用多线程对最高优先等级的多个待拆分文件进行同步拆分。当最高优先等级的多个待拆分文件拆分完毕时，拆分终端按照上述方式对下一优先等级的多个待拆分文件进行同步拆分，直至最低优先等级的多个待拆分文件拆分完毕，得到每个待拆分文件在不同拆分维度的多个子文件。容易理解，当一个待拆分文件仅包含单一拆分维度对应的清算记录时，该待拆分文件拆分得到一个子文件，且该子文件即为待拆分文件本身。

在一个实施例中，根据拆分规则和优先等级，调用多线程对多个待拆分文件进行拆分的步骤，包括：当待拆分文件的文件类型为第一类型时，调用预设的拆分接口，调用多线程利用拆分接口对相应待拆分文件进行拆分；当待拆分文件的文件类型为第二类型时，获取预设的多个拆分维度分别对应的拆分表达式，调用多线程对相应待拆分文件进行遍历，将每个拆分表达式与待拆分文件进行匹配，根据匹配结果对待拆分文件进行拆分。

不同文件类型对应的拆分规则可以包含相同的拆分维度，但包含不同的拆分方式。具体的，当待拆分文件的文件类型为第一类型时，对应的拆分方式可以是利用预设的拆分接口进行拆分。例如，当第一类型的待拆分文件为dbf.数据库表文件时，预设的拆分接口可以是OLEDB(一种应用程序接口)。当待拆分文件的文件类型为第二类型时，对应的拆分方式可以是利用预设的多个拆分表达式进行拆分。拆分终端预存储了多个拆分维度分别对应的拆分表达式，每个拆分表达式包括一个或多个拆分字段。拆分终端对待拆分文件进行逐行遍历，将每个拆分维度对应的拆分表达式与待拆分文件中多条清算记录分别进行匹配，将待拆分文件中与每个拆分表达式匹配成功的清算记录拆分为一个相应拆分维度的子文件，从而得到待拆分文件在多个拆分维度的子文件。本实施例针对不同类型的文件配置包含不同拆分方式的拆分规则，从而可以支持多种类型文件的拆分。

步骤208，对多个子文件分别添加对应的维度标识。

步骤210，根据维度标识，将多个子文件发送至相应的结算设备。

拆分终端根据拆分维度将多个子文件分配至不同的结算设备进行结算。具体的，拆分终端根据拆分得到的多个子文件对应的拆分维度，对每个子文件添加对应的维度标识。维度标识为可以唯一识别一个子文件对应拆分维度的信息，可以是拆分维度名称或编号等，如“基金”。拆分终端根据维度标识对多个子文件进行分组，即将具有相同维度标识的多个子文件确定为一组。为了提高结算效率，可以采用多个结算设备分别对不同拆分维度的子文件进行结算。根据需要处理的子文件对应的拆分维度，多个结算设备也分别具有对应的维度标识。拆分终端根据每组子文件的维度标识，将每组子文件发送至具有相同维度标识的结算终端进行结算。

本实施例中，根据多个待拆分文件之间的关联度，可以确定多个待拆分文件的优先等级；根据多个待拆分文件的文件类型，可以获取分别对应的拆分规则；根据确定的优先等级，可以调用多线程按照拆分规则中的不同拆分维度对多个待拆分文件进行拆分，进而可以得到每个待拆分文件在不同拆分维度的多个子文件；通过对多个子文件分别添加对应的维度标识，可以根据维度标识，将多个子文件发送至相应的结算设备进行结算。由于针对不同类型的文件配置了包含多个拆分维度和不同拆分方式的拆分规则，从而即可以支持对多种类型待拆分文件进行拆分，也可以支持从多种维度对待拆分文件进行拆分；采用多线程对多个待拆分文件进行拆分，使得拆分效率得到大幅提升；将不同拆分维度的子文件分配至不同的结算设备进行结算，可以提高结算效率。

应该理解的是，虽然图2的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，获取多个待拆分文件的步骤包括：接收登记设备发送的多个目标文件，将多个目标文件存储至目标数据库；在目标数据库检测是否存在结束标识符；当存在结束标识符时，根据接收时序在目标数据库提取结束标识符与上一个结束标识符之间的目标文件，将提取到的目标文件作为待拆分文件。

传统方式中，只有在接收到登记设备发送的全部目标文件时，才开始进行拆分。而目标文件通常数据量大，传输时间长，使得证券结算的周期较长。为了解决上述问题，目标服务器根据结束标识符进行目标文件的提取。具体的，登记设备在向目标服务器传输目标文件的过程中，每传输一定数量的目标文件会发送一个结束标识符。结束标识符可以是用于表示部分目标文件已经接收完毕的任意字符串，如“\0”等。结束标识符可以记录在一个目标文件中，也可以单独存在。目标服务器在目标数据库中检测是否存在结束标识符，当存在结束标识符时，根据接收时序在目标数据库提取该结束标识符与上一个结束标识符之间的目标文件，将提取到的目标文件作为待拆分文件发送至拆分终端进行拆分。容易理解，当在目标数据库中检测到第一个结束标识符时，目标服务器根据接收时序在目标数据库中提取该结束标识符之前的所有目标文件。

本实施例中，通过对结束标识符进行监控，可以实现边传输边拆分，使得无需等待目标文件全部接收完毕即可进行拆分和结算，提高目标文件的拆分效率；还可以将全部目标文件分为先后多个批次进行处理，可以减少拆分终端集中处理多个全部目标文件的负担，也间接的提高了目标文件的拆分效率。

在一个实施例中，根据拆分规则和优先等级，调用多线程对多个待拆分文件进行拆分的步骤，包括：计算多个待拆分文件分别对应的数据量；获取预设的数据量和负载的最优匹配文件，根据最优匹配文件确定指定的多个拆分终端分别可以拆分的待拆分文件的总数据量；根据总数据量以及关联度，对多个待拆分文件进行分组；将多组待拆分文件分别分配至相应拆分终端，使拆分终端根据优先等级，从不同拆分维度对相应待拆分文件进行拆分；接收拆分终端返回的待拆分文件在不同拆分维度的多个子文件。

为了进一步提高拆分效率，基于分布式拆分系统对多个待拆分文件进行拆分。具体的，分布式拆分系统包括多个拆分终端。为了方便描述，可以将用于接收目标服务器发送的拆分终端记作第一拆分终端，分布式拆分系统中除第一拆分终端之外的其他每个拆分终端记作第二拆分终端。

第一拆分终端将多个待拆分文件分配至分布式拆分系统中多个第二拆分终端进行拆分。具体的，第一拆分终端计算每个待拆分文件的数据量。数据量可以是待拆分文件包含清算记录的数量，或者待拆分文件的文件大小。容易理解，数据量越大，表示需要的拆分时间越多。第一拆分终端预存储了最优匹配文件，最优匹配文件记录了多个数据量区间和对应的负载区间。其中，负载区间包括CPU资源使用率区间、内存占用率区间和目标数据库存储空间区间的区间组合。例如，一个负载区间对应的区间组合可以是CPU资源使用率50％～60％，内存占用率40％～50％，目标数据库存储空间55％～70％，该负载区间对应的数据量区间可以是50M～60M。需要说明的是，这里仅为了更清楚的描述方案，作为举例的各个数值的实际意义不必考究。

第一拆分终端对多个第二拆分终端的负载进行监测，确定每个第二拆分终端对应的负载区间。第一拆分终端根据每个第二拆分终端对应的负载区间，在最优匹配文件中查询对应的数据量区间，从而确定分布式拆分系统中多个第二拆分终端分别可以拆分的待拆分文件的总数据量。

第一拆分终端根据总数据量以及多个待拆分文件之间的关联度，对多个待拆分文件进行分组。值得注意的是，第一拆分终端将相关的多个待拆分文件确定为同一组。例如，在上述举例中，若相关的待拆分文件A1～A5的总数据量为310M，相关的待拆分文件A6～A8的总数据量为230M，待拆分文件A9的总数据量为72M，待拆分文件A10的总数据量为49M。分布式拆分系统中的第二拆分终端包括甲、乙、丙和丁四个拆分终端。其中，甲节点服务器的负载为CPU资源使用率52％，内存占用率47％，目标数据库存储空间60％。根据最优匹配文件确定甲拆分终端对应的数据量区间为210M～270M，乙拆分终端对应的数据量区间为60M～90M，丙拆分终端对应的数据量区间为300M～360M，则可以将待拆分文件A1～A5以及A10确定为第一组，将待拆分文件A6～A8确定为第一组，将待拆分文件A9单独确定为一组。

第一拆分终端将多组待拆分文件分别分配至分布式拆分系统中多个第二拆分终端进行拆分。例如，在上述举例中，将待拆分文件A1～A5以及A10分配至丙拆分终端；将待拆分文件A6～A8分配至甲拆分终端；将待拆分文件A9分配至乙拆分终端。丁拆分终端未分得待拆分文件，表示丁拆分终端当前时间负载较高，即当前正在处理的待拆分文件的数据量较多。

本实施例中，对指定的多个拆分终端的负载进行监测，可以获取每个拆分终端当前时间正在处理的待拆分文件的数据量。当一个拆分终端当前时间正在处理的待拆分文件的数据量较多时，对应的负载较高，则不再分配新的待拆分文件或分配数据量较少的待拆分文件；而对于当前时间正在处理的待拆分文件的数据量较少，对应负载较低的拆分终端，则可以分配数据量较多的待拆分文件，该待拆分文件可以是利用多个待拆分文件组合而成的。将多个待拆分文件分配至多个拆分终端进行同步拆分，可以提高待拆分文件的拆分效率。

在一个实施例中，待拆分文件包括多条清算记录；相邻的两条清算记录采用分隔符进行分隔；根据拆分规则和优先等级，调用多线程对多个待拆分文件进行拆分的步骤包括：计算多个待拆分文件分别对应的数据量，检测数据量是否超过阈值；当数据量超过阈值时，获取预设的目标数据量，根据目标数据量确定每个待拆分文件的拆分位置；检测每个拆分位置是否位于相邻分隔符之间；当拆分位置位于一个分隔符处时，在拆分位置对相应待拆分文件进行拆分，得到待拆分文件对应的多个中间文件；当拆分位置位于相邻分隔符之间时，在相邻分隔符中任意一个分隔符处对相应待拆分文件进行拆分，得到待拆分文件对应的多个中间文件；根据拆分规则和优先等级，调用多线程对多个中间文件进行拆分。

当采用上述基于分布式拆分系统的方式对多个待拆分文件进行拆分时，若相关的多个待拆分文件的总数据量超过任意一个第二拆分终端可以拆分的待拆分文件的总数据量，则将相关的多个待拆分文件分为多个批次分配至第二拆分终端进行拆分。若单独一个待拆分文件的数据量超过任意一个第二拆分终端可以拆分的待拆分文件的总数据量，则将该待拆分文件预先拆分为多个中间文件，将多个中间文件分为多个批次分配至第二拆分终端进行拆分。例如，在上述举例中，假设待拆分文件A9的总数据量为720M，超过丙拆分终端对应的数据量360M，则可以将待拆分文件A9拆分为多个数据量小于360M的中间文件。

第一拆分终端筛选数据量超过阈值的待拆分文件。该阈值可以是预先设定的，也可以是根据对多个第二拆分终端的负载监测结果临时生成的。第一拆分终端获取预设的目标数据量，根据目标数据量确定每个待拆分文件的拆分位置。目标数据量可以是预先设定的，也可以是根据对多个第二拆分终端的负载对应的数据量区间临时生成的。例如，在上述举例中，假设目标数据量为80M，则将待拆分文件的第80M大小的位置标记为第一个拆分位置，第160M大小的位置标记为第二个拆分位置，以此类推。

第一拆分终端识别每个拆分位置是否位于相邻分隔符之间。当拆分位置位于一个分隔符所在的位置时，第一拆分终端在该拆分位置对相应待拆分文件进行拆分，得到该待拆分文件对应的多个中间文件。当拆分位置位于相邻分隔符之间时，第一拆分终端在相邻分隔符中任意一个分隔符处对相应待拆分文件进行拆分，即对该相邻分隔符中的前一个分隔符或后一个分隔符处进行拆分，得到待拆分文件对应的多个中间文件。第一拆分终端将多个中间文件分为多个批次分配至第二拆分终端，第二拆分终端按照上述方式将中间文件拆分为多个子文件。

本实施例中，对于数据量较大的待拆分文件进行两级拆分：其中，第一层级的拆分是根据数据量进行拆分，第二层级的拆分是根据预设的拆分维度进行拆分；将数据量较大的待拆分文件拆分为数据量较小的中间文件进行传输，可以提高数据传输效率，也可以很好的适应当前时间不同拆分终端能够处理的待拆分文件的数据量。

在一个实施例中，将多个子文件发送至相应的结算设备的步骤，包括：对拆分得到的多个子文件的总数据量进行校验；对拆分得到的多个子文件分别对应清算记录的总数量进行校验；获取预设的多个关键字段，在拆分得到的多个子文件提取关键字段，对提取到的关键字段与预设的关键字段进行匹配；当多个子文件的总数据量以及对应清算记录的总数量分别校验通过，且提取到的关键字段与预设的关键字段匹配成功时，将多个子文件发送至相应的结算设备。

为了提高文件拆分的准确性，在将拆分得到的多个子文件发送至结算终端之间，对拆分后的多个子文件与拆分前的多个待拆分文件的数据一致性进行校验。具体的，拆分终端获取拆分前多个待拆分文件的总数据量，记作第一数据量；计算拆分得到的多个子文件的总数据量，记作第二数据量。拆分终端对第一数据量与第二数据量的差值是否超过阈值进行校验。

拆分终端获取多条历史拆分记录，根据历史拆分记录测算拆分前多个待拆分文件包含清算记录的总数量，记作第一数量。拆分终端统计拆分得到的多个子文件分别对应清算记录的总数量，记作第二数量。需要说明的是，登记设备每次发送至目标服务器的目标文件的数量和格式相对稳定。拆分终端可以根据多次对待拆分文件进行拆分的历史记录，估算本次接收到的多个待拆分文件中清算记录的数量。拆分终端对第一数量与第二数量是否相等进行校验。

拆分终端获取预设的多个关键字段，如股东账号信息等。拆分终端在拆分得到的多个子文件提取关键字段，对提取到的关键字段与预设的关键字段进行匹配。当第一数据量与第二数据量的差值未超过阈值，第一数量与第二数量相等，且提取到的关键字段与预设的关键字段匹配成功时，表示数据一致性校验通过，拆分终端将多个子文件发送至相应的结算设备。

本实施例中，每个拆分任务在处理完成后，对拆分得到的多个子文件与拆分之前的待拆分文件进行数据一致性校验，可以保证文件拆分的准确性，避免文件拆分造成数据缺失对结算结果的准确性造成影响，避免给证券公司或投资者造成不必要的经济损失。

在一个实施例中，该方法还包括：对待拆分文件的拆分时间和拆分结果进行统计，对结算设备的负载进行监测，根据统计结果和监测结果生成拆分日志；将拆分日志发送至监控终端，使监控终端根据拆分日志对拆分规则进行优化。

在对待拆分文件进行拆分的过程中，拆分终端对待拆分文件的拆分时间和拆分结果进行统计，得到统计结果；对多个结算设备的负载进行监测，得到监测结果。拆分终端根据统计结果和监测结果生成拆分日志，将拆分日志发送至监控终端。相关人员可以通过监控终端及时了解待拆分文件的拆分情况，并根据拆分日志及时对拆分终端进行性能分析和配置优化。例如，监控终端可以将拆分时间超过阈值的待拆分文件按照上述方式拆分为多个中间文件后，将一部分中间文件在本地进行拆分，将一部分中间文件发送至其他拆分终端进行拆分，以减少数据传输量。监控终端还可以对拆分失败的待拆分文件执行重新拆分命令。

本实施例中，通过对待拆分文件的拆分时间和拆分结果进行统计以及对多个结算设备的负载进行监测，提供完整的拆分日志，拆分结束后提供完整的统计报表和详细的拆分日志，相关人员可根据拆分日志及时对拆分规则进行优化。

在一个实施例中，如图3所示，提供了一种文件拆分装置，包括：文件关联模块302、文件拆分模块304和文件分配模块306，其中：

文件关联模块302，用于获取多个待拆分文件，识别多个待拆分文件之间的关联度，根据关联度确定多个待拆分文件的优先等级。

文件拆分模块304，用于识别多个待拆分文件的文件类型，根据文件类型获取对应的拆分规则；拆分规则包括多个拆分维度；根据拆分规则和优先等级，调用多线程对多个待拆分文件进行拆分，得到每个待拆分文件在不同拆分维度的多个子文件。

文件分配模块306，用于对多个子文件分别添加对应的维度标识；根据维度标识，将多个子文件发送至相应的结算设备。

在一个实施例中，文件关联模块302还用于接收登记设备发送的多个目标文件，将多个目标文件存储至目标数据库；在目标数据库检测是否存在结束标识符；当存在结束标识符时，根据接收时序在目标数据库提取结束标识符与上一个结束标识符之间的目标文件，将提取到的目标文件作为待拆分文件。

在一个实施例中，文件拆分模块304还用于当待拆分文件的文件类型为第一类型时，调用预设的拆分接口，调用多线程利用拆分接口对相应待拆分文件进行拆分；当待拆分文件的文件类型为第二类型时，获取预设的多个拆分维度分别对应的拆分表达式，调用多线程对相应待拆分文件进行遍历，将每个拆分表达式与待拆分文件进行匹配，根据匹配结果对待拆分文件进行拆分。

在一个实施例中，文件拆分模块304还用于计算多个待拆分文件分别对应的数据量；对指定的多个拆分终端的负载进行监测；获取预设的数据量和负载的最优匹配文件，根据最优匹配文件确定指定的多个拆分终端分别可以拆分的待拆分文件的总数据量；根据总数据量以及关联度，对多个待拆分文件进行分组；将多组待拆分文件分别分配至相应拆分终端，使拆分终端根据优先等级，从不同拆分维度对相应待拆分文件进行拆分；接收拆分终端返回的待拆分文件在不同拆分维度的多个子文件。

在一个实施例中，待拆分文件包括多条清算记录；相邻的两条清算记录采用分隔符进行分隔；文件拆分模块304还用于计算多个待拆分文件分别对应的数据量，检测数据量是否超过阈值；当数据量超过阈值时，获取预设的目标数据量，根据目标数据量确定每个待拆分文件的拆分位置；检测每个拆分位置是否位于相邻分隔符之间；当拆分位置位于一个分隔符处时，在拆分位置对相应待拆分文件进行拆分，得到待拆分文件对应的多个中间文件；当拆分位置位于相邻分隔符之间时，在相邻分隔符中任意一个分隔符处对相应待拆分文件进行拆分，得到待拆分文件对应的多个中间文件；根据拆分规则和优先等级，调用多线程对多个中间文件进行拆分。

在一个实施例中，文件分配模块306还用于对拆分得到的多个子文件的总数据量进行校验；对拆分得到的多个子文件分别对应清算记录的总数量进行校验；获取预设的多个关键字段，在拆分得到的多个子文件提取关键字段，对提取到的关键字段与预设的关键字段进行匹配；当多个子文件的总数据量以及对应清算记录的总数量分别校验通过，且提取到的关键字段与预设的关键字段匹配成功时，将多个子文件发送至相应的结算设备。

在一个实施例中，该装置还包括拆分优化模块308，用于对待拆分文件的拆分时间和拆分结果进行统计，对结算设备的负载进行监测，根据统计结果和监测结果生成拆分日志；将拆分日志发送至监控终端，使监控终端根据拆分日志对拆分规则进行优化。

关于文件拆分装置的具体限定可以参见上文中对于文件拆分方法的限定，在此不再赘述。上述文件拆分装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文件拆分方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图4中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：获取多个待拆分文件，识别多个待拆分文件之间的关联度，根据关联度确定多个待拆分文件的优先等级；识别多个待拆分文件的文件类型，根据文件类型获取对应的拆分规则；拆分规则包括多个拆分维度；根据拆分规则和优先等级，调用多线程对多个待拆分文件进行拆分，得到每个待拆分文件在不同拆分维度的多个子文件；对多个子文件分别添加对应的维度标识；根据维度标识，将多个子文件发送至相应的结算设备。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：接收登记设备发送的多个目标文件，将多个目标文件存储至目标数据库；在目标数据库检测是否存在结束标识符；当存在结束标识符时，根据接收时序在目标数据库提取结束标识符与上一个结束标识符之间的目标文件，将提取到的目标文件作为待拆分文件。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：当待拆分文件的文件类型为第一类型时，调用预设的拆分接口，调用多线程利用拆分接口对相应待拆分文件进行拆分；当待拆分文件的文件类型为第二类型时，获取预设的多个拆分维度分别对应的拆分表达式，调用多线程对相应待拆分文件进行遍历，将每个拆分表达式与待拆分文件进行匹配，根据匹配结果对待拆分文件进行拆分。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：计算多个待拆分文件分别对应的数据量；对指定的多个拆分终端的负载进行监测；获取预设的数据量和负载的最优匹配文件，根据最优匹配文件确定指定的多个拆分终端分别可以拆分的待拆分文件的总数据量；根据总数据量以及关联度，对多个待拆分文件进行分组；将多组待拆分文件分别分配至相应拆分终端，使拆分终端根据优先等级，从不同拆分维度对相应待拆分文件进行拆分；接收拆分终端返回的待拆分文件在不同拆分维度的多个子文件。

在一个实施例中，待拆分文件包括多条清算记录；相邻的两条清算记录采用分隔符进行分隔；处理器执行计算机程序时还实现以下步骤：计算多个待拆分文件分别对应的数据量，检测数据量是否超过阈值；当数据量超过阈值时，获取预设的目标数据量，根据目标数据量确定每个待拆分文件的拆分位置；检测每个拆分位置是否位于相邻分隔符之间；当拆分位置位于一个分隔符处时，在拆分位置对相应待拆分文件进行拆分，得到待拆分文件对应的多个中间文件；当拆分位置位于相邻分隔符之间时，在相邻分隔符中任意一个分隔符处对相应待拆分文件进行拆分，得到待拆分文件对应的多个中间文件；根据拆分规则和优先等级，调用多线程对多个中间文件进行拆分。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：对拆分得到的多个子文件的总数据量进行校验；对拆分得到的多个子文件分别对应清算记录的总数量进行校验；获取预设的多个关键字段，在拆分得到的多个子文件提取关键字段，对提取到的关键字段与预设的关键字段进行匹配；当多个子文件的总数据量以及对应清算记录的总数量分别校验通过，且提取到的关键字段与预设的关键字段匹配成功时，将多个子文件发送至相应的结算设备。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：对待拆分文件的拆分时间和拆分结果进行统计，对结算设备的负载进行监测，根据统计结果和监测结果生成拆分日志；将拆分日志发送至监控终端，使监控终端根据拆分日志对拆分规则进行优化。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取多个待拆分文件，识别多个待拆分文件之间的关联度，根据关联度确定多个待拆分文件的优先等级；识别多个待拆分文件的文件类型，根据文件类型获取对应的拆分规则；拆分规则包括多个拆分维度；根据拆分规则和优先等级，调用多线程对多个待拆分文件进行拆分，得到每个待拆分文件在不同拆分维度的多个子文件；对多个子文件分别添加对应的维度标识；根据维度标识，将多个子文件发送至相应的结算设备。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：接收登记设备发送的多个目标文件，将多个目标文件存储至目标数据库；在目标数据库检测是否存在结束标识符；当存在结束标识符时，根据接收时序在目标数据库提取结束标识符与上一个结束标识符之间的目标文件，将提取到的目标文件作为待拆分文件。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：当待拆分文件的文件类型为第一类型时，调用预设的拆分接口，调用多线程利用拆分接口对相应待拆分文件进行拆分；当待拆分文件的文件类型为第二类型时，获取预设的多个拆分维度分别对应的拆分表达式，调用多线程对相应待拆分文件进行遍历，将每个拆分表达式与待拆分文件进行匹配，根据匹配结果对待拆分文件进行拆分。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：计算多个待拆分文件分别对应的数据量；对指定的多个拆分终端的负载进行监测；获取预设的数据量和负载的最优匹配文件，根据最优匹配文件确定指定的多个拆分终端分别可以拆分的待拆分文件的总数据量；根据总数据量以及关联度，对多个待拆分文件进行分组；将多组待拆分文件分别分配至相应拆分终端，使拆分终端根据优先等级，从不同拆分维度对相应待拆分文件进行拆分；接收拆分终端返回的待拆分文件在不同拆分维度的多个子文件。

在一个实施例中，待拆分文件包括多条清算记录；相邻的两条清算记录采用分隔符进行分隔；计算机程序被处理器执行时还实现以下步骤：计算多个待拆分文件分别对应的数据量，检测数据量是否超过阈值；当数据量超过阈值时，获取预设的目标数据量，根据目标数据量确定每个待拆分文件的拆分位置；检测每个拆分位置是否位于相邻分隔符之间；当拆分位置位于一个分隔符处时，在拆分位置对相应待拆分文件进行拆分，得到待拆分文件对应的多个中间文件；当拆分位置位于相邻分隔符之间时，在相邻分隔符中任意一个分隔符处对相应待拆分文件进行拆分，得到待拆分文件对应的多个中间文件；根据拆分规则和优先等级，调用多线程对多个中间文件进行拆分。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：对拆分得到的多个子文件的总数据量进行校验；对拆分得到的多个子文件分别对应清算记录的总数量进行校验；获取预设的多个关键字段，在拆分得到的多个子文件提取关键字段，对提取到的关键字段与预设的关键字段进行匹配；当多个子文件的总数据量以及对应清算记录的总数量分别校验通过，且提取到的关键字段与预设的关键字段匹配成功时，将多个子文件发送至相应的结算设备。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：对待拆分文件的拆分时间和拆分结果进行统计，对结算设备的负载进行监测，根据统计结果和监测结果生成拆分日志；将拆分日志发送至监控终端，使监控终端根据拆分日志对拆分规则进行优化。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(RaMus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种文件拆分方法，所述方法包括：

获取多个待拆分文件，识别多个待拆分文件之间的关联度；

比较多个待拆分文件的相似度，根据相似度对相关的多个待拆分文件进行排序，根据排序确定相关的多个待拆分文件为不同的优先等级，并将不相关的多个待拆分文件确定为相同的优先等级；

对多个所述子文件分别添加对应的维度标识；

2.根据权利要求1所述的方法，其特征在于，获取多个待拆分文件的步骤包括：接收登记设备发送的多个目标文件，将多个目标文件存储至目标数据库；

在所述目标数据库检测是否存在结束标识符；

当存在所述结束标识符时，根据接收时序在所述目标数据库提取所述结束标识符与上一个结束标识符之间的目标文件，将提取到的目标文件作为待拆分文件。

3.根据权利要求1所述的方法，其特征在于，根据所述拆分规则和所述优先等级，调用多线程对多个待拆分文件进行拆分的步骤，包括：

当所述待拆分文件的文件类型为第一类型时，调用预设的拆分接口，调用多线程利用所述拆分接口对相应待拆分文件进行拆分；

当所述待拆分文件的文件类型为第二类型时，获取预设的多个拆分维度分别对应的拆分表达式，调用多线程对相应待拆分文件进行遍历，将每个拆分表达式与所述待拆分文件进行匹配，根据匹配结果对所述待拆分文件进行拆分。

4.根据权利要求1所述的方法，其特征在于，根据所述拆分规则和所述优先等级，调用多线程对多个待拆分文件进行拆分的步骤，包括：

计算多个待拆分文件分别对应的数据量；

对指定的多个拆分终端的负载进行监测；

获取预设的数据量和负载的最优匹配文件，根据最优匹配文件确定指定的多个拆分终端分别可以拆分的待拆分文件的总数据量；

根据所述总数据量以及所述关联度，对多个待拆分文件进行分组；

将多组待拆分文件分别分配至相应拆分终端，使所述拆分终端根据所述优先等级，从不同拆分维度对相应待拆分文件进行拆分；

接收所述拆分终端返回的所述待拆分文件在不同拆分维度的多个子文件。

5.根据权利要求1～4任意一项所述的方法，其特征在于，所述待拆分文件包括多条清算记录；相邻的两条清算记录采用分隔符进行分隔；所述根据所述拆分规则和所述优先等级，调用多线程对多个待拆分文件进行拆分的步骤包括：

计算多个待拆分文件分别对应的数据量，检测所述数据量是否超过阈值；

当所述数据量超过阈值时，获取预设的目标数据量，根据所述目标数据量确定每个待拆分文件的拆分位置；

检测每个拆分位置是否位于相邻分隔符之间；

当所述拆分位置位于一个分隔符处时，在所述拆分位置对相应待拆分文件进行拆分，得到所述待拆分文件对应的多个中间文件；

当所述拆分位置位于相邻分隔符之间时，在所述相邻分隔符中任意一个分隔符处对相应待拆分文件进行拆分，得到所述待拆分文件对应的多个中间文件；

根据所述拆分规则和所述优先等级，调用多线程对多个中间文件进行拆分。

6.根据权利要求1所述的方法，其特征在于，将多个所述子文件发送至相应的结算设备的步骤，包括：

对拆分得到的多个子文件的总数据量进行校验；

对拆分得到的多个子文件分别对应清算记录的总数量进行校验；

获取预设的多个关键字段，在拆分得到的多个子文件提取关键字段，对提取到的关键字段与预设的关键字段进行匹配；

当多个子文件的总数据量以及对应清算记录的总数量分别校验通过，且提取到的关键字段与预设的关键字段匹配成功时，将多个所述子文件发送至相应的结算设备_。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对所述待拆分文件的拆分时间和拆分结果进行统计，对所述结算设备的负载进行监测，根据统计结果和监测结果生成拆分日志；

将所述拆分日志发送至监控终端，使所述监控终端的用户根据所述拆分日志对所述拆分规则进行优化。

8.一种文件拆分装置，所述装置包括：

文件关联模块，用于获取多个待拆分文件，识别多个待拆分文件之间的关联度；比较多个待拆分文件的相似度，根据相似度对相关的多个待拆分文件进行排序，根据排序确定相关的多个待拆分文件为不同的优先等级，并将不相关的多个待拆分文件确定为相同的优先等级；

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。