CN111639103A

CN111639103A - 业务数据处理方法、装置、计算机系统和介质

Info

Publication number: CN111639103A
Application number: CN202010491967.XA
Authority: CN
Inventors: 赵浩; 李政; 卢永安; 李江涛
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2020-06-02
Filing date: 2020-06-02
Publication date: 2020-09-08
Anticipated expiration: 2040-06-02
Also published as: CN111639103B

Abstract

本公开提供了一种业务数据处理方法，应用于计算机系统。该方法包括：获取源业务数据表。源业务数据表包括M条业务数据，该M条业务数据中的每条业务数据包括多项字段，M为大于1的整数。然后，从该M条业务数据中提取N条业务数据，以由该N条业务数据构成待处理数据表，N为大于等于1且小于等于M的整数。基于双文件排序比较算法，对待处理数据表和目标数据表进行匹配，以确定待处理数据表中与目标数据表相匹配的P条业务数据，P为大于等于1且小于等于N的整数。接着，基于P条业务数据各自的多项字段，利用P条业务数据对源业务数据表进行更新。本公开还提供了一种业务数据处理装置、计算机系统和介质。

Description

业务数据处理方法、装置、计算机系统和介质

技术领域

本公开涉及计算机技术领域，更具体地，涉及一种业务数据处理方法、装置、计算机系统和介质。

背景技术

随着银行业务的不断发展和扩张，存储于源业务数据表中的业务数据量不断增加。一些情况下，由于大量业务数据的来源不同，导致记录规则不统一。记录规则的不统一将导致针对大量业务数据无法基于统一索引信息进行批量处理，从而极大地影响了业务数据的处理效率。

发明内容

本公开的一个方面提供了一种业务数据处理方法，应用于计算机系统。该方法包括：获取源业务数据表。源业务数据表包括M条业务数据，该M条业务数据中的每条业务数据包括多项字段，M为大于1的整数。然后，从该M条业务数据中提取N条业务数据，以由该N条业务数据构成待处理数据表，N为大于等于1且小于等于M的整数。基于双文件排序比较算法，对待处理数据表和目标数据表进行匹配，以确定待处理数据表中与目标数据表相匹配的P条业务数据，P为大于等于1且小于等于N的整数。接着，基于P条业务数据各自的多项字段，利用P条业务数据对源业务数据表进行更新。

可选地，上述多项字段包括：第一字段、第二字段和时间字段。上述从M条业务数据中提取N条业务数据包括：基于M条业务数据的第一字段和第二字段的取值，将M条业务数据划分为N个分组，使得属于同一分组的业务数据的第一字段的取值相同且第二字段的取值也相同。接着，针对上述N个分组中的每个分组，选取每个分组中时间字段的取值最大的一条业务数据，以从上述N个分组中选取出上述N条业务数据。

可选地，上述方法还包括：在上述对待处理数据表和目标数据表进行匹配之前，将待处理数据表转换为预定格式的第一文件，并将目标数据表转换为预定格式的第二文件；然后将第一文件和第二文件存储至计算机系统的预定存储区域。上述对待处理数据表和目标数据表进行匹配包括：从预定存储区域读取第一文件和第二文件，并对第一文件和第二文件进行匹配。

可选地，上述目标数据表包括Q条目标业务数据，该Q条目标业务数据中的每条目标业务数据包括第一字段，Q为大于等于1的整数。上述基于双文件排序比较算法，对待处理数据表和目标数据表进行匹配包括：按照第一字段的取值从小至大的顺序对N条业务数据进行排序，以形成业务数据序列。按照第一字段的取值从小至大的顺序对Q条目标业务数据进行排序，以形成目标业务数据序列。将业务数据序列与目标业务数据序列进行比较，并且，当业务数据序列中一条业务数据的第一字段的取值与目标业务数据序列中一条目标业务数据的第一字段的取值相同时，确定一条业务数据与一条目标业务数据相匹配。

可选地，上述将业务数据序列与目标业务数据序列进行比较包括：依次对目标业务数据序列中的Q条目标业务数据进行比较。其中，针对目标业务数据序列中的第i条目标业务数据，将业务数据序列作为查找范围，从该查找范围中查找与第i条目标业务数据相匹配的业务数据。如果查找到业务数据序列中的第j条业务数据与第i条目标业务数据相匹配，则将查找范围变更为业务数据序列中的第j+1条业务数据至第N条业务数据。并从该查找范围中查找与目标业务数据序列中的第i+1条目标业务数据相匹配的业务数据。如果未查找到与第i条目标业务数据相匹配的业务数据，且业务数据序列中的第N条业务数据的第一字段的取值小于第i条目标业务数据的第一字段的取值，则确定业务数据序列与目标业务数据序列中的第i+1条目标业务数据至第Q条目标业务数据均不匹配。如果未查找到与第i条目标业务数据相匹配的业务数据，且第i条目标业务数据的第一字段的取值处于第j条业务数据和第j+1条业务数据的第一字段的取值之间，则将查找范围变更为业务数据序列中的第j+1条业务数据至第N条业务数据，从该查找范围中查找与目标业务数据序列中的第i+1条目标业务数据相匹配的业务数据。其中，i为大于等于1且小于Q的整数，j为大于等于1且小于等于N的整数。

可选地，上述从查找范围中查找与第i条目标业务数据相匹配的业务数据包括：利用二分查找算法，从查找范围中查找与第i条目标业务数据相匹配的业务数据。上述从查找范围中查找与目标业务数据序列中的第i+1条目标业务数据相匹配的业务数据包括：利用二分查找算法，从查找范围中查找与目标业务数据序列中的第i+1条目标业务数据相匹配的业务数据。

可选地，上述基于P条业务数据各自的多项字段，利用P条业务数据对源业务数据表进行更新包括：针对所述P条业务数据中的任一业务数据，确定源业务数据表中是否存在R条业务数据，该R条业务数据与该任一业务数据的第一字段的取值相同且第二字段的取值相同，R为大于等于1的整数。如果不存在，则将该任一业务数据添加保存至源业务数据表中。如果存在，则在该任一业务数据和上述R条业务数据中确定时间字段的取值最大的业务数据，并将该时间字段的取值最大的业务数据保存至源业务数据表并覆盖上述R条业务数据。

可选地，上述基于P条业务数据各自的多项字段，利用P条业务数据对源业务数据表进行更新包括：利用P条业务数据各自的第一字段的取值，构成取值集合；针对P条业务数据中的任一业务数据，确定源业务数据表中是否存在S条业务数据，S条业务数据的第一字段的取值属于取值集合，且S条业务数据的第二字段的取值与该任一业务数据的第二字段的取值相同，S为大于等于1的整数。如果不存在，则将该任一业务数据添加保存至源业务数据表中。如果存在，在该任一业务数据和上述S条业务数据中确定时间字段的取值最大的业务数据，并将该时间字段的取值最大的业务数据保存至源业务数据表并覆盖上述S条业务数据。

本公开的另一个方面提供了一种业务数据处理装置，应用于计算机系统。该装置包括：获取模块、筛选模块、匹配模块和更新模块。获取模块用于获取源业务数据表。源业务数据表包括M条业务数据，该M条业务数据中的每条业务数据包括多项字段，M为大于1的整数。筛选模块用于从该M条业务数据中提取N条业务数据，以由该N条业务数据构成待处理数据表，N为大于等于1且小于等于M的整数。匹配模块用于基于双文件排序比较算法，对待处理数据表和目标数据表进行匹配，以确定待处理数据表中与目标数据表相匹配的P条业务数据，P为大于等于1且小于等于N的整数。更新模块用于基于P条业务数据各自的多项字段，利用P条业务数据对源业务数据表进行更新。

本公开的另一方面提供了一种计算机系统，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时用于实现如上所述的方法。

本公开的另一方面提供了一种计算机可读存储介质，存储有计算机可执行指令，所述指令在被执行时用于实现如上所述的方法。

本公开的另一方面提供了一种计算机程序，所述计算机程序包括计算机可执行指令，所述指令在被执行时用于实现如上所述的方法。

根据本公开的实施例，根据本公开实施例的业务数据处理方法针对包含大量业务数据的源业务数据表，可以从中筛选出N条业务数据以构成待处理数据表，再通过针对N条数据的匹配过程，筛选出匹配成功的P条业务数据。由于该匹配过程基于双文件排序比较算法进行，可以有效减少匹配过程的时间复杂度。再基于匹配成功的P条业务数据对源业务数据表进行更新，可以使得源业务数据表中冗余无意义的业务数据被去除，且匹配于同一对象的不同信息表达也可以被统一。从而可以有效减少源业务数据表的数据体量，提高后续业务数据处理效率。

附图说明

为了更完整地理解本公开及其优势，现在将参考结合附图的以下描述，其中：

图1示意性示出了根据本公开实施例的应用业务数据处理方法和装置的示例性系统架构；

图2示意性示出了根据本公开实施例的业务数据处理方法的流程图；

图3示意性示出了根据本公开另一实施例的业务数据处理方法的流程图；

图4示意性示出了根据本公开另一实施例的业务数据处理方法的流程图；

图5示意性示出了根据本公开另一实施例的业务数据处理方法的流程图；

图6示意性示出了根据本公开另一实施例的业务数据处理方法的流程图；

图7示意性示出了根据本公开实施例的业务数据处理装置的框图；以及

图8示意性示出了根据本公开实施例的计算机系统的框图。

具体实施方式

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本公开实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。

本公开的实施例提供了一种业务数据处理方法和装置，应用于计算机系统。该业务数据处理方法可以包括：获取过程、筛选过程、匹配过程和更新过程。在获取过程，获取源业务数据表。源业务数据表包括M条业务数据，该M条业务数据中的每条业务数据包括多项字段，M为大于1的整数。然后进行筛选过程，从该M条业务数据中提取N条业务数据，以由该N条业务数据构成待处理数据表，N为大于等于1且小于等于M的整数。接着进行匹配过程，基于双文件排序比较算法，对待处理数据表和目标数据表进行匹配，以确定待处理数据表中与目标数据表相匹配的P条业务数据，P为大于等于1且小于等于N的整数。接着进行更新过程，基于P条业务数据各自的多项字段，利用P条业务数据对源业务数据表进行更新。

图1示意性示出了根据本公开实施例的可以应用业务数据处理方法和装置的示例性系统架构100。需要注意的是，图1所示仅为可以应用本公开实施例的系统架构的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。

如图1所示，根据该实施例的系统架构100可以包括终端设备101、102、103，网络104和服务器/服务器集群105。网络104用以在终端设备101、102、103和服务器/服务器集群105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

终端设备101、102、103上可以安装有各种客户端应用，例如业务建模工具(仅为示例)。终端设备101、102、103可以通过各种客户端应用与服务器/服务器集群105进行交互，以向服务器/服务器集群105发送各种请求或接收服务器/服务器集群105返回的结果。

终端设备101、102、103可以是各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器服务器/服务器集群105是可以提供各种服务支持的后台管理服务器或服务器集群(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理，并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。

需要说明的是，本公开实施例所提供的业务数据处理方法一般可以由服务器/服务器集群105执行。相应地，本公开实施例所提供的业务数据处理装置一般可以设置于服务器/服务器集群105中。本公开实施例所提供的业务数据处理方法也可以由终端设备101、102、103执行。相应地，本公开实施例所提供的业务数据处理装置一般可以设置于终端设备101、102、103中。本公开实施例所提供的业务数据处理方法也可以由不同于服务器/服务器集群105且能够与终端设备101、102、103和/或服务器/服务器集群105通信的服务器或服务器集群执行。相应地，本公开实施例所提供的业务数据处理装置也可以设置于不同于服务器/服务器集群105且能够与终端设备101、102、103和/或服务器/服务器集群105通信的服务器或服务器集群中。

应该理解，图1中的终端设备、网络和服务器/服务器集群的数目仅仅是示意性的。根据实际需要，可以具有任意数目的终端设备、网络和服务器/服务器集群。

随着银行业务的不断发展和扩张，存储于源业务数据表中的业务数据量不断增加。一些情况下，由于大量业务数据的来源不同，导致记录规则不统一。例如，多条业务数据均对应于同一对象A时，其中一些业务数据记录的是该对象A的账户名，另一些业务数据记录的是该对象A的业务流水号，还有一些业务数据记录的是该对象A的手机号码等。从而导致针对大量业务数据无法基于统一索引信息进行批量处理，极大地影响了业务数据的处理效率。

根据本公开的实施例，提供了一种业务数据处理方法，用于针对源业务数据表中的业务数据进行合并更新，从而去除冗余业务数据，统一业务数据的索引信息。下面结合附图进行示例性说明。应注意，以下方法中各个操作的序号仅作为该操作的表示以便描述，而不应被看作表示该各个操作的执行顺序。除非明确指出，否则该方法不需要完全按照所示顺序来执行。

图2示意性示出了根据本公开实施例的业务数据处理方法的流程图，可以应用于计算机系统，该计算机系统可以作为服务器或终端设备。

如图2所示，该业务数据处理方法可以包括操作S210～S240。

在操作S210，获取源业务数据表。

示例性地，银行的各种业务场景下所产生的业务数据均周期性地被存储至源业务数据表，源业务数据表包括大量业务数据。例如源业务数据表包括M条业务数据，M可以为大于1的整数。该M条业务数据中的每条业务数据可以包括多项字段，每个业务数据中多项字段各自的取值用于表征该业务数据在不同维度下的相关信息。例如，一个业务数据包括转账人字段、转账金额字段和收款人字段，其中转账人字段的取值表征该条业务数据所对应的业务事件的转账人信息，转账金额字段的取值表征该条业务数据所对应的业务事件的具体转账金额，收款人字段的取值表征该条业务数据所对应的业务事件的收款人信息。

在操作S220，从该M条业务数据中提取N条业务数据，以由该N条业务数据构成待处理数据表。

其中，N为大于等于1且小于等于M的整数。本操作S220从M条业务数据中初步地筛选出N条业务数据，后续对该N条业务数据进行匹配处理，以减小数据处理量。

在操作S230，基于双文件排序比较算法，对待处理数据表和目标数据表进行匹配，以确定待处理数据表中与目标数据表相匹配的P条业务数据。

其中，P为大于等于1且小于等于N的整数。双文件排序比较算法是在对两个文件进行比较匹配时，利用文件中元素的排序规则减少匹配次数，从而减少匹配过程所需的时间复杂度的方式。下文中将进行展开说明。例如，目标数据表可以记录需要关注的关键信息，则与目标数据表相匹配的P条业务数据为包含上述关键信息的业务数据，需要后续保留在源业务数据表中。再例如，目标数据表可以记录针对同一业务信息的多种不同信息表达，则与目标数据表相匹配的P条业务数据为针对该同一业务信息的业务数据，后续在源业务数据表中可以进行统一索引。

在操作S240，基于P条业务数据各自的多项字段，利用P条业务数据对源业务数据表进行更新。

本领域技术人员可以理解，根据本公开实施例的业务数据处理方法针对包含大量业务数据的源业务数据表，可以从中筛选出N条业务数据以构成待处理数据表，再通过针对N条数据的匹配过程，筛选出匹配成功的P条业务数据。由于该匹配过程基于双文件排序比较算法进行，可以有效减少匹配过程的时间复杂度。再基于匹配成功的P条业务数据对源业务数据表进行更新，可以使得源业务数据表中冗余无意义的业务数据被去除，且匹配于同一对象的不同信息表达也可以被统一。从而可以有效减少源业务数据表的数据体量，提高后续业务数据处理效率。

根据本公开的实施例，上述上述每条业务数据所包含的多项字段可以包括：第一字段、第二字段和时间字段。其中第一字段和第二字段表征互不相同的两个维度的业务信息，例如第一字段可以是交易发起人字段，第二字段可以是交易对象字段。或者，第一字段可以是交易类型字段，第二字段可以是交易金额字段，等等，在此不做限制。时间字段的取值可以用于表征业务数据的更新时间，一个业务数据的时间字段的取值越大，表征该业务数据越新。上述从M条业务数据中提取N条业务数据的过程可以包括：基于M条业务数据的第一字段和第二字段的取值，将M条业务数据划分为N个分组，使得属于同一分组的业务数据的第一字段的取值相同且第二字段的取值也相同。接着，针对上述N个分组中的每个分组，选取每个分组中时间字段的取值最大的一条业务数据，以从上述N个分组中选取出上述N条业务数据。上述过程对于第一字段的取值相同且第二字段也取值相同的多个业务数据，选取其中更新时间最晚的一条业务数据作为代表。该过程也可称为初筛过程，可以在匹配之前筛选掉绝大部分的业务数据，对于后续效率优化具有重要意义。

图3示意性示出了根据本公开另一实施例的业务数据处理方法的示例流程图，用于对上述提取N条业务数据的过程进行示例性说明。

如图3所示，上述提取N条业务数据的过程例如可以按照如下方式实施。

在操作S301，获取源业务数据表，开始进行初筛。

例如从数据库中读取源业务数据表A。示例性地，如表1所示，源业务数据表A包括业务数据1、业务数据2、业务数据3和业务数据4，源业务数据表A中的每条业务数据包括第一字段a、第二字段b和时间字段c，每条业务数据的各字段的取值在表1中列出。以业务数据1为例，业务数据1的第一字段a的取值为a1，第二字段b的取值为b1，时间字段c的取值为c1。

表1

业务数据1	a＝a1	b＝b1	c＝c1
				业务数据2	a＝a1	b＝b1	c＝c2
业务数据3	a＝a3	b＝b3	c＝c3
				业务数据4	a＝a4	b＝b1	c＝c3

在操作S302，针对源业务数据表中的业务数据，按照第一字段的取值进行升序排列；针对第一字段的取值相同的业务数据，按照第二字段的取值进行升序排列；针对第一字段的取值相同且第二字段的取值也相同的业务数据，按照时间字段的取值进行降序排列。

在操作S303，根据上述排序结果，将源业务数据表中的业务数据划分至一个或多个分组。属于同一分组的业务数据的第一字段取值相同且第二字段取值也相同。

沿用上文中的例子，针对如表1所示的源业务数据表A，a1＜a3＜a4，b1＜b3，c1＜c2＜c3，经过操作S302～S303的排序过程后，划分为三个分组：分组1、分组2和分组3。如表2所示。

表2

在操作S304，针对每个分组，选取该分组中时间字段的取值最大的业务数据。

例如，在表2所示的例子中，针对分组1，选取业务数据2。针对分组2和3，由于这两个分组中均只有一条业务数据，可以直接保留。故提取出3条业务数据：业务数据2、业务数据3和业务数据4，即上文中的N条业务数据，以构成待处理数据表。本例中待处理数据表如表3所示。

表3

业务数据2	a＝a1	b＝b1	c＝c2
				业务数据3	a＝a3	b＝b3	c＝c3
业务数据4	a＝a4	b＝b1	c＝c3

在对待处理数据表进行匹配的过程中，需要多次读取待处理数据表中的业务数据和目标数据表中的目标业务数据。受限于数据库配置、网络等原因，主机对于表的查询效率较低。为提高业务数据处理效率，可以将待处理数据表和目标数据表转换为预定格式的文件，并且可以将文件写入预定存储区域(例如内存)，以提高吞吐率。示例性地，根据本公开实施例的业务数据处理方法还可以包括：在上述对待处理数据表和目标数据表进行匹配之前，将待处理数据表转换为预定格式的第一文件，并将目标数据表转换为预定格式的第二文件。然后将第一文件和第二文件存储至计算机系统的预定存储区域。在此基础上，上述对待处理数据表和目标数据表进行匹配包括：从预定存储区域读取第一文件和第二文件，并对第一文件和第二文件进行匹配。

根据本公开的实施例，假设业务数据处理需求是将待处理数据表与目标数据表的第一字段进行匹配，在此情境下，上述目标数据表包括Q条目标业务数据，该Q条目标业务数据中的每条目标业务数据包括第一字段。Q为大于等于1的整数。例如目标数据表如表4所示，共包括3条目标业务数据，本例中Q＝3，每条目标业务数据均包括第一字段a。以目标业务数据1为例，目标业务数据1的第一字段a的取值为a1。

表4

目标业务数据1	a＝a1
		目标业务数据2	a＝a2
目标业务数据3	a＝a4

上述基于双文件排序比较算法，对待处理数据表和目标数据表进行匹配包括：按照第一字段的取值从小至大的顺序对N条业务数据进行排序，以形成业务数据序列。例如表3所示的待处理数据表形成的业务数据序列为{业务数据2，业务数据3，业务数据4}。同理地，按照第一字段的取值从小至大的顺序对Q条目标业务数据进行排序，以形成目标业务数据序列。例如表4所示的目标数据表形成的目标业务数据序列为{目标业务数据1，目标业务数据2，目标业务数据3}。

在匹配过程中，将业务数据序列与目标业务数据序列进行比较，并且，当业务数据序列中一条业务数据的第一字段的取值与目标业务数据序列中一条目标业务数据的第一字段的取值相同时，确定一条业务数据与一条目标业务数据相匹配。在上文的例子中，业务数据2与目标业务数据1的第一字段a的取值均为a1，业务数据2与目标业务数据1相匹配。此外，业务数据4与目标业务数据3的第一字段a的取值均为a4，业务数据4与目标业务数据3相匹配。

在实际业务场景下，业务数据量可能较大，为提高匹配效率，可以借鉴二分查找算法(binary search algorithm)执行上述两个序列的匹配过程。

图4示意性示出了根据本公开另一实施例的业务数据处理方法的示例流程图，用于通过一个例子对上述将业务数据序列与目标业务数据序列进行比较的过程进行示例性说明。

如图4所示，该过程例如可以包括：在操作S410，依次对目标业务数据序列中的Q条目标业务数据进行比较。其中，针对目标业务数据序列中的第i条目标业务数据，可以执行如下操作。

在操作S411，将业务数据序列作为查找范围，从该查找范围中查找与第i条目标业务数据相匹配的业务数据。

其中在查找范围内查找与第i条目标业务数据相匹配的业务数据的过程例如可以基于二分查找算法进行。

在操作S412，如果查找到业务数据序列中的第j条业务数据与第i条目标业务数据相匹配，则将查找范围变更为业务数据序列中的第j+1条业务数据至第N条业务数据。并从该查找范围中查找与目标业务数据序列中的第i+1条目标业务数据相匹配的业务数据。

其中在查找范围内查找与目标业务数据序列中的第i+1条目标业务数据相匹配的业务数据的过程例如可以基于二分查找算法进行。

在操作S413，如果未查找到与第i条目标业务数据相匹配的业务数据，且业务数据序列中的第N条业务数据的第一字段的取值小于第i条目标业务数据的第一字段的取值，则可以确定业务数据序列与目标业务数据序列中的第i+1条目标业务数据至第Q条目标业务数据均不匹配。

由于业务数据序列是升序排列的，在确定业务数据序列中的第N条业务数据的第一字段的取值小于第i条目标业务数据的第一字段的取值时，可以确定业务数据序列中第一字段的最大取值小于第i条目标业务数据的第一字段的取值。又由于目标业务数据序列也是升序排列的，可以确定业务数据序列中第一字段的取值相比于目标业务数据序列中第i条目标业务数据之后的所有目标业务数据的第一字段的取值均较小。

在操作S414，如果未查找到与第i条目标业务数据相匹配的业务数据，且第i条目标业务数据的第一字段的取值处于第j条业务数据和第j+1条业务数据的第一字段的取值之间，则将查找范围变更为业务数据序列中的第j+1条业务数据至第N条业务数据，从该查找范围中查找与目标业务数据序列中的第i+1条目标业务数据相匹配的业务数据。

上述各操作中所提到的i为大于等于1且小于Q的整数，j为大于等于1且小于等于N的整数。

图5示意性示出了根据本公开另一实施例的业务数据处理方法的示例流程图，用于通过另一个例子对上述将业务数据序列与目标业务数据序列进行比较的过程进行示例性说明。

如图5所示，该过程例如可以包括：开始之后，在操作S501，从业务数据序列A中读取一条业务数据A1(A1表示业务数据序列中的第1条业务数据，同理地，Am表示业务数据序列中的第m条业务数据，m为业务数据的序号，m为大于等于1且小于等于N的整数)。在操作S502，从目标业务数据序列B中读取一条目标业务数据B1(B1表示目标业务数据序列中的第1条目标业务数据，同理地，Bn表示业务数据序列中的第n条目标业务数据，n为业务数据的序号，n为大于等于1且小于等于N的整数)。可以理解，每次读取数据是按照数据所在的序列的顺序进行的，例如每重复执行一次S501，则所读取的业务数据的序号加1。同理地，每重复执行一次S502，则所读取的目标业务数据的序号加1。

在操作S503，确定A1的第一字段a的取值是否大于B1的第一字段a的取值。如果是，则重复执行操作S502。示例性地，此时从目标业务数据序列B中读取下一条目标业务数据B2。如果否，则执行操作S504。

在操作S504，确定A1的第一字段a的取值是否小于B1的第一字段a的取值。如果是，则重复执行操作S501。示例性地，此时从业务数据序列A中读取下一条业务数据A2。如果否，则执行操作S505。

在操作S505，确定A1与B1相匹配。

以此类推，直至完成业务数据序列A或目标业务数据序列B中所有数据的匹配过程。此时匹配过程结束。

在进行匹配的过程中，相较于采取业务数据序列和目标业务序列中的数据逐条比较的方式，采用双文件排序比较的方式，可以大幅度降低时间复杂度，提高匹配效率。

示例性地，将表3所示的待处理数据表与表4所示的目标数据表进行匹配后，得到的P条业务数据如表5所示。

表5

业务数据2	a＝a1	b＝b1	c＝c2
				业务数据4	a＝a4	b＝b1	c＝c3

经过上述匹配过程，在确定与目标数据表相匹配的P条业务数据后，根据本公开的实施例，可以基于P条业务数据各自的多项字段，利用P条业务数据对源业务数据表进行更新，以实现源业务数据表中数据体量的精简。示例性地，在一个实施例中，该利用P条业务数据对源业务数据表进行更新的过程可以包括：针对P条业务数据中的任一业务数据，确定源业务数据表中是否存在R条业务数据，该R条业务数据与该任一业务数据的第一字段的取值相同且第二字段的取值相同，R为大于等于1的整数。如果不存在，则将该任一业务数据添加保存至源业务数据表中。如果存在，则在该任一业务数据和上述R条业务数据中确定时间字段的取值最大的业务数据，并将该时间字段的取值最大的业务数据保存至源业务数据表并覆盖上述R条业务数据。

上述实施过程对于具有同样的第一字段和第二字段的业务数据，仅在源业务数据表中插入或保留最新的该业务数据。

在另一个实施例中，例如目标数据表可以记录针对同一业务信息的多种不同信息表达，则与目标数据表相匹配的P条业务数据为针对该同一业务信息的业务数据。如上文表3中的业务数据2和业务数据4均与目标数据表相匹配，可以示例性地表征取值a1和a4可以统一为同一索引。根据本公开的实施例，上述基于P条业务数据各自的多项字段，利用P条业务数据对源业务数据表进行更新的过程包括：利用P条业务数据各自的第一字段的取值，构成取值集合；针对P条业务数据中的任一业务数据，确定源业务数据表中是否存在S条业务数据，S条业务数据的第一字段的取值属于取值集合，且S条业务数据的第二字段的取值与该任一业务数据的第二字段的取值相同，S为大于等于1的整数。如果不存在，则将该任一业务数据添加保存至源业务数据表中。如果存在，在该任一业务数据和上述S条业务数据中确定时间字段的取值最大的业务数据，并将该时间字段的取值最大的业务数据保存至源业务数据表并覆盖上述S条业务数据。

上述更新过程中所进行的筛选过程可以称为精筛过程，用于最大程度地实现源业务数据表中业务数据的批量化合并。

图6示意性示出了根据本公开另一实施例的业务数据处理方法的示例流程图，用于通过一个例子对上述利用P条业务数据对源业务数据表进行更新的过程进行示例性说明。

如图6所示，该利用P条业务数据对源业务数据表进行更新的过程例如可以包括：开始之后，针对P条业务数据中的每条业务数据，例如业务数据A1，执行如下操作。

在操作S601，基于业务数据A1查询源业务数据表。

在操作S602，确定源业务数据表中是否存在与A1的第二字段b的取值相同的业务数据A0。如果是，则执行操作S603，如果否，则执行操作S604。

在操作S603，确定业务数据A1的时间字段c的取值是否大于业务数据A0的时间字段c的取值。如果是，则执行操作S605，如果否，则结束针对A1的操作，变更数据序号，开始执行针对P条业务数据中的另一条业务数据的操作。

在操作S604，将业务数据A1插入源业务数据表。

在操作S605，删除业务数据A0，将业务数据A1插入源业务数据表。

以此类推，直至完成针对P条业务数据中的所有业务数据的操作。示例性地，针对上述表5所示的P条业务数据，在a1和a4可以统一为同一索引的情况下，最终可以仅利用业务数据4(业务数据4的更新时间晚于业务数据2的更新时间，)进行源业务数据表的更新，将业务数据2和业务数据4合并，合并结果可以如表6所示。

表6

业务数据4

a＝a4

b＝b1

c＝c3

通过采用上述各实施例，可以提高针对源业务数据表的数据处理效率，解决批量数据处理过程中的效率预警问题。

图7示意性示出了根据本公开实施例的业务数据处理装置的框图，可以应用于各种类型的计算机系统。

如图7所示，该业务数据处理装置700可以包括：获取模块710、筛选模块720、匹配模块730和更新模块740。

获取模块710用于获取源业务数据表。源业务数据表包括M条业务数据，该M条业务数据中的每条业务数据包括多项字段，M为大于1的整数。

筛选模块720用于从该M条业务数据中提取N条业务数据，以由该N条业务数据构成待处理数据表，N为大于等于1且小于等于M的整数。

匹配模块730用于基于双文件排序比较算法，对待处理数据表和目标数据表进行匹配，以确定待处理数据表中与目标数据表相匹配的P条业务数据，P为大于等于1且小于等于N的整数。

更新模块740用于基于P条业务数据各自的多项字段，利用P条业务数据对源业务数据表进行更新。

需要说明的是，装置部分实施例中各模块/单元/子单元等的实施方式、解决的技术问题、实现的功能、以及达到的技术效果分别与方法部分实施例中各对应的步骤的实施方式、解决的技术问题、实现的功能、以及达到的技术效果相同或类似，在此不再赘述。

根据本公开的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，根据本公开实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

例如，获取模块710、筛选模块720、匹配模块730和更新模块740中的任意多个可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。根据本公开的实施例，获取模块710、筛选模块720、匹配模块730和更新模块740中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，获取模块710、筛选模块720、匹配模块730和更新模块740中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

图8示意性示出了根据本公开实施例的适于实现上文描述的方法的计算机系统的方框图。图8示出的计算机系统仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图8所示，根据本公开实施例的计算机系统800包括处理器801，其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。处理器801例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))，等等。处理器801还可以包括用于缓存用途的板载存储器。处理器801可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

在RAM 803中，存储有系统800操作所需的各种程序和数据。处理器801、ROM 802以及RAM 803通过总线804彼此相连。处理器801通过执行ROM 802和/或RAM 803中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意，所述程序也可以存储在除ROM 802和RAM 803以外的一个或多个存储器中。处理器801也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。

根据本公开的实施例，系统800还可以包括输入/输出(I/O)接口805，输入/输出(I/O)接口805也连接到总线804。系统800还可以包括连接至I/O接口805的以下部件中的一项或多项：包括键盘、鼠标等的输入部分806；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807；包括硬盘等的存储部分808；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器810上，以便于从其上读出的计算机程序根据需要被安装入存储部分808。

根据本公开的实施例，根据本公开实施例的方法流程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读存储介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分809从网络上被下载和安装，和/或从可拆卸介质811被安装。在该计算机程序被处理器801执行时，执行本公开实施例的系统中限定的上述功能。根据本公开的实施例，上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。

本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的；也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本公开实施例的方法。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本领域技术人员可以理解，尽管已经参照本公开的特定示例性实施例示出并描述了本公开，但是本领域技术人员应该理解，在不背离所附权利要求及其等同物限定的本公开的精神和范围的情况下，可以对本公开进行形式和细节上的多种改变。因此，本公开的范围不应该限于上述实施例，而是应该不仅由所附权利要求来进行确定，还由所附权利要求的等同物来进行限定。

Claims

1.一种业务数据处理方法，应用于计算机系统，所述方法包括：

获取源业务数据表，所述源业务数据表包括M条业务数据，所述M条业务数据中的每条业务数据包括多项字段，M为大于1的整数；

从所述M条业务数据中提取N条业务数据，以由所述N条业务数据构成待处理数据表，N为大于等于1且小于等于M的整数；

基于双文件排序比较算法，对所述待处理数据表和目标数据表进行匹配，以确定所述待处理数据表中与所述目标数据表相匹配的P条业务数据，P为大于等于1且小于等于N的整数；以及

基于所述P条业务数据各自的所述多项字段，利用所述P条业务数据对所述源业务数据表进行更新。

2.根据权利要求1所述的方法，其中，所述多项字段包括：第一字段、第二字段和时间字段；

所述从所述M条业务数据中提取N条业务数据包括：

基于所述M条业务数据的所述第一字段和所述第二字段的取值，将所述M条业务数据划分为N个分组，使得属于同一分组的业务数据的第一字段的取值相同且第二字段的取值相同；以及

针对所述N个分组中的每个分组，选取所述每个分组中所述时间字段的取值最大的一条业务数据，以从所述N个分组中选取出所述N条业务数据。

3.根据权利要求1所述的方法，还包括：

在所述对所述待处理数据表和目标数据表进行匹配之前，将所述待处理数据表转换为预定格式的第一文件；

将所述目标数据表转换为预定格式的第二文件；以及

将所述第一文件和所述第二文件存储至所述计算机系统的预定存储区域；

所述对所述待处理数据表和目标数据表进行匹配包括：从所述预定存储区域读取所述第一文件和所述第二文件，并对所述第一文件和所述第二文件进行匹配。

4.根据权利要求2所述的方法，其中，所述目标数据表包括Q条目标业务数据，所述Q条目标业务数据中的每条目标业务数据包括第一字段，Q为大于等于1的整数；

所述基于双文件排序比较算法，对所述待处理数据表和目标数据表进行匹配包括：

按照第一字段的取值从小至大的顺序对所述N条业务数据进行排序，以形成业务数据序列；

按照第一字段的取值从小至大的顺序对所述Q条目标业务数据进行排序，以形成目标业务数据序列；

将所述业务数据序列与所述目标业务数据序列进行比较；以及

当所述业务数据序列中一条业务数据的第一字段的取值与所述目标业务数据序列中一条目标业务数据的第一字段的取值相同时，确定所述一条业务数据与所述一条目标业务数据相匹配。

5.根据权利要求4所述的方法，其中，所述将所述业务数据序列与所述目标业务数据序列进行比较包括：

依次对所述目标业务数据序列中的Q条目标业务数据进行比较，其中，针对所述目标业务数据序列中的第i条目标业务数据，

将所述业务数据序列作为查找范围，从所述查找范围中查找与所述第i条目标业务数据相匹配的业务数据；

如果查找到所述业务数据序列中的第j条业务数据与所述第i条目标业务数据相匹配，则将查找范围变更为所述业务数据序列中的第j+1条业务数据至第N条业务数据，从所述查找范围中查找与所述目标业务数据序列中的第i+1条目标业务数据相匹配的业务数据；

如果未查找到与所述第i条目标业务数据相匹配的业务数据，且所述业务数据序列中的第N条业务数据的第一字段的取值小于所述第i条目标业务数据的第一字段的取值，则确定所述业务数据序列与所述目标业务数据序列中的第i+1条目标业务数据至第Q条目标业务数据均不匹配；以及

如果未查找到与所述第i条目标业务数据相匹配的业务数据，且所述第i条目标业务数据的第一字段的取值处于所述第j条业务数据和所述第j+1条业务数据的第一字段的取值之间，则将查找范围变更为所述业务数据序列中的第j+1条业务数据至第N条业务数据，从所述查找范围中查找与所述目标业务数据序列中的第i+1条目标业务数据相匹配的业务数据，

其中，i为大于等于1且小于Q的整数，j为大于等于1且小于等于N的整数。

6.根据权利要求5所述的方法，其中，

所述从所述查找范围中查找与所述第i条目标业务数据相匹配的业务数据包括：利用二分查找算法，从所述查找范围中查找与所述第i条目标业务数据相匹配的业务数据；以及

所述从所述查找范围中查找与所述目标业务数据序列中的第i+1条目标业务数据相匹配的业务数据包括：利用二分查找算法，从所述查找范围中查找与所述目标业务数据序列中的第i+1条目标业务数据相匹配的业务数据。

7.根据权利要求2所述的方法，其中，所述基于所述P条业务数据各自的所述多项字段，利用所述P条业务数据对所述源业务数据表进行更新包括：

针对所述P条业务数据中的任一业务数据，

确定所述源业务数据表中是否存在R条业务数据，所述R条业务数据与所述任一业务数据的第一字段的取值相同且第二字段的取值相同，R为大于等于1的整数；

如果不存在，则将所述任一业务数据添加保存至所述源业务数据表中；以及

如果存在，则在所述任一业务数据和所述R条业务数据中确定时间字段的取值最大的业务数据，并将所述时间字段的取值最大的业务数据保存至所述源业务数据表并覆盖所述R条业务数据。

8.根据权利要求2所述的方法，其中，所述基于所述P条业务数据各自的所述多项字段，利用所述P条业务数据对所述源业务数据表进行更新包括：

利用所述P条业务数据各自的第一字段的取值，构成取值集合；

针对所述P条业务数据中的任一业务数据，

确定所述源业务数据表中是否存在S条业务数据，所述S条业务数据的第一字段的取值属于所述取值集合，且所述S条业务数据的第二字段的取值与所述任一业务数据的第二字段的取值相同，S为大于等于1的整数；

如果存在，在所述任一业务数据和所述S条业务数据中确定时间字段的取值最大的业务数据，并将所述时间字段的取值最大的业务数据保存至所述源业务数据表并覆盖所述S条业务数据。

9.一种业务数据处理装置，应用于计算机系统，所述装置包括：

获取模块，用于获取源业务数据表，所述源业务数据表包括M条业务数据，所述M条业务数据中的每条业务数据包括多项字段，M为大于1的整数；

筛选模块，用于从所述M条业务数据中提取N条业务数据，以由所述N条业务数据构成待处理数据表，N为大于等于1且小于等于M的整数；

匹配模块，用于基于双文件排序比较算法，对所述待处理数据表和目标数据表进行匹配，以确定所述待处理数据表中与所述目标数据表相匹配的P条业务数据，P为大于等于1且小于等于N的整数；以及

更新模块，用于基于所述P条业务数据各自的所述多项字段，利用所述P条业务数据对所述源业务数据表进行更新。

10.一种计算机系统，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时用于实现如权利要求1～8任一项所述的方法。

11.一种计算机可读存储介质，存储有计算机可执行指令，所述指令在被执行时用于实现如权利要求1～8任一项所述的方法。