CN111782657B

CN111782657B - 数据处理方法及装置

Info

Publication number: CN111782657B
Application number: CN202010649457.0A
Authority: CN
Inventors: 刘四亚; 洪路路
Original assignee: Shanghai Qianzhen Information Technology Co ltd
Current assignee: Shanghai Qianzhen Information Technology Co ltd
Priority date: 2020-07-08
Filing date: 2020-07-08
Publication date: 2024-06-07
Anticipated expiration: 2040-07-08
Also published as: CN111782657A

Abstract

本发明公开了一种数据处理方法及装置，其中，所述方法包括：获取待处理数据，分别将包含同一编号信息的待处理数据按照时间信息进行排序，获取所有待处理数据对应的编号信息中每个编号信息对应的最早和/或最晚的待处理数据；将所有待处理数据对应的编号信息中一编号信息作为第一编号信息，以第一编号信息对应的最早的待处理数据作为第一待处理数据，以存储表中所述第一编号信息对应的最早的已处理数据作为第一已处理数据，将所述第一待处理数据和所述第一已处理数据进行比对，若所述第一待处理数据更早，则将所述第一待处理数据存储至所述存储表。本发明提供的数据处理方法及装置，可以解决现有技术中查表效率不高的技术问题。

Description

数据处理方法及装置

技术领域

本发明涉及数据处理的技术领域，尤其涉及数据处理方法及装置。

背景技术

现有的业务数据通常存储在单表，当需要查询相关报表时，速度较慢，由此产生查询效率低下的问题。其他系统在解决此类问题时，一般采用将表进行水平拆分或者垂直拆分的方法。其中，

水平拆分，即对数据表“行”的拆分，把一张表的数据拆分为多张表来存放。例如，有一张400W的扫描表scan，为提高查询效率，将其分成4张表scan1，scan2，scan3和scan4，通过id取模的方式将数据分散到四张表中。水平拆分的缺点是：拆分规则相对复杂，很难抽象出一个能够满足整个数据库的拆分规则；后期数据的维护难度有所增加，人为手工定位数据更加困难；应用系统各模块耦合度较高，可能会对后面数据的迁移拆分造成一定的困难。

垂直拆分，即对数据表“列”的拆分，把一张“列”比较多的表拆分为多张表。例如，有一张扫描表scan，包含30个字段，将其中不常用的几个字段放在一张表中，将比较大的几个字段放在另一张表中，将经常查询的几个字段放在又一张表中。垂直拆分的缺点是：部分表关联无法在数据库级别完成，需要在程序中完成；对于访问极其频繁并且数据量超大的表仍然存在性能瓶颈，不一定能满足要求；事务处理相对更为复杂；拆分达到一定程度之后，扩展性会遇到限制；过度拆分可能使系统更加复杂而难以维护。

此外，对于需要查询出表中最新或者最初的一条数据的业务场景中，使用上述水平拆分或者垂直拆分方法无法实现快速查询，仍需要对表进行大批量数据的排序查询操作。

发明内容

本发明的目的在于提供一种数据处理方法及装置，以解决现有技术中查表效率不高的技术问题。

本发明的目的采用以下技术方案实现：

本发明的第一方面提供一种数据处理方法，所述方法包括：

获取待处理数据，每条待处理数据包含编号信息和时间信息，同一编号信息包含于一条或者多条待处理数据；

分别将包含同一编号信息的待处理数据按照时间信息进行排序，获取所有待处理数据对应的编号信息中每个编号信息对应的最早和/或最晚的待处理数据；

将所有待处理数据对应的编号信息中一编号信息作为第一编号信息，以第一编号信息对应的最早的待处理数据作为第一待处理数据，以存储表中所述第一编号信息对应的最早的已处理数据作为第一已处理数据，将所述第一待处理数据和所述第一已处理数据进行比对，若所述第一待处理数据更早，则将所述第一待处理数据存储至所述存储表；和/或，以第一编号信息对应的最晚的待处理数据作为第二待处理数据，以存储表中所述第一编号信息对应的最晚的已处理数据作为第二已处理数据，将所述第二待处理数据和所述第二已处理数据进行比对，若所述第二待处理数据更晚，则将所述第二待处理数据存储至所述存储表。

根据本发明的第一方面提供的数据处理方法，对于同一编号信息对应的待处理数据，使其按照时间排序为最早或者最晚的待处理数据被存储至存储表，当同一编号信息对应的待处理数据在多个不同时间被重复录入时，以最早或者最晚录入的待处理数据作为最终的待处理数据，保证存储至存储表中的已处理数据的准确性，从而提高查询存储表效率。

可选地，所述方法还包括：

依次将所有待处理数据对应的编号信息中下一编号信息作为第一编号信息并执行以下步骤：以第一编号信息对应的最早的待处理数据作为第一待处理数据，以存储表中所述第一编号信息对应的最早的已处理数据作为第一已处理数据，将所述第一待处理数据和所述第一已处理数据进行比对，若所述第一待处理数据更早，则将所述第一待处理数据存储至所述存储表；和/或，以第一编号信息对应的最晚的待处理数据作为第二待处理数据，以存储表中所述第一编号信息对应的最晚的已处理数据作为第二已处理数据，将所述第二待处理数据和所述第二已处理数据进行比对，若所述第二待处理数据更晚，则将所述第二待处理数据存储至所述存储表。

根据该步骤，在所有待处理数据对应的编号信息中，依次对于同一编号信息对应的待处理数据，使其按照时间排序为最早或者最晚的待处理数据被存储至存储表，保证存储至存储表中的所有待处理数据对应的编号信息中每个编号信息对应的待处理数据的准确性。

可选地，

所述获取待处理数据，包括：

获取待处理数据并存储至临时表；

所述分别将包含同一编号信息的待处理数据按照时间信息进行排序，获取最早和/或最晚的待处理数据，包括：

在所述临时表中，分别将包含同一编号信息的待处理数据按照时间信息进行排序，获取最早和/或最晚的待处理数据，其中，以第一标记标识最早的待处理数据，以第二标记标识最晚的待处理数据。

通过获取待处理数据并存储至临时表，其中，对于临时表，通常不会将其序列化到磁盘上，而是存在于内存中，在使用完之后即会销毁，这样可以使待处理数据在临时表中进行中间处理，不仅可以保证数据处理速度，而且不用单独设置额外的存储装置。通过在临时表中，分别将包含同一编号信息的待处理数据按照时间信息进行排序，获取最早和/或最晚的待处理数据，其中，以第一标记标识最早的待处理数据，以第二标记标识最晚的待处理数据，这样便于对于待处理数据的比对处理，提高处理效率。

可选地，

所述存储表中的每条已处理数据对应所述第一标记或者所述第二标记。

由于存储表中的每条已处理数据对应第一标记或者第二标记，这样便于对于已处理数据的比对处理，提高处理效率。

可选地，

所述将所述第一待处理数据和所述第一已处理数据进行比对，包括：

将临时表中标识为所述第一标记的待处理数据和存储表中标识为所述第一标记的已处理数据进行对比；

所述将所述第二待处理数据和所述第二已处理数据进行比对，包括：

将临时表中标识为所述第二标记的待处理数据和存储表中标识为所述第二标记的已处理数据进行对比。

通过将临时表中标识为第一标记的待处理数据和存储表中标识为第一标记的已处理数据进行对比，这样便于最早的待处理数据与最早的已处理数据进行比对处理，提高处理效率。同样地，通过将临时表中标识为第二标记的待处理数据和存储表中标识为第二标记的已处理数据进行对比，这样便于最晚的待处理数据与最晚的已处理数据进行比对处理，提高处理效率。

可选地，

所述将所述第一待处理数据存储至所述存储表包括：

以标识为所述第一标记的待处理数据替换存储表中标识为所述第一标记的已处理数据；

所述将所述第二待处理数据存储至所述存储表包括：

以标识为所述第二标记的待处理数据替换存储表中标识为所述第二标记的已处理数据。

通过以标识为第一标记的待处理数据替换存储表中标识为第一标记的已处理数据，这样不仅有利于使存储表中最早的已处理数据始终与最早的待处理数据一致，而且可以节约存储资源；同样地，通过以标识为第二标记的待处理数据替换存储表中标识为第二标记的已处理数据，这样不仅有利于使存储表中最晚的已处理数据始终与最晚的待处理数据一致，而且可以节约存储资源。

本发明的第二方面还提供一种数据处理方法，所述方法包括：

获取存放待处理数据的总表，每条待处理数据包含编号信息、时间信息、一级业务信息和二级业务信息，同一编号信息包含于一条或者多条待处理数据；

将总表中的待处理数据按照一级业务信息进行分类并分别存入对应的一级业务表；

将一级业务表中的待处理数据按照二级业务信息进行分组；

判断各分组对应的二级业务表中的已处理数据是否包含待处理数据所包含的编号信息；

如果否，则将所述待处理数据插入所述对应的二级业务表；

如果是，则分别将包含同一编号信息的待处理数据按照时间信息进行排序，获取所有待处理数据对应的编号信息中每个编号信息对应的最早和/或最晚的待处理数据；将所有待处理数据对应的编号信息中一编号信息作为第一编号信息，以第一编号信息对应的最早的待处理数据作为第一待处理数据，以二级业务表中所述第一编号信息对应的最早的已处理数据作为第一已处理数据，将所述第一待处理数据和所述第一已处理数据进行比对，若所述第一待处理数据更早，则将所述第一待处理数据存储至所述二级业务表；和/或，以第一编号信息对应的最晚的待处理数据作为第二待处理数据，以二级业务表中所述第一编号信息对应的最晚的已处理数据作为第二已处理数据，将所述第二待处理数据和所述第二已处理数据进行比对，若所述第二待处理数据更晚，则将所述第二待处理数据存储至所述二级业务表。

根据本发明的第二方面提供的数据处理方法，在进行数据查询时，不需要对总表进行大批量数据的排序查询操作，只需要对二级业务表进行查询操作，提高查询速度，其外，对于同一编号信息对应的待处理数据，使其按照时间排序为最早或者最晚的待处理数据被存储至二级业务表，当同一编号信息对应的待处理数据在多个不同时间被重复录入时，以最早或者最晚录入的待处理数据作为最终的待处理数据，保证存储至二级业务表中的已处理数据的准确性，从而提高查询二级业务表效率。

可选地，所述将一级业务表中的待处理数据按照二级业务信息进行分组，以及将各分组中包含同一编号信息的待处理数据按照时间信息进行排序，包括：

从一级业务表中筛选符合预定条件的待处理数据并存入第一临时表；

将第一临时表中的待处理数据按照二级业务信息进行分组；

其中，所述从一级业务表中筛选符合预定条件的待处理数据并存入第一临时表，包括：

从预设的定时任务表中获取开始时间；

根据开始时间和预设的时间间隔获取结束时间；

从一级业务表中筛选出时间信息落在所述开始时间和所述结束时间之间的待处理数据并存入第一临时表。

通过从一级业务表中筛选符合预定条件的待处理数据并存入第一临时表；将第一临时表中的待处理数据按照二级业务信息进行分组，这样在一级业务表的数据量持续增加的情况下，并且一级业务表的数据库的数据承载量也到达瓶颈时，可以按照二级业务信息进一步分表或者分库。通过从预设的定时任务表中获取开始时间；根据开始时间和预设的时间间隔获取结束时间；从一级业务表中筛选出时间信息落在所述开始时间和所述结束时间之间的待处理数据并存入第一临时表，这样可以通过预设设定时间间隔，使数据处理的步骤自动执行，不需要人工干预而执行，不仅提高工作效率，而且降低错误率发生。

本发明的第三发明提供一种数据处理装置，所述装置包括：

待处理数据获取模块，用于获取待处理数据，每条待处理数据包含编号信息和时间信息，同一编号信息包含于一条或者多条待处理数据；

排序模块，用于分别将包含同一编号信息的待处理数据按照时间信息进行排序，获取所有待处理数据对应的编号信息中每个编号信息对应的最早和/或最晚的待处理数据；

对比模块，用于将所有待处理数据对应的编号信息中一编号信息作为第一编号信息，以第一编号信息对应的最早的待处理数据作为第一待处理数据，以存储表中所述第一编号信息对应的最早的已处理数据作为第一已处理数据，将所述第一待处理数据和所述第一已处理数据进行比对，若所述第一待处理数据更早，则将所述第一待处理数据存储至所述存储表；和/或，以第一编号信息对应的最晚的待处理数据作为第二待处理数据，以存储表中所述第一编号信息对应的最晚的已处理数据作为第二已处理数据，将所述第二待处理数据和所述第二已处理数据进行比对，若所述第二待处理数据更晚，则将所述第二待处理数据存储至所述存储表。

可选地，所述装置还包括：

循环模块，用于依次将所有待处理数据对应的编号信息中下一编号信息作为第一编号信息并执行以下步骤：以第一编号信息对应的最早的待处理数据作为第一待处理数据，以存储表中所述第一编号信息对应的最早的已处理数据作为第一已处理数据，将所述第一待处理数据和所述第一已处理数据进行比对，若所述第一待处理数据更早，则将所述第一待处理数据存储至所述存储表；和/或，以第一编号信息对应的最晚的待处理数据作为第二待处理数据，以存储表中所述第一编号信息对应的最晚的已处理数据作为第二已处理数据，将所述第二待处理数据和所述第二已处理数据进行比对，若所述第二待处理数据更晚，则将所述第二待处理数据存储至所述存储表。

可选地，所述获取模块包括：

待处理数据获取单元，用于获取待处理数据并存储至临时表；

所述排序模块包括：

排序单元，用于在所述临时表中，分别将包含同一编号信息的待处理数据按照时间信息进行排序，获取最早和/或最晚的待处理数据，其中，以第一标记标识最早的待处理数据，以第二标记标识最晚的待处理数据。

可选地，所述存储表中的每条已处理数据对应所述第一标记或者所述第二标记。

可选地，所述对比模块和/或所述循环模块包括：

第一对比单元，用于将临时表中标识为所述第一标记的待处理数据和存储表中标识为所述第一标记的已处理数据进行对比；

第二对比单元，用于将临时表中标识为所述第二标记的待处理数据和存储表中标识为所述第二标记的已处理数据进行对比。

可选地，所述对比模块和/或所述循环模块包括：

第一替换单元，用于以标识为所述第一标记的待处理数据替换存储表中标识为所述第一标记的已处理数据；

第二替换单元，用于以标识为所述第二标记的待处理数据替换存储表中标识为所述第二标记的已处理数据。

本发明的第四方面提供一种数据处理装置，所述装置包括：

总表获取模块，用于获取存放待处理数据的总表，每条待处理数据包含编号信息、时间信息、一级业务信息和二级业务信息，同一编号信息包含于一条或者多条待处理数据；

分类模块，用于将总表中的待处理数据按照一级业务信息进行分类并分别存入对应的一级业务表；

分组模块，用于将一级业务表中的待处理数据按照二级业务信息进行分组；

判断模块，用于判断各分组对应的二级业务表中的已处理数据是否包含待处理数据所包含的编号信息；

插入模块，用于如果否，则将所述待处理数据插入所述对应的二级业务表；

更新模块，用于如果是，则分别将包含同一编号信息的待处理数据按照时间信息进行排序，获取所有待处理数据对应的编号信息中每个编号信息对应的最早和/或最晚的待处理数据；将所有待处理数据对应的编号信息中一编号信息作为第一编号信息，以第一编号信息对应的最早的待处理数据作为第一待处理数据，以二级业务表中所述第一编号信息对应的最早的已处理数据作为第一已处理数据，将所述第一待处理数据和所述第一已处理数据进行比对，若所述第一待处理数据更早，则将所述第一待处理数据存储至所述二级业务表；和/或，以第一编号信息对应的最晚的待处理数据作为第二待处理数据，以二级业务表中所述第一编号信息对应的最晚的已处理数据作为第二已处理数据，将所述第二待处理数据和所述第二已处理数据进行比对，若所述第二待处理数据更晚，则将所述第二待处理数据存储至所述二级业务表。

可选地，所述分组模块包括：

存入单元，用于从一级业务表中筛选符合预定条件的待处理数据并存入第一临时表；

分组单元，用于将第一临时表中的待处理数据按照二级业务信息进行分组；

其中，所述存入单元，包括：

第一获取时间子单元，用于从预设的定时任务表中获取开始时间；

第二获取时间子单元，用于根据开始时间和预设的时间间隔获取结束时间；

存入子单元，用于从一级业务表中筛选出时间信息落在所述开始时间和所述结束时间之间的待处理数据并存入第一临时表。

本发明的第五方面提供一种电子设备，包括处理器和存储器，所述存储器配置成存储所述处理器的可执行指令，所述处理器被配置为经由执行所述可执行指令来执行上述数据处理方法的步骤。

本发明的第六方面提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被执行时实现上述数据处理方法的步骤。

本发明的第七方面提供一种计算机程序产品，所述计算机程序产品中包含指令，当所述指令在计算机上运行时，使得计算机实现上述数据处理方法。

附图说明

下面结合附图和实施例对本申请进一步说明。

图1是本申请提供的一种数据处理方法的流程示意图；

图2是图1中步骤S11的流程示意图；

图3是图1中步骤S12的流程示意图；

图4是本申请提供的又一种数据处理方法的流程示意图；

图5是本申请提供的一种数据处理装置的结构示意图；

图6是图5中模块M11的结构示意图；

图7是图5中模块M12的结构示意图；

图8是本申请提供的又一种数据处理装置的结构示意图；

图9是本申请提供的又一种数据处理方法的流程示意图；

图10是图9中步骤S23的流程示意图；

图11是图10中步骤S231的流程示意图；

图12是本申请提供的又一种数据处理装置的结构示意图；

图13是图12中模块M23的结构示意图；

图14是图13中模块M231的结构示意图；

图15是本申请提供的一种业务数据表自动拆分方法的原理示意图；

图16是本申请提供的一种业务数据表自动拆分方法的流程示意图；

图17是本申请提供的电子设备的结构框图。

图18是本申请提供的实现数据处理方法的程序产品的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

图1示出了本申请的一种数据处理方法。如图1所示，所述方法可以包括：

步骤S11、获取待处理数据，每条待处理数据包含编号信息和时间信息，同一编号信息包含于一条或者多条待处理数据。具体地，参见图2所示，所述步骤S11可以包括：S111、获取待处理数据并存储至临时表。通过获取待处理数据并存储至临时表，其中，对于临时表，通常不会将其序列化到磁盘上，而是存在于内存中，在使用完之后即会销毁，这样可以使待处理数据在临时表中进行中间处理，不仅可以保证数据处理速度，而且不用单独设置额外的存储装置。仅示例性地，例如，所述编号信息可以是快递单号，也称为运单号或者面单号等，所述时间信息可以是该快递件的扫码上传时间。又如，所述编号信息可以是网上交易订单号，所述时间信息可以是客户对于该订单的付款时间。作为其他的实施方式，每条待处理数据还包含业务类型信息、当前状态信息等，仅示例性地，其中业务类型信息具体可以是代收货款、非代收货款等，当前状态信息具体可以是到达、派送、发送、签收等。

步骤S12、分别将包含同一编号信息的待处理数据按照时间信息进行排序，获取所有待处理数据对应的编号信息中每个编号信息对应的最早和/或最晚的待处理数据。具体地，参见图3所示，所述步骤S12可以包括：步骤S121、在所述临时表中，分别将包含同一编号信息的待处理数据按照时间信息进行排序，获取最早和/或最晚的待处理数据，其中，以第一标记标识最早的待处理数据，以第二标记标识最晚的待处理数据。示例性地，其中，标记可以以字段rule_id实现，rule_id＝1表示最早的待处理数据，rule_id＝2表示最晚的待处理数据。通过在临时表中，分别将包含同一编号信息的待处理数据按照时间信息进行排序，获取最早和/或最晚的待处理数据，其中，以第一标记标识最早的待处理数据，以第二标记标识最晚的待处理数据，这样便于对于待处理数据的比对处理，提高处理效率。

步骤S13、将所有待处理数据对应的编号信息中一编号信息作为第一编号信息，以第一编号信息对应的最早的待处理数据作为第一待处理数据，以存储表中所述第一编号信息对应的最早的已处理数据作为第一已处理数据，将所述第一待处理数据和所述第一已处理数据进行比对，若所述第一待处理数据更早，则将所述第一待处理数据存储至所述存储表；和/或，以第一编号信息对应的最晚的待处理数据作为第二待处理数据，以存储表中所述第一编号信息对应的最晚的已处理数据作为第二已处理数据，将所述第二待处理数据和所述第二已处理数据进行比对，若所述第二待处理数据更晚，则将所述第二待处理数据存储至所述存储表。

具体地，在步骤S13中，

所述存储表中的每条已处理数据可以对应所述第一标记或者所述第二标记。由于存储表中的每条已处理数据对应第一标记或者第二标记，这样便于对于已处理数据的比对处理，提高处理效率。

所述将所述第一待处理数据和所述第一已处理数据进行比对，可以包括：将临时表中标识为所述第一标记的待处理数据和存储表中标识为所述第一标记的已处理数据进行对比；所述将所述第二待处理数据和所述第二已处理数据进行比对，可以包括：将临时表中标识为所述第二标记的待处理数据和存储表中标识为所述第二标记的已处理数据进行对比。通过将临时表中标识为第一标记的待处理数据和存储表中标识为第一标记的已处理数据进行对比，这样便于最早的待处理数据与最早的已处理数据进行比对处理，提高处理效率。同样地，通过将临时表中标识为第二标记的待处理数据和存储表中标识为第二标记的已处理数据进行对比，这样便于最晚的待处理数据与最晚的已处理数据进行比对处理，提高处理效率。

所述将所述第一待处理数据存储至所述存储表可以包括：以标识为所述第一标记的待处理数据替换存储表中标识为所述第一标记的已处理数据；所述将所述第二待处理数据存储至所述存储表可以包括：以标识为所述第二标记的待处理数据替换存储表中标识为所述第二标记的已处理数据。通过以标识为第一标记的待处理数据替换存储表中标识为第一标记的已处理数据，这样不仅有利于使存储表中最早的已处理数据始终与最早的待处理数据一致，而且可以节约存储资源；同样地，通过以标识为第二标记的待处理数据替换存储表中标识为第二标记的已处理数据，这样不仅有利于使存储表中最晚的已处理数据始终与最晚的待处理数据一致，而且可以节约存储资源。

根据本申请的上述数据处理方法，对于同一编号信息对应的待处理数据，使其按照时间排序为最早或者最晚的待处理数据被存储至存储表，当同一编号信息对应的待处理数据在多个不同时间被重复录入时，以最早或者最晚录入的待处理数据作为最终的待处理数据，保证存储至存储表中的已处理数据的准确性，从而提高查询存储表效率。

参见图4所示，所述方法还可以包括：

步骤S14、依次将所有待处理数据对应的编号信息中下一编号信息作为第一编号信息并执行以下步骤：以第一编号信息对应的最早的待处理数据作为第一待处理数据，以存储表中所述第一编号信息对应的最早的已处理数据作为第一已处理数据，将所述第一待处理数据和所述第一已处理数据进行比对，若所述第一待处理数据更早，则将所述第一待处理数据存储至所述存储表；和/或，以第一编号信息对应的最晚的待处理数据作为第二待处理数据，以存储表中所述第一编号信息对应的最晚的已处理数据作为第二已处理数据，将所述第二待处理数据和所述第二已处理数据进行比对，若所述第二待处理数据更晚，则将所述第二待处理数据存储至所述存储表。

同样地，在步骤S14中，

所述存储表中的每条已处理数据可以对应所述第一标记或者所述第二标记。

所述将所述第一待处理数据和所述第一已处理数据进行比对，可以包括：将临时表中标识为所述第一标记的待处理数据和存储表中标识为所述第一标记的已处理数据进行对比；所述将所述第二待处理数据和所述第二已处理数据进行比对，可以包括：将临时表中标识为所述第二标记的待处理数据和存储表中标识为所述第二标记的已处理数据进行对比。

所述将所述第一待处理数据存储至所述存储表可以包括：以标识为所述第一标记的待处理数据替换存储表中标识为所述第一标记的已处理数据；所述将所述第二待处理数据存储至所述存储表可以包括：以标识为所述第二标记的待处理数据替换存储表中标识为所述第二标记的已处理数据。

根据步骤S14，在所有待处理数据对应的编号信息中，依次对于同一编号信息对应的待处理数据，使其按照时间排序为最早或者最晚的待处理数据被存储至存储表，保证存储至存储表中的所有待处理数据对应的编号信息中每个编号信息对应的待处理数据的准确性。

图5示出了一种数据处理装置。参见图5所示，所述装置可以包括：

待处理数据获取模块M11、用于获取待处理数据，每条待处理数据包含编号信息和时间信息，同一编号信息包含于一条或者多条待处理数据。具体地，参见图6所示，所述待处理数据获取模块M11可以包括待处理数据获取单元M111，所述待处理数据获取单元M111用于获取待处理数据并存储至临时表。

排序模块M12，用于分别将包含同一编号信息的待处理数据按照时间信息进行排序，获取所有待处理数据对应的编号信息中每个编号信息对应的最早和/或最晚的待处理数据。具体地，参见图7所示，所述排序模块包括排序单元M121，所述排序单元M121用于在所述临时表中，分别将包含同一编号信息的待处理数据按照时间信息进行排序，获取最早和/或最晚的待处理数据，其中，以第一标记标识最早的待处理数据，以第二标记标识最晚的待处理数据。

对比模块M13，用于将所有待处理数据对应的编号信息中一编号信息作为第一编号信息，以第一编号信息对应的最早的待处理数据作为第一待处理数据，以存储表中所述第一编号信息对应的最早的已处理数据作为第一已处理数据，将所述第一待处理数据和所述第一已处理数据进行比对，若所述第一待处理数据更早，则将所述第一待处理数据存储至所述存储表；和/或，以第一编号信息对应的最晚的待处理数据作为第二待处理数据，以存储表中所述第一编号信息对应的最晚的已处理数据作为第二已处理数据，将所述第二待处理数据和所述第二已处理数据进行比对，若所述第二待处理数据更晚，则将所述第二待处理数据存储至所述存储表。

参见图8所示，所述装置还可以包括：

循环模块M14，用于依次将所有待处理数据对应的编号信息中下一编号信息作为第一编号信息并执行以下步骤：以第一编号信息对应的最早的待处理数据作为第一待处理数据，以存储表中所述第一编号信息对应的最早的已处理数据作为第一已处理数据，将所述第一待处理数据和所述第一已处理数据进行比对，若所述第一待处理数据更早，则将所述第一待处理数据存储至所述存储表；和/或，以第一编号信息对应的最晚的待处理数据作为第二待处理数据，以存储表中所述第一编号信息对应的最晚的已处理数据作为第二已处理数据，将所述第二待处理数据和所述第二已处理数据进行比对，若所述第二待处理数据更晚，则将所述第二待处理数据存储至所述存储表。

在对比模块M13和/或循环模块M14中，所述存储表中的每条已处理数据可以对应所述第一标记或者所述第二标记。

进一步地，所述对比模块M13和/或所述循环模块M14可以包括：第一对比单元，用于将临时表中标识为所述第一标记的待处理数据和存储表中标识为所述第一标记的已处理数据进行对比；第二对比单元，用于将临时表中标识为所述第二标记的待处理数据和存储表中标识为所述第二标记的已处理数据进行对比。

其外，所述对比模块M13和/或所述循环模块M14可以包括：第一替换单元，用于以标识为所述第一标记的待处理数据替换存储表中标识为所述第一标记的已处理数据；第二替换单元，用于以标识为所述第二标记的待处理数据替换存储表中标识为所述第二标记的已处理数据。

需要指示的是，上述数据处理装置中各个模块的功能实现与上述数据处理方法实施例中各步骤相对应，其功能和实现过程在此处不再一一赘述。

图9示出本申请又一种数据处理方法。如图9所示，所述方法可以包括：

步骤S21、获取存放待处理数据的总表，每条待处理数据包含编号信息、时间信息、一级业务信息和二级业务信息，同一编号信息包含于一条或者多条待处理数据。仅示例性地，例如，所述编号信息可以是快递单号，也称为运单号或者面单号等，所述时间信息可以是该快递件的扫码上传时间。又如，所述编号信息可以是网上交易订单号，所述时间信息可以是客户对于该订单的付款时间。其中，一级业务信息具体可以是代收货款、非代收货款等，二级业务信息具体可以是到达、派送、发送、签收等。

步骤S22、将总表中的待处理数据按照一级业务信息进行分类并分别存入对应的一级业务表。示例性地，总表中字段Is_Cod＝1，表示该待处理数据的一级业务信息为代收货款，总表中字段Is_Cod＝2，表示该待处理数据的一级业务信息为非代收货款。其中，一对应的一级业务表中存放一级业务信息为代收货款的所有待处理数据，另一对应的一级业务表中存放一级业务信息为非代收货款的所有待处理数据。

步骤S23、将一级业务表中的待处理数据按照二级业务信息进行分组。

具体地，参见图10所示，所述步骤S23可以包括：步骤S231、从一级业务表中筛选符合预定条件的待处理数据并存入第一临时表；步骤S232、将第一临时表中的待处理数据按照二级业务信息进行分组。通过从一级业务表中筛选符合预定条件的待处理数据并存入第一临时表；将第一临时表中的待处理数据按照二级业务信息进行分组，这样在一级业务表的数据量持续增加的情况下，并且一级业务表的数据库的数据承载量也到达瓶颈时，可以按照二级业务信息进一步分表或者分库。

其中，如图11所述，所述步骤S231可以包括：步骤S2311、从预设的定时任务表中获取开始时间。步骤S2312、根据开始时间和预设的时间间隔获取结束时间。其中，预设的时间间隔可以根据实际需要进行设置，例如，预设的时间间隔可以是5分钟、10分钟等。步骤S2313、从一级业务表中筛选出时间信息落在所述开始时间和所述结束时间之间的待处理数据并存入第一临时表。需要说明的是，其中，首次的开始时间可以由用户指定，后续的开始时间可以根据上次执行的结束时间确定。通过从预设的定时任务表中获取开始时间；根据开始时间和预设的时间间隔获取结束时间；从一级业务表中筛选出时间信息落在所述开始时间和所述结束时间之间的待处理数据并存入第一临时表，这样可以通过预设设定时间间隔，使数据处理的步骤自动执行，不需要人工干预而执行，不仅提高工作效率，而且降低错误率发生。

S24、判断各分组对应的二级业务表中的已处理数据是否包含待处理数据所包含的编号信息。即判断当前的待处理数据所包含的编号信息是否已经存在于二级业务表中，通过步骤S24可以获知当前的待处理数据是否为新数据，从而决策是否直接将其存储到对应的二级表中，还是与对应的二级表中的已处理数据进行比对后，决策是否将其存储到对应的二级表中。

S25、如果否，则将所述待处理数据插入所述对应的二级业务表。即，获知当前的待处理数据为新数据时，直接将其存储到对应的二级表中。

S26、如果是，则分别将包含同一编号信息的待处理数据按照时间信息进行排序，获取所有待处理数据对应的编号信息中每个编号信息对应的最早和/或最晚的待处理数据；将所有待处理数据对应的编号信息中一编号信息作为第一编号信息，以第一编号信息对应的最早的待处理数据作为第一待处理数据，以二级业务表中所述第一编号信息对应的最早的已处理数据作为第一已处理数据，将所述第一待处理数据和所述第一已处理数据进行比对，若所述第一待处理数据更早，则将所述第一待处理数据存储至所述二级业务表；和/或，以第一编号信息对应的最晚的待处理数据作为第二待处理数据，以二级业务表中所述第一编号信息对应的最晚的已处理数据作为第二已处理数据，将所述第二待处理数据和所述第二已处理数据进行比对，若所述第二待处理数据更晚，则将所述第二待处理数据存储至所述二级业务表。

其中，所述二级业务表中的每条已处理数据可以对应所述第一标记或者所述第二标记。所述将所述第一待处理数据和所述第一已处理数据进行比对，可以包括：将临时表中标识为所述第一标记的待处理数据和二级业务表中标识为所述第一标记的已处理数据进行对比；所述将所述第二待处理数据和所述第二已处理数据进行比对，可以包括：将临时表中标识为所述第二标记的待处理数据和二级业务表中标识为所述第二标记的已处理数据进行对比。所述将所述第一待处理数据存储至所述二级业务表可以包括：以标识为所述第一标记的待处理数据替换二级业务表中标识为所述第一标记的已处理数据；所述将所述第二待处理数据存储至所述二级业务表可以包括：以标识为所述第二标记的待处理数据替换二级业务表中标识为所述第二标记的已处理数据。

根据本申请的上述数据处理方法，在进行数据查询时，不需要对总表进行大批量数据的排序查询操作，只需要对二级业务表进行查询操作，提高查询速度，其外，对于同一编号信息对应的待处理数据，使其按照时间排序为最早或者最晚的待处理数据被存储至二级业务表，当同一编号信息对应的待处理数据在多个不同时间被重复录入时，以最早或者最晚录入的待处理数据作为最终的待处理数据，保证存储至二级业务表中的已处理数据的准确性，从而提高查询二级业务表效率。

图12示出了又一种数据处理装置。参见图12所示，所述装置可以包括：

总表获取模块M21，用于获取存放待处理数据的总表，每条待处理数据包含编号信息、时间信息、一级业务信息和二级业务信息，同一编号信息包含于一条或者多条待处理数据。

分类模块M22，用于将总表中的待处理数据按照一级业务信息进行分类并分别存入对应的一级业务表。

分组模块M23，用于将一级业务表中的待处理数据按照二级业务信息进行分组。

具体地，参见图13所示，所述分组模块M23可以包括：存入单元M231，用于从一级业务表中筛选符合预定条件的待处理数据并存入第一临时表；分组单元M232，用于将第一临时表中的待处理数据按照二级业务信息进行分组。

其中，如图14所示，所述存入单元M231可以包括：第一获取时间子单元M2311，用于从预设的定时任务表中获取开始时间；第二获取时间子单元M2312，用于根据开始时间和预设的时间间隔获取结束时间；存入子单元M2313，用于从一级业务表中筛选出时间信息落在所述开始时间和所述结束时间之间的待处理数据并存入第一临时表。

判断模块M24，用于判断各分组对应的二级业务表中的已处理数据是否包含待处理数据所包含的编号信息。

插入模块M25，用于如果否，则将所述待处理数据插入所述对应的二级业务表。

更新模块M26，用于如果是，则分别将包含同一编号信息的待处理数据按照时间信息进行排序，获取所有待处理数据对应的编号信息中每个编号信息对应的最早和/或最晚的待处理数据；将所有待处理数据对应的编号信息中一编号信息作为第一编号信息，以第一编号信息对应的最早的待处理数据作为第一待处理数据，以存储表中所述第一编号信息对应的最早的已处理数据作为第一已处理数据，将所述第一待处理数据和所述第一已处理数据进行比对，若所述第一待处理数据更早，则将所述第一待处理数据存储至所述存储表；和/或，以第一编号信息对应的最晚的待处理数据作为第二待处理数据，以存储表中所述第一编号信息对应的最晚的已处理数据作为第二已处理数据，将所述第二待处理数据和所述第二已处理数据进行比对，若所述第二待处理数据更晚，则将所述第二待处理数据存储至所述存储表。

本申请提供一种业务数据表自动拆分方法，其基本原理参见图15所示，通过数据库定时任务调用具体的存储过程，实现按照业务类型对数据表进行自动拆分。拆分后的每一张数据表都是对应一种业务类型，在查询以及管理时，便可指定到具体的业务类型表，从而达到提高查询效率的结果。

在一个实施例中，参见图15所示，上述业务数据表自动拆分方法可以包括以下步骤：

1.声明变量和以及发生错误时事务回滚操作；其中，可将错误信息记录至日志表中。

2.获取定时表中对应信息，设置下次读取数据的起始结束时间；

3.创建临时表以存放数据；其中，具体可以根据业务需要来创建临时表。

4.从全表中筛选出当前业务类型所有数据并插入至业务表中；

5.将业务表中数据筛选插入临时表中；

6.开启事务；

7.将临时表数据按照类型分别插入至对应表中；其中表具有多个，例如表Ⅰ、表Ⅱ、表Ⅲ、表Ⅳ等。

8.对定时任务表进行更新；

9.提交事务。

在又一个实施例中，参见图16所示，上述业务数据表自动拆分方法可以包括以下步骤：

开始。

创建第一临时表，以及创造第二临时表。

筛选当前系统所有数据至临时表。

经过筛选处理，将筛选出的数据插入第一临时表。

经过筛选处理，将筛选出的数据插入第二临时表。

对需要进行只保留最新数据的业务表进行删除、更新操作。具体地，首先进行业务类型判断。

如果为类型1，则插入第一业务表。

如果为类型2，则插入第二业务表。

如果为类型3，则插入第三业务表。

结束。

本申请还提供一种基于代收货款系统的数据库的表拆分方法。

其中，现有一代收货款系统，其对应的数据库存有全网数据扫描表kycod_ewb_scan，此表根据业务类型Is_Cod分为代收货款、非代收货款等，再根据扫描类型SCAN_TYPE可分为开单扫描、签收扫描等，且表中数据经推送不断递增。在代收货款系统的用户去查询指定扫描类型的相关信息时，对整个全网数据扫描表kycod_ewb_scan表进行检索，效率无疑是很低下的。根据本实施例提供的基于代收货款系统的数据库的表拆分方法，可以对全网数据扫描表kycod_ewb_scan先按业务类型进行拆分，再按扫描类型进行拆分。当用户执行查询操作时，查询效率能够得到较大的提升。

所述的基于代收货款系统的数据库的表拆分方法，具体可以包括如下步骤：

1.新建表。

具体地，新建业务表kycod_ewb_scan_cod，用于存放业务类型为代收货款的所有扫描数据；新建到件表ydky_opt_arrive，用于存放首次到件数据；新建派件表ydky_opt_dispatch，用于存放首次和最后一次派件数据；新建发件表ydky_opt_send，用于存放首次和最后一次发件数据；新建签收表ydky_opt_sign，用于存放首次和最后一次签收数据；新建轨迹表ydky_opt_scan_trail，用于存放扫描轨迹数据；新建定时任务表ydky_proc_time，用于存放定时任务时间；新建日志表ydky_proc_log，用于存放日志；新建记录表ydky_proc_history，用于进行任务历史记录。

2.创建定时任务pro_scan_cut_cron和存储过程pro_scan_cut，其中，定时任务用于定时调用存储过程，存储过程则为实际执行拆分表的具体方法。

3.设置定时任务pro_scan_cut_cron，用于每隔预设时长，执行一次存储过程callpro_scan_cut。其中，示例性地，预设时长可以为5分钟。需要说明的是，预设时长的大小不限于上述举例，其具体可以根据实际需要而设置。

4.配置存储过程，具体步骤如下：

A.声明变量，以及设置存储过程发生错误时进行事务回滚，并将错误信息存入到日志表ydky_proc_log中。其中，变量用于临时存储数据查询起始结束时间、输出信息等。设置事务具体的回滚操作，便于在发生异常以及错误时，找到原因。

B.根据定时任务表ydky_proc_time获取到开始时间，并设置结束时间。

C.创建临时表sys_scan_all、sys_scan_filter用于存储临时数据。

D.开启事务以保证数据的一致性。该步骤用于保证接下来的操作都能完成，或一起取消；避免异常和错误等导致拆分表中的数据表与全网数据扫描表kycod_ewb_scan数据不一致。

E.将全网数据扫描表kycod_ewb_scan中所有符合代收货款业务类型的数据(在kycod_ewb_scan表中字段Is_Cod＝1，则表示该数据类型为代收货款)存入到业务表kycod_ewb_scan_cod。

以上A-E步骤，只是根据全网数据扫描表筛选出代收货款单。

以下步骤是将筛选后代收货款扫描数据表kycod_ewb_scan_cod进行进一步详细的业务拆分。

F.将kycod_ewb_scan_cod表中的在指定时间范围内(按照定时任务设置的时间间隔执行)的数据进行筛选存入至临时表sys_scan_all。

G.分别对sys_scan_all按照扫描时间SCAN_TIME、运单号OP_ID进行升序以及排序分组并将结果插入至临时表sys_scan_filter。其中，临时表sys_scan_filter本来为空，其数据来源于经过排序的sys_scan_all表。在临时表sys_scan_filter中，筛选出各扫描类型首次，最后一次的数据，并加以字段rule_id进行表示，rule_id＝1表示首次数据，rule_id＝2表示最后一次数据。

H.将临时表中sys_scan_filter为首次签收的数据插入表ydky_opt_sign。此时，根据sys_scan_filter表中rule_id＝1，类型为签收，且根据sys_scan_filter与ydky_opt_sign通过运单号进行关联，筛选出未插入过的首次签收数据，则执行插入操作。

I.通过运单号关联sys_scan_filter与ydky_opt_dispatch中的首次和最后一次派件数据)，分别将首次，以及最后一次派件数据筛选出，进行删除操作，具体地，根据sys_scan_filter的扫描时间与ydky_opt_dispatch中的扫描时间分别比较大小，若是大于，则删除最后一次派件，若小于，删除首次派件。再将sys_scan_filter表中最新的派件数据插入至ydky_opt_dispatch表中。换言之，如果sys_scan_filter里面是首次数据，则与ydky_opt_dispatch里的首次数据进行比对，取较早者；如果ydky_opt_dispatch更早就不执行操作，如果sys_scan_filter早就用sys_scan_filter的数据更新ydky_opt_dispatch表里的首次数据。同样地，如果sys_scan_filter里面是末次数据，则与上面类似。

J.通过运单号关联sys_scan_filter与ydky_opt_send的首次和最后一次发件数据，分别将首次，以及最后一次发件数据筛选出，进行删除操作，具体地，根据sys_scan_filter的扫描时间与ydky_opt_send中的扫描时间分别比较大小，若是大于，则删除最后一次发件，若小于，删除首次发件。再将sys_scan_filter表中最新的发件数据插入至ydky_opt_send表中。

K.通过运单号关联sys_scan_filter与ydky_opt_arrive的首次和最后一次到件数据，分别将首次以及最后一次到件数据筛选出，进行删除操作。具体地，根据sys_scan_filter的扫描时间与ydky_opt_arrive中的扫描时间分别比较大小，若是大于，则删除最后一次到件，若小于，删除首次到件。再将sys_scan_filter表中最新的到件数据插入至ydky_opt_arrive中。

L.插入更新扫描轨迹表。其中，临时表sys_scan_filter与扫描轨迹数据表ydky_opt_scan_trail通过运单号进行关联操作，执行更新操作。具体地，插入或者更新描轨迹数据表：如果扫描轨迹表里有第一运单号对应的数据，就对数据进行更新操作；如果表里没有第一运单号对应的数据就进行插入操作。

M.更新表ydky_proc_time的下次开始时间，将此次执行记录新增至表ydky_proc_history。

N.提交事务。

参见图17，本申请提供了一种电子设备3，电子设备3包括至少一个存储单元31、至少一个处理单元32以及连接不同平台系统的总线33。

存储单元31可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)311和/或高速缓存存储单元312，还可以进一步包括只读存储单元(ROM)313。

其中，存储单元31还存储有程序产品4，程序产品4可以被处理单元32执行，使得处理单元32执行上述实施例中数据处理方法的步骤(如图1-4或者图9-11所示)。存储单元31还可以包括具有一组(至少一个)程序模块315的程序/实用工具314，这样的程序模块包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

相应的，处理单元32可以执行上述的程序产品4，以及可以执行程序/实用工具314。

总线33可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备3也可以与一个或多个外部设备34例如键盘、指向设备、蓝牙设备等通信，还可与一个或者多个能够与该电子设备3交互的设备通信，和/或与使得该电子设备3能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口35进行。并且，电子设备3还可以通过网络适配器36与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。网络适配器36可以通过总线33与电子设备3的其它模块通信。

本申请还提供了一种计算机可读存储介质，该计算机可读存储介质用于存储计算机程序，所述计算机程序被执行时实现上述实施例中数据处理方法的步骤。

图18示出了本实施例提供的用于实现上述方法的程序产品4，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。

本申请从使用目的上，效能上，进步及新颖性等观点进行阐述，其设置有的实用进步性，已符合专利法所强调的功能增进及使用要件，本申请以上的说明及附图，仅为本申请的较佳实施例而已，并非以此局限本申请，因此，凡一切与本申请构造，装置，特征等近似、雷同的，即凡依本申请专利申请范围所作的等同替换或修饰等，皆应属本申请的专利申请保护的范围之内。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的数据处理方法，其特征在于，所述方法还包括：

3.根据权利要求1或2所述的数据处理方法，其特征在于：

所述获取待处理数据，包括：

获取待处理数据并存储至临时表；

4.根据权利要求3所述的数据处理方法，其特征在于：

5.根据权利要求4所述的数据处理方法，其特征在于：

6.根据权利要求5所述的数据处理方法，其特征在于：

所述将所述第一待处理数据存储至所述存储表包括：

所述将所述第二待处理数据存储至所述存储表包括：

7.一种数据处理方法，其特征在于，所述方法包括：

将一级业务表中的待处理数据按照二级业务信息进行分组；

如果否，则将所述待处理数据插入所述对应的二级业务表；

8.根据权利要求7所述的数据处理方法，其特征在于：

所述将一级业务表中的待处理数据按照二级业务信息进行分组，包括：

将第一临时表中的待处理数据按照二级业务信息进行分组；

其中，

所述从一级业务表中筛选符合预定条件的待处理数据并存入第一临时表，包括：

从预设的定时任务表中获取开始时间；

根据开始时间和预设的时间间隔获取结束时间；

9.一种数据处理装置，其特征在于，所述装置包括：

10.一种数据处理装置，其特征在于，所述装置包括：