CN104239320A

CN104239320A - 一种数据合并方法及系统

Info

Publication number: CN104239320A
Application number: CN201310236377.2A
Authority: CN
Inventors: 张志红
Original assignee: ZTE ICT Technologies Co Ltd
Current assignee: ZTE ICT Technologies Co Ltd
Priority date: 2013-06-14
Filing date: 2013-06-14
Publication date: 2014-12-24
Anticipated expiration: 2033-06-14
Also published as: CN104239320B

Abstract

本发明提供了一种数据合并方法，分别确定各源数据的列表名称以及目标数据的列表名称，并将各所述源数据和所述目标数据转换成为统一的复合数据；分别确定各所述源数据和所述目标数据各自的正向或反向位置索引，以及确定合并规则表达式；根据所述合并规则表达式及所述位置索引将各所述源数据合并到所述目标数据中；清除各所述源数据，并返回合并后的目标数据。本发明还提供了一种数据合并系统，使用本发明，能够提高数据整合的效率，且能够降低源数据的耦合度。

Description

一种数据合并方法及系统

技术领域

本发明涉及跨服务器跨数据库关联查询技术，尤其涉及一种数据合并方法及系统。

背景技术

分布式数据库系统(Distributed Database System，DDBS)是使用计算机网络将地理位置分散，而管理和控制又需要不同程度集中的多个逻辑单位连接起来，共同组成一个统一的数据库系统。分布式数据库系统是分布式文件系统的一种，与传统集中式数据库相对应的。

在分布式数据库系统中，常用的数据整合方式有两种：一种是数据同步方式，通过数据同步工具或程序实现数据集中，从而实现分布式系统之间的数据整合；另一种是跨库关联查询方式，通过对分布在相同服务器上的数据库进行关联查询，从而实现数据合并操作。其中，对于数据同步方式，其具有效率低下，在大并发大数据量时数据同步延时比较长，而且容易带来数据不一致性等缺点。而对于跨库关联查询方式，其利用数据库提供的跨库查询功能，效率上比数据同步方式高，且一般不会带来数据不一致性等缺点；但是，跨库关联查询方式不支持异构数据库查询，因此导致其扩展性不强，同时形成数据库之间的高度耦合，不利于维护。

发明内容

有鉴于此，本发明的主要目的在于提供一种数据合并方法及系统，能够提高数据整合的效率，且能够降低源数据的耦合度。

为达到上述目的，本发明的技术方案是这样实现的：

本发明提供了一种数据合并方法，所述方法包括：分别确定各源数据的列表名称以及目标数据的列表名称，并将各所述源数据和所述目标数据转换成为统一的复合数据；分别确定各所述源数据和所述目标数据各自的正向或反向位置索引，以及确定合并规则表达式；根据所述合并规则表达式及所述位置索引将各所述源数据合并到所述目标数据中；清除各所述源数据，并返回合并后的目标数据。

上述方案中，所述根据所述合并规则表达式及所述位置索引将各所述源数据合并到所述目标数据中，包括：确定所述源数据与所述目标数据的关联字段名称；根据所述关联字段名称对所述目标数据进行循环遍历，并从所述源数据中取出关联字段对应的值；根据所述合并规则表达式及所述关联字段对应的值确定所述源数据的位置索引，并将根据所述源数据的位置索引确定的源数据合并到所述目标数据中。

上述方案中，所述正向位置索引中以列表序号为键名、以字段名和数据的组合为键值；所述反向位置索引中以字段名和数据的组合为键名、以列表序号为键值。

上述方案中，所述复合数据包括复合数据对象、数组数据对象和非数组数据对象。

上述方案中，所述合并规则表达式针对数组数据对象；所述合并规则表达式中，分号前面的部分代表目标数据，分号后面的部分代表源数据；目标数据和源数据的规则表达式都是由数组名和关联字段名称组成，数组名和关联字段名之间用冒号隔开；在根据所述合并规则表达式进行合并时，始终是源数据向目标数据合并。

本发明还提供了一种数据合并系统，所述系统包括：第一确定单元、第一转换单元、第二确定单元、合并单元、第二转换单元和返回单元；其中，所述第一确定单元，用于分别确定各源数据的列表名称以及目标数据的列表名称；所述第一转换单元，用于将各所述源数据和所述目标数据转换成为统一的复合数据；所述第二确定单元，用于分别确定各所述源数据和所述目标数据各自的正向或反向位置索引，以及确定合并规则表达式；所述合并单元，用于根据所述合并规则表达式及所述位置索引将各所述源数据合并到所述目标数据中；所述第二转换单元，用于清除各所述源数据；所述返回单元，用于返回合并后的目标数据。

上述方案中，所述合并单元包括：第一确定子单元、遍历子单元和合并子单元；其中，所述第一确定子单元，用于确定所述源数据与所述目标数据的关联字段名称；所述遍历子单元，用于根据所述关联字段名称对所述目标数据进行循环遍历，并从所述源数据中取出关联字段对应的值；所述合并子单元，用于根据所述合并规则表达式及所述关联字段对应的值确定所述源数据的位置索引，并将根据所述源数据的位置索引确定的源数据合并到所述目标数据中。

上述方案中，所述正向位置索引中以列表序号为键名、以字段名和数据的组合为键值，所述反向位置索引中以字段名和数据的组合为键名、以列表序号为键值。

本发明提供的数据合并方法及系统，先分别确定各源数据及目标数据各自的列表名称，并将各所述源数据和所述目标数据转换成为统一的复合数据(Composite Data，CDATA)；再分别确定各所述源数据和所述目标数据各自的正向或反向位置索引，以及确定合并规则表达式；然后根据所述合并规则表达式及所述位置索引将各所述源数据合并到所述目标数据中；最后，清除各所述源数据，并返回合并后的目标数据；如此，本发明能够提高数据整合的效率，且能够降低源数据的耦合度。

附图说明

图1为本发明数据合并方法的实现流程示意图；

图2是图1中步骤104的具体实现流程示意图；

图3是本发明数据合并系统的组成结构示意图；

图4是图3中合并单元的组成结构示意图。

具体实施方式

本发明的基本思想是：先分别确定各源数据及目标数据各自的列表名称，并将各所述源数据和所述目标数据转换成为统一的复合数据；再分别确定各所述源数据和所述目标数据各自的正向或反向位置索引，以及确定合并规则表达式；然后根据所述合并规则表达式及所述位置索引将各所述源数据合并到所述目标数据中；最后，清除各所述源数据，并返回合并后的目标数据。

这里，复合数据包括复合数据对象、数组数据对象和非数组数据对象；所述复合数据作为数据转换的统一标准，是各种类型数据之间等价互转的中介数据类型；具体来说就是，任意一种类型的数据通过解析等价转换为标准的复合数据，所述复合数据还可以通过解析等价再转换为用户指定的数据类型。

所述任意一种类型的数据通过解析等价转换为标准的复合数据、以及通过所述解析等价再转换为用户指定的数据类型，均为本领域的现有技术，具体如何等价转换现有技术存在很多方式，这里不再赘述。

这里，所述合并规则表达式为：分号前面的部分代表目标数据，分号后面的部分代表源数据；目标数据和源数据的规则表达式都是由数组名和关联字段名称组成，数组名和关联字段名之间用冒号隔开。

在确定所述合并规则表达式时，需要先确定各所述源数据和所述目标数据的合并的数组名和关联字段。在根据所述合并规则表达式进行合并时，始终是源数据向目标数据合并。本发明中，复合数据包括复合数据对象、数组数据对象和非数组数据对象；其中，由于复合数据对象和非数组数据对象不需要合并，因此，所述合并规则表达式都是针对数组数据对象而言的。

所述位置索引根据关键字段名和键值进行排列顺序，所述位置索引包括正向位置索引和反向位置索引；所述正向位置索引中以列表序号为键名、以字段名和数据的组合为键值；所述反向位置索引中以字段名和数据的组合为键名、以列表序号为键值；

下面结合附图和具体实施例对本发明的技术方案进一步详细阐述。

图1为本发明数据合并方法的实现流程示意图，如图1所示，本发明数据合并方法具体包括以下步骤：

步骤101，分别确定各源数据的列表名称以及目标数据的列表名称；

步骤102，将各所述源数据和所述目标数据转换成为统一的复合数据；

具体的，先对各所述源数据和目标数据进行分解；然后，根据复合数据提供的方法可对分解后的数据进行组装，以构成复合数据；所以，无论是哪种类型的源数据，分解后的数据都可以用来组成为复合数据。

这里，所述复合数据提供的方法为现有技术，现有技术中所述复合数据提供的方法包括get和add方法，具体为：“get Array，add Array”分别为获取数组列表和增加数组列表功能。

所述复合数据作为数据转换的统一标准，是各种类型数据之间等价互转的中介数据类型；所述复合数据主要由复合数据对象、数组数据对象和非数组数据对象三种基本元素组成，非数组数据对象是最小元素，数组数据对象可以嵌套数组数据对象，也可以嵌套复合数据对象，还可以无限循环嵌套，所以构建的复合数据可以描述任意复杂的数据。

其中，所述复合数据具有以下的特点：

A：复合数据能够描述字段和域值存在一一对应关系。具体来说，通过设置或获取源数据的域名和域值，就可以实现字段和域值的一一对应关系。

B：复合数据能够描述任意多个字段和域值的列表对应关系。具体来说，通过循环添加数据对象的方法和循环获取数据方法，实现任意多个字段和域值的列表对应关系。

C：复合数据可包括多个数组数据对象，数组数据对象可包括多组字段和域值的列表对应关系，数组数据对象和非数组数据对象可以并存于同一复合数据对象中。具体来说，通过创建数组和获取数组的方法，实现复合数据包含多个数组数据对象。

D：复合数据中的数组数据对象还可再嵌套数组数据对象，嵌套在数组数据对象里面的数组数据对象也可包括多组字段和域值的列表对应关系。具体来说，通过在数组数据对象中添加数组，从而实现数组数据对象套数组。

E：一个复合数据里面可以包含一个或多个复合数据对象，复合数据对象和数组数据对象可以互相嵌套。具体来说，通过复合数据对象嵌套数组数据对象，通过数组数据对象嵌套复合数据对象，来实现一个复合数据里面包含一个或多个复合数据对象。

步骤103，分别确定各所述源数据和所述目标数据各自的正向或反向位置索引，以及确定合并规则表达式；

这里，所述位置索引根据关键字段名和键值进行排列顺序，所述位置索引包括正向位置索引和反向位置索引；所述正向位置索引是以列表序号为键名、以字段名和数据的组合为键值；所述反向位置索引是以字段名和数据的组合为键名、以列表序号为键值。

所述正向索引和所述反向索引为同时建立的，所以，所述正向索引和所述反向索引同时存在于源数据和目标数据中；所述位置索引作为全局属性存储在各所述源数据和目标数据中，在复合数据的整个生命周期内都可以直接获取到所述位置索引。

这里，所述合并规则表达式用于对所述源数据和所述目标数据进行操作，所述合并规则表达式为：分号前面的部分代表目标数据，分号后面的部分代表源数据；目标数据和源数据的规则表达式都是由数组名和关联字段名称组成，数组名和关联字段名之间用冒号隔开。举例来说：

EXAMEXECUTE_ARRAY：USER_ID；USERINFO_ARRAY：USER_ID

其中，EXAMEXECUTE_ARRAY：USER_ID代表目标数据，USERINFO_ARRAY：USER_ID代表源数据，EXAMEXECUTE_ARRAY和USERINFO_ARRAY均为数组名。

步骤104，根据所述合并规则表达式及所述位置索引将各所述源数据合并到所述目标数据中；

具体的，根据所述合并规则表达式，确定源数据和目标数据的数组名称以及合并的字段名称；根据所述目标数据的反向或正向位置索引遍历目标数据，根据每条目标数据的反向或正向位置索引对应找到所述源数据的正向或反向位置索引，然后将所述源数据的键名或键值合并到目标数据中。

步骤105，清除各所述源数据，并返回合并后的目标数据。

具体的，图2是图1中步骤104的具体实现流程示意图，如图2所示，步骤104包括以下步骤：

步骤104a，确定所述源数据与所述目标数据的关联字段名称；

步骤104b，根据所述关联字段名称对所述目标数据进行循环遍历，并从所述源数据中取出关联字段对应的值；

步骤104c，根据所述合并规则表达式及所述关联字段对应的值确定所述源数据的位置索引，并将根据所述源数据的位置索引确定的源数据合并到所述目标数据中。

图3是本发明数据合并系统的组成结构示意图，如图3所示，所述系统包括：第一确定单元31、第一转换单元32、第二确定单元33、合并单元34、第二转换单元35和返回单元36；其中，

所述第一确定单元31，用于分别确定各源数据的列表名称以及目标数据的列表名称；

所述第一转换单元32，用于将各所述源数据和所述目标数据转换成为统一的复合数据；

这里，所述复合数据包括复合数据对象、数组数据对象和非数组数据对象。

所述第二确定单元33，用于分别确定各所述源数据和所述目标数据各自的正向或反向位置索引，以及确定合并规则表达式；

这里，所述正向位置索引中以列表序号为键名、以字段名和数据的组合为键值；所述反向位置索引中以字段名和数据的组合为键名、以列表序号为键值。

所述合并单元34，用于根据所述合并规则表达式及所述位置索引将各所述源数据合并到所述目标数据中；

这里，所述合并规则表达式针对数组数据对象；所述合并规则表达式为：分号前面的部分代表目标数据，分号后面的部分代表源数据，目标数据和源数据的规则表达式都是由数组名和关联字段名称组成，数组名和关联字段名之间用冒号隔开。

在根据所述合并规则表达式进行合并时，始终是源数据向目标数据合并。

所述第二转换单元35，用于清除各所述源数据；

所述返回单元36，用于返回合并后的目标数据。

图4是图3中合并单元的组成结构示意图，如图4所示，所述合并单元34包括第一确定子单元41、遍历子单元42和合并子单元43，其中，

所述第一确定子单元41，用于确定所述源数据与所述目标数据的关联字段名称；

所述遍历子单元42，用于根据所述关联字段名称对所述目标数据进行循环遍历，并从所述源数据中取出关联字段对应的值；

所述合并子单元43，用于根据所述合并规则表达式及所述关联字段对应的值确定所述源数据的位置索引，并将根据所述源数据的位置索引确定的源数据合并到所述目标数据中。

显然，本领域的技术人员应该明白，上述的本发明的各处理单元或各步骤可以用通用的计算装置来实现，其可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，其可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

Claims

1.一种数据合并方法，其特征在于，所述方法包括：

分别确定各源数据的列表名称以及目标数据的列表名称，并将各所述源数据和所述目标数据转换成为统一的复合数据；

分别确定各所述源数据和所述目标数据各自的正向或反向位置索引，以及确定合并规则表达式；

根据所述合并规则表达式及所述位置索引将各所述源数据合并到所述目标数据中；

清除各所述源数据，并返回合并后的目标数据。

2.根据权利要求1所述的方法，其特征在于，所述根据所述合并规则表达式及所述位置索引将各所述源数据合并到所述目标数据中，包括：

确定所述源数据与所述目标数据的关联字段名称；

根据所述关联字段名称对所述目标数据进行循环遍历，并从所述源数据中取出关联字段对应的值；

根据所述合并规则表达式及所述关联字段对应的值确定所述源数据的位置索引，并将根据所述源数据的位置索引确定的源数据合并到所述目标数据中。

3.根据权利要求1所述的方法，其特征在于，所述正向位置索引中以列表序号为键名、以字段名和数据的组合为键值；所述反向位置索引中以字段名和数据的组合为键名、以列表序号为键值。

4.根据权利要求1至3任一项所述的方法，其特征在于，所述复合数据包括复合数据对象、数组数据对象和非数组数据对象。

5.根据权利要求4所述的方法，其特征在于，所述合并规则表达式针对数组数据对象；所述合并规则表达式中，分号前面的部分代表目标数据，分号后面的部分代表源数据；目标数据和源数据的规则表达式都是由数组名和关联字段名称组成，数组名和关联字段名之间用冒号隔开；

6.一种数据合并系统，其特征在于，所述系统包括：第一确定单元、第一转换单元、第二确定单元、合并单元、第二转换单元和返回单元；其中，

所述第一确定单元，用于分别确定各源数据的列表名称以及目标数据的列表名称；

所述第一转换单元，用于将各所述源数据和所述目标数据转换成为统一的复合数据；

所述第二确定单元，用于分别确定各所述源数据和所述目标数据各自的正向或反向位置索引，以及确定合并规则表达式；

所述合并单元，用于根据所述合并规则表达式及所述位置索引将各所述源数据合并到所述目标数据中；

所述第二转换单元，用于清除各所述源数据；

所述返回单元，用于返回合并后的目标数据。

7.根据权利要求6所述的系统，其特征在于，所述合并单元包括：第一确定子单元、遍历子单元和合并子单元；其中，

所述第一确定子单元，用于确定所述源数据与所述目标数据的关联字段名称；

所述遍历子单元，用于根据所述关联字段名称对所述目标数据进行循环遍历，并从所述源数据中取出关联字段对应的值；

所述合并子单元，用于根据所述合并规则表达式及所述关联字段对应的值确定所述源数据的位置索引，并将根据所述源数据的位置索引确定的源数据合并到所述目标数据中。

8.根据权利要求6所述的系统，其特征在于，所述正向位置索引中以列表序号为键名、以字段名和数据的组合为键值，所述反向位置索引中以字段名和数据的组合为键名、以列表序号为键值。

9.根据权利要求6至8任一项所述的系统，其特征在于，所述复合数据包括复合数据对象、数组数据对象和非数组数据对象。

10.根据权利要求9所述的装置，其特征在于，所述合并规则表达式针对数组数据对象；所述合并规则表达式中，分号前面的部分代表目标数据，分号后面的部分代表源数据；目标数据和源数据的规则表达式都是由数组名和关联字段名称组成，数组名和关联字段名之间用冒号隔开；