CN114647665A

CN114647665A - 分布式系统的数据处理方法及其数据处理系统

Info

Publication number: CN114647665A
Application number: CN202111430347.6A
Authority: CN
Inventors: 邱鹏; 陈芳
Original assignee: China Unionpay Co Ltd
Current assignee: China Unionpay Co Ltd
Priority date: 2021-11-29
Filing date: 2021-11-29
Publication date: 2022-06-21

Abstract

本发明涉及分布式系统的数据处理方法及系统。该方法包括：接收数据请求，解析所述数据请求并区分成写请求或者读请求；对于写请求，根据写请求中的全部标识字段生成倒排索引；对于读请求，根据读请求中的任意标识字段查询所述倒排索引，得到倒排索引结果；以及对于写请求，将写请求转发到通过对某个标识字段为主键进行规定运算而定位得到的处理中心，对于读请求，以倒排索引结果为主键进行规定运算而定位得到的处理中心，接收来自定位得到的处理中心的针对该读请求的查询结果。根据本发明，能够提供一种在读场景下能够支持不同维度的查询方式的分布式系统的数据处理方法以及分布式系统的数据处理系统。

Description

分布式系统的数据处理方法及其数据处理系统

技术领域

本发明涉及计算机技术领域，具体地涉及一种分布式系统的数据处理方法以及分布式系统的数据处理系统。

背景技术

图1是表示一般的分布式系统的架构示意图。

在图1所示的分布式系统中，通讯接入层收到请求后，根据一定的规则将交易分发到不同的处理中心（图1中示出了处理中心1~处理中心N）进行处理，不同处理中心的数据库采用数据复制的方式进行数据同步。

通常情况下，通讯接入层都是根据请求报文中的某些字段进行哈希分组（例如，每笔交易请求中包含唯一的流水号，使用该流水号同当前处理中心的个数进行取余操作，余数即为该笔交易处理中心的编号），将不同的请求分发到不同的处理中心，确保不同处理中心的交易负载是均衡的。

考虑以下场景，应用系统存储用户的注册数据，用户注册信息包含手机号、用户名、卡号、用户ID等等。该系统可以分为两种场景，读场景和写场景。对于写场景，请求中包含用户注册数据的全部内容。对于读场景，请求中包含某个或者某些用户数据的组合。该系统在进行多中心改造时，如果写场景采用用户ID作为主键进行哈希分组并将该写请求转发到某个处理中心，则所有的读场景都只能支持基于用户ID的查询，否则由于查询请求中缺少用户ID，该查询请求的处理中心和前一个写请求的处理中心很可能不是同一个中心，如果写请求和读请求的间隔时间很短，由于数据同步存在延迟，就会导致读请求处理失败。这就极大限制了系统的扩展能力，要求用户登录时只能使用用户ID登录而不能用手机号、用户名等信息进行登录。

发明内容

鉴于上述问题，本发明旨在提供一种读场景下能够支持不同维度的查询方式的分布式系统的数据处理方法以及分布式系统的数据处理系统。

本发明一方面的分布式系统的数据处理方法，该方法用于与分布式系统的各个处理中心之间进行数据收发，其特征在于，该数据处理方法包括：

数据解析步骤，接收数据请求，解析所述数据请求并区分成写请求或者读请求；

倒排索引生成步骤，对于所述写请求，根据所述写请求中的全部标识字段生成倒排索引；

倒排索引查询步骤，对于所述读请求，根据所述读请求中的任意标识字段查询所述倒排索引，得到倒排索引结果；以及

数据分发步骤，对于所述写请求，将所述写请求转发到通过对所述写请求中的全部标识字段中的任意部分的标识字段为主键进行规定运算而定位得到的处理中心，对于所述读请求，以所述倒排索引结果为主键进行规定运算而定位得到的处理中心，接收来自所述定位得到的处理中心的针对该读请求的查询结果。

可选地，所述倒排索引为二阶的“主键-值”字典。

可选地，所在所述二阶的“主键-值”字典中，一阶的“主键”为标识相关信息，一阶的“值”为所述标识相关信息的对应值；二阶的“主键”为所述一阶的“值”即所述标识相关信息的对应值，二阶的“值”为标识本身。

可选地，所所述规定运算为哈希取模运算。

可选地，在倒排索引查询步骤中，对于所述读请求，根据所述读请求中的全部标识字段中的多个标识字段查询所述倒排索引的情况下，对于所述多个标识字段的每一个分别查询所述倒排索引并分别得到多个搜索结果，将所述多个搜索结果取交集得到所述倒排索引结果。

可选地，在所述数据分发步骤中，对于所述读请求，以所述倒排索引结果为主键进行规定运算而定位得到多个处理中心的情况下，接收并合并来自所述多个处理中心的针对该读请求的查询结果。

可选地，所所述倒排索引全部存储在内存中。

可选地，所所述倒排索引按照规定比例存储在内存和文件中。

可选地，所所述倒排索引按照规定2：8比例存储在内存和文件中。

可选地，所在所述倒排索引查询步骤中，采用B+树方式查询所述倒排索引。

本发明一方面的分布式系统的数据处理系统，该系统用于用于与分布式系统的各个处理中心之间进行数据收发，其特征在于，该数据处理系统包括：

数据解析模块，用于接收数据请求，解析所述数据请求并区分成写请求或者读请求；

倒排索引生成模块，用于对于所述写请求根据所述写请求中的全部标识字段生成倒排索引；

倒排索引查询模块，用于对于所述读请求根据所述读请求中的任意标识字段查询所述倒排索引，得到倒排索引结果；以及

数据分发模块，对于所述写请求，将所述写请求转发到通过对所述写请求中的全部标识字段中的任意部分的标识字段为主键进行规定运算而定位得到的处理中心，对于所述读请求，以所述倒排索引结果为主键进行规定运算而定位得到处理中心，接收来自所述定位得到的处理中心的针对该读请求的查询结果。

可选地，所所述倒排索引为二阶的“主键-值”字典。

可选地，所所述规定运算为哈希取模运算。

可选地，在倒排索引查询模块中，对于所述读请求，根据所述读请求中的全部标识字段中的多个标识字段查询所述倒排索引，对于所述多个标识字段的每一个分别查询所述倒排索引分别得到多个搜索结果，将所述多个搜索结果取交集得到所述倒排索引结果。

可选地，在所述数据分发模块中，对于所述读请求，以所述倒排索引结果为主键进行规定运算而定位得到多个处理中心的情况下，接收并合并来自所述多个处理中心的针对该读请求的查询结果。

可选地，所所述倒排索引全部存储在内存中。

可选地，所在所述倒排索引查询模块中，采用B+树方式查询所述倒排索引。

本发明的方面的计算机可读介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现所述的分布式系统的数据处理方法。

本发明的一方面的计算机设备，包括：存储器；处理器；以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征于，

该计算机程序的运行使得所述处理器执行所述计算机程序时实现权利要求所述的分布式系统的数据处理方法。

本发明的分布式系统的数据处理方法以及分布式系统的数据处理系统能够解决在传统模式下读写请求哈希取模使用的字段必须一致的问题，通过应用本发明的分布式系统的数据处理方法，读请求能够支持任意字段的查询或者任意字段的组合查询。

附图说明

图1是表示一般的分布式系统的架构示意图。

图2是表示本发明的分布式系统的数据处理方法的流程示意图。

图3是表示本发明的倒排索引的示意图。

图4是表示本发明的一个示例的倒排索引的示意图。

图5是表示本发明的一个示例的倒排索引查询过程的示意图。

图6是表示本发明的分布式系统的数据处理系统的结构框图。

具体实施方式

下面介绍的是本发明的多个实施例中的一些，旨在提供对本发明的基本了解。并不旨在确认本发明的关键或决定性的要素或限定所要保护的范围。

出于简洁和说明性目的，本文主要参考其示范实施例来描述本发明的原理。但是，本领域技术人员将容易地认识到，相同的原理可等效地应用于所有类型的分布式系统的数据处理方法以及分布式系统的数据处理系统，并且可以在其中实施这些相同的原理，以及任何此类变化不背离本专利申请的真实精神和范围。

而且，在下文描述中，参考了附图，这些附图图示特定的示范实施例。在不背离本发明的精神和范围的前提下可以对这些实施例进行电、机械、逻辑和结构上的更改。此外，虽然本发明的特征是结合若干实施/实施例的仅其中之一来公开的，但是如针对任何给定或可识别的功能可能是期望和/或有利的，可以将此特征与其他实施/实施例的一个或多个其他特征进行组合。因此，下文描述不应视为在限制意义上的，并且本发明的范围由所附权利要求及其等效物来定义。

诸如“具备”和“包括”之类的用语表示除了具有在说明书和权利要求书中有直接和明确表述的单元（模块）和步骤以外，本发明的技术方案也不排除具有未被直接或明确表述的其它单元（模块）和步骤的情形。

首先，对于本发明的分布式系统的数据处理方法进行说明。

本发明的分布式系统的数据处理方法涉及的是图1中所示的接入层与处理中心之间的数据处理，本发明的分布式系统的数据处理方法用于将数据请求转发到分布式系统中的各个处理中心。

如图2所示，本发明的分布式系统的数据处理方法包括以下步骤：

数据解析步骤S100：接收数据请求，解析所述数据请求并区分成写请求或者读请求；

倒排索引生成步骤S200：对于所述写请求，根据所述写请求中的全部标识字段生成倒排索引，其中，全部标识字段是指能够标识写请求的全部的标识字段；

倒排索引查询步骤S300: 对于所述读请求，根据所述读请求中的任意标识字段查询所述倒排索引，得到倒排索引结果；以及

数据分发步骤S400：对于所述写请求，将所述写请求转发到通过对所述写请求中的全部标识字段中的任意部分的标识字段为主键进行规定运算而定位得到的处理中心，对于所述读请求，以所述倒排索引结果为主键进行规定运算而定位得到的处理中心，接收来自所述定位得到的处理中心的针对该读请求的查询结果。

这样，通过上述本发明的分布式系统的数据处理方法能够解决直接使用哈希分组的负载均衡方案中存在的读请求处理失败的问题，在本发明中，在处理写请求的时候，根据请求中的全部信息生成倒排索引，而在处理读请求的时候，可以根据请求中的任意信息查询倒排索引得到倒排索引结果，接收来自以倒排索引结果为主键进行规定运算而定位得到的处理中心返回的查询结果。根据本发明的，可以确保针对同一个用户的所有读写请求都被转发到相同的处理中心，同时，读场景也可以支持不同维度组合的查询方式。

其中，所述规定运算为哈希取模运算。

其中，所述查询信息可以为所述全部标识字段中的任意一个字段或者任意多个字段的组合。

其中，作为倒排索引的存储形式可以采取两种方式：一种是全内存方式，还有一种是内存+文件的方式。如果信息较少，倒排索引占用的空间不大，可以将其全部保存在内存中，定期全量刷新到文件保存，系统重新启动时，直接将文件中的倒排索引装载到内存中。如果信息较多，内存中无法存储全量的倒排索引数据，可以采用内存+文件的方式。由于系统的交易请求大多符合2/8原则，即80%的交易请求是由20%的热点账户发起的，内存中只需要保存这20%的倒排索引，剩余80%的倒排索引数据全部放到文件中存储。另外，在查询文件的时候，可以采用B+树等方式进行加速。

接着对于本发明的一个具体实施方式的分布式系统的数据处理方法进行说明。

本发明的一个具体实施方式的分布式系统的数据处理方法包括：（1）数据解析步骤、（2）倒排索引生成步骤、（3）倒排索引查询步骤以及（4）数据分发步骤。

（1）数据解析步骤

在从接入层收到数据请求之后，对数据请求进行解析，将数据请求区分成写请求或者读请求。

（2）倒排索引生成步骤

对于数据解析步骤解析得到写请求的情况下，对于每一笔写请求，根据请求中的全部标识字段生成倒排索引。

这里以用户信息系统为示例进行说明，假设该用户信息系统的全部标识字段包括手机号、用户名、卡号、用户ID，那么，在写请求中则使得包含用户的全部信息，即，包括手机号、用户名、卡号、用户ID。假设以用户ID作为主键进行哈希分组，则倒排索引的结构如图3。

图3是表示本发明的倒排索引的示意图。如图3所示，倒排索引的结构是一个二阶key-value字典，其中一阶字典的key（主键）为手机号、用户名、卡号，一阶value（值）本身又是一个key-value字典（即二阶字典），二阶字典的key（主键）为手机号、卡号的具体取值，二阶value（值）是用户ID的集合。

这里假设不同用户的注册信息可能是重复的，因此二阶字典的value是用户ID的集合，如果不同用户的注册信息完全不重复，那么二阶字典的value就只有唯一的一条用户ID记录，这种场景是本方案的简化版本，其处理逻辑类似。

作为一个示例，假设收到一笔写请求，请求中的相关用户信息如下：

用户ID：2236

手机号：13888888888

卡号：62252221

用户名：张三

基于该写请求中的全部信息生成倒排索引，如图4所示。图4是表示本发明的一个示例的倒排索引的示意图。

（3）倒排索引查询步骤对于写请求来说，请求中应包含全部的标识字段（以用户举例，写请求即用户注册场景，该场景下，用户应提交注册的全部信息，包括身份证号、用户名、手机号等等）。另一方面，对于读请求来说，请求中一般情况下不会包含全部的标识字段（以用户举例，读请求可能是用户登陆场景，该场景下，用户可能只需要提交用户名或者手机号一个要素即可完成查询）。

根据这样的情况，在本发明中，对于数据解析步骤解析得到读请求的情况下，对于每一笔读请求，根据读请求中的查询字段查询倒排索引。仍然以用户信息为例，在本发明中查询字段可以是全部标识字段中的任意的一个或者多个，这里作为一个示例，假设读请求中的查询字段为手机号和卡号。

图5是表示本发明的一个示例的倒排索引查询过程的示意图。首先，如图5的上半部分所示，以手机号进行搜索，搜索路径参考图5中的上半部分的深色路径，搜索成功后得到用户ID的集合1。然后再如图5的下半部分所示，以卡号进行搜索，搜索路径参考图5中的下半部分的深色路径，搜索成功后得到用户ID集合2。接着，取用户ID集合1和用户ID集合2这两个集合的交集，即得到最终的用户ID集合。

（4）数据分发步骤

对于写请求，将写请求转发到通过对写请求中的全部标识字段中的任意部分的标识字段为主键进行规定运算而定位得到的处理中心，对于读请求，以倒排索引结果为主键进行规定运算而定位得到的处理中心，接收来自定位得到的处理中心的针对该读请求的查询结果。

具体地，对于读请求，依次读取最终用户ID集合中的每一条数据（即倒排索引结果），并将其作为主键做哈希分组，得到对应的处理中心，接收每个处理中心的反馈数据并将其合并，即得到最终的查询结果。

如上所述，根据本发明的分布式系统的数据处理方法，能够解决直接使用哈希分组的现有的负载均衡方案中存在的读请求处理失败的问题，根据本发明，在处理写请求的时候，根据写请求中的全部相关信息生成倒排索引，在处理读请求的时候，根据读请求中的部分相关信息查询倒排索引之后，定位得到对应的处理中心，接收每个处理中心的反馈数据并将其合得到最终的查询结果。

因此，根据本发明，能够确保针对同一个用户的所有读写请求都被转发到相同的处理中心，同时，读场景也可以支持不同维度组合的查询方式，例如在上述实施方式中能够支持如手机号、手机号+用户名、用户名+卡号等不同维度组合的查询方式。

接着，对于本发明的分布式系统的数据处理系统进行说明。

图6是表示本发明的分布式系统的数据处理系统的结构框图。

如图6所示，本发明的分布式系统的数据处理系统200用于将从请求发起方发出的数据请求从接入层100转发到分布式系统中的各个处理中心300，对应于各个处理中心300还分别具有对应的数据库400。

本发明的分布式系统的数据处理系统200包括：

数据解析模块210，用于接收数据请求，解析所述数据请求并区分成写请求或者读请求；

倒排索引生成模块220，用于对于所述写请求根据所述写请求中的全部标识字段生成倒排索引；

倒排索引查询模块230，用于对于所述读请求根据所述读请求中的全部标识字段中的任意部分的标识字段查询所述倒排索引，得到倒排索引结果；以及

数据分发模块240，对于所述写请求，将所述写请求转发到通过对所述写请求中的全部标识字段中的任意部分的标识字段为主键进行规定运算而定位得到的处理中心，对于所述读请求，以所述倒排索引结果为主键进行规定运算而定位得到处理中心，接收来自所述定位得到的处理中心的针对该读请求的查询结果。

其中，数据分发模块240也汇总来自各个处理中心300的执行结果，并将其合并后通过接入层100返回到发出写请求或者读请求的请求发起方。

作为一个示例，倒排索引为二阶的“主键-值”字典。例如，在二阶的“主键-值”字典中，一阶的“主键”为用户标识相关信息，一阶的“值”为所述用户标识相关信息的对应值；二阶的“主键”为所述用户标识相关信息的对应值，二阶的“值”为用户ID。可选地，所述规定运算为哈希取模运算。

其中，在读请求中查询信息为所述全部标识字段中的任意一个，或者查询信息为所述全部标识字段中的任意多个字段的组合。

作为一个示例，倒排索引全部存储在内存中。

也可以是，作为另一个示例，倒排索引按照规定比例存储在内存和文件中。作为一个示例，所述倒排索引按照规定2：8比例存储在内存和文件中。

作为一个示例，在倒排索引查询模块130中，采用B+树方式查询所述倒排索引。

本发明还提供一种计算机可读介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现上述的分布式系统的数据处理方法。

本发明还提供一种计算机设备，包括：存储器；处理器；以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征碍于，该计算机程序的运行使得所述处理器执行所述计算机程序时实现上述的分布式系统的数据处理方法。

本发明的分布式系统的数据处理方法以及分布式系统的数据处理系统是一种解决分布式场景中读写负载均衡的方案，传统的分布式负载均衡方案大多直接使用请求中某个字段直接哈希取模的方式，在传统模式下读写请求哈希取模使用的字段必须一致，如果写请求使用A字段哈希取模，而读请求不包含A字段，只用B字段查询，则该读请求就无法处理，而如上所述，通过应用本发明的分布式系统的数据处理方法，读请求能够支持任意字段的查询或者任意字段的组合查询。

以上例子主要说明了本发明的分布式系统的数据处理方法以及分布式系统的数据处理系统。尽管只对其中一些本发明的具体实施方式进行了描述，但是本领域普通技术人员应当了解，本发明可以在不偏离其主旨与范围内以许多其他的形式实施。因此，所展示的例子与实施方式被视为示意性的而非限制性的，在不脱离如所附各权利要求所定义的本发明精神及范围的情况下，本发明可能涵盖各种的修改与替换。

Claims

1.一种分布式系统的数据处理方法，该方法用于与分布式系统的各个处理中心之间进行数据收发，其特征在于，该数据处理方法包括：

2.如权利要求1所述的分布式系统的数据处理方法，其特征在于，

所述倒排索引为二阶的“主键-值”字典。

3.如权利要求1所述的分布式系统的数据处理方法，其特征在于，

在所述二阶的“主键-值”字典中，一阶的“主键”为标识相关信息，一阶的“值”为所述标识相关信息的对应值；二阶的“主键”为所述一阶的“值”即所述标识相关信息的对应值，二阶的“值”为标识本身。

4.如权利要求1所述的分布式系统的数据处理方法，其特征在于，

所述规定运算为哈希取模运算。

5.如权利要求1所述的分布式系统的数据处理方法，其特征在于，

在倒排索引查询步骤中，对于所述读请求，根据所述读请求中的全部标识字段中的多个标识字段查询所述倒排索引的情况下，对于所述多个标识字段的每一个分别查询所述倒排索引并分别得到多个搜索结果，将所述多个搜索结果取交集得到所述倒排索引结果。

6.如权利要求1所述的分布式系统的数据处理方法，其特征在于，

在所述数据分发步骤中，对于所述读请求，以所述倒排索引结果为主键进行规定运算而定位得到多个处理中心的情况下，接收并合并来自所述多个处理中心的针对该读请求的查询结果。

7.如权利要求1所述的分布式系统的数据处理方法，其特征在于，

所述倒排索引全部存储在内存中。

8.如权利要求1所述的分布式系统的数据处理方法，其特征在于，

所述倒排索引按照规定比例存储在内存和文件中。

9.如权利要求1所述的分布式系统的数据处理方法，其特征在于，

所述倒排索引按照规定2：8比例存储在内存和文件中。

10.如权利要求7所述的分布式系统的数据处理方法，其特征在于，

在所述倒排索引查询步骤中，采用B+树方式查询所述倒排索引。

11.一种分布式系统的数据处理系统，该系统用于用于与分布式系统的各个处理中心之间进行数据收发，其特征在于，该数据处理系统包括：

12.如权利要求11所述的分布式系统的数据处理系统，其特征在于，

所述倒排索引为二阶的“主键-值”字典。

13.如权利要求11所述的分布式系统的数据处理系统，其特征在于，

14.如权利要求11所述的分布式系统的数据处理系统，其特征在于，

所述规定运算为哈希取模运算。

15.如权利要求11所述的分布式系统的数据处理系统，其特征在于，

在倒排索引查询模块中，对于所述读请求，根据所述读请求中的全部标识字段中的多个标识字段查询所述倒排索引，对于所述多个标识字段的每一个分别查询所述倒排索引分别得到多个搜索结果，将所述多个搜索结果取交集得到所述倒排索引结果。

16.如权利要求11所述的分布式系统的数据处理系统，其特征在于，

在所述数据分发模块中，对于所述读请求，以所述倒排索引结果为主键进行规定运算而定位得到多个处理中心的情况下，接收并合并来自所述多个处理中心的针对该读请求的查询结果。

17.如权利要求1所述的分布式系统的数据处理系统，其特征在于，

所述倒排索引全部存储在内存中。

18.如权利要求1所述的分布式系统的数据处理系统，其特征在于，

所述倒排索引按照规定比例存储在内存和文件中。

19.如权利要求11所述的分布式系统的数据处理系统，其特征在于，

所述倒排索引按照规定2：8比例存储在内存和文件中。

20.如权利要求19所述的分布式系统的数据处理系统，其特征在于，

在所述倒排索引查询模块中，采用B+树方式查询所述倒排索引。

21.一种计算机可读介质，其上存储有计算机程序，其特征在于，

该计算机程序被处理器执行时实现权利要求1~10任意一项所述的分布式系统的数据处理方法。

22.一种计算机设备，包括：存储器；处理器；以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，

该计算机程序的运行使得所述处理器执行所述计算机程序时实现权利要求1~10任意一项所述的分布式系统的数据处理方法。