CN111552720B

CN111552720B - 分布式多源异构数据场景下的基础统计指标获取方法

Info

Publication number: CN111552720B
Application number: CN202010339568.1A
Authority: CN
Inventors: 杨静; 赵欣; 赵�卓
Original assignee: Beijing Normal University Zhuhai
Current assignee: Beijing Normal University Zhuhai
Priority date: 2020-04-26
Filing date: 2020-04-26
Publication date: 2023-05-02
Anticipated expiration: 2040-04-26
Also published as: CN111552720A

Abstract

本发明提供一种分布式多源异构数据场景下的基础统计指标获取方法，包括以下步骤：S1：在中心计算端和各个数据源端构建计算模块与通信模块；S2：各个所述数据源端根据所述中心计算端的请求调用所述计算模块得到参数值，并将所述参数值通过所述通信模块返回所述中心计算端，从而得到基础统计指标。本发明提供一种分布式多源异构数据场景下的基础统计指标获取方法，中心计算端和各个数据源端之间只需要交换少量数据值，避免将数据源端所有的数据全部发送至中心计算端，大大节约了计算时间以及通讯带宽，实现在多源异构数据场景下的基础统计指标高效获取，同时保护了各个数据源端的数据隐私。

Description

分布式多源异构数据场景下的基础统计指标获取方法

技术领域

本发明涉及多源异构数据处理技术领域，更具体的，涉及一种分布式多源异构数据场景下的基础统计指标获取方法。

背景技术

随着大数据技术的不断发展，无论是企业还是政府部门、事业单位每天都会产出庞大业务数据，对于这些数据进行准确的官方统计分析是一项非常重要的工作。在分布式计算环境下，这些大量的业务数据会经常被导入和导出，导入的数据可能来自不同类型的数据源端，导出的目的地也各不相同，由此形成了多源异构数据集。使用分布式计算系统来建立并管理计算和数据交换已经逐渐成为行业的标准软件技术，在分布式计算环境中数据交换产生的多源异构数据集的统计指标已经成为行业数据分析中的一个重要的内容。其中基础的统计指标包括：最大值、最小值、平均值、方差以及中位数。基础统计指标中的中位数指标作为划分数据中等水平的重要参照，需要在对数据进行整合排序后才能进行，而在多源异构数据集场景中，数据是分组分布的，中位数可能分布在不同的数据源端上，相比其他统计指标计算难度更大。

现有的多源异构数据集基础统计指标的计算，一般是把各个不同环境下的数据源端分别上传至中心计算端，将所有数据作为一个整体数据集，然后在这个新的数据集上进行相应的统计指标计算。一方面，这种方法需要多源异构数据集的大规模数据交换，开销巨大，处理成本非常高，从而导致整个整合分析过程效率低下；另一方面，由于各个数据源端均存在数据安全与共享权限的问题，从各个数据源端将数据集全部上传至中心计算端在大多数情况下都是不可行的。

发明内容

本发明为克服现有的多源异构数据集基础统计指标的计算效率低下的技术缺陷，提供一种分布式多源异构数据场景下的基础统计指标获取方法。

为解决上述技术问题，本发明的技术方案如下：

一种分布式多源异构数据场景下的基础统计指标获取方法，包括以下步骤：

S1：在中心计算端和各个数据源端构建计算模块与通信模块；

S2：各个所述数据源端根据所述中心计算端的请求调用所述计算模块得到参数值，并将所述参数值通过所述通信模块返回所述中心计算端，从而得到基础统计指标。

优选的，步骤S1中，在所述中心计算端构建的计算模块包括：

求最大值模块：max＝Max(max^k)，

求最小值模块：min＝Min(min^k)；

在各个所述数据源端构建的计算模块包括：

条件查询模块：X^k＝Query(Query_C)，

求最大参数值模块：max^k＝Max(X^k)，

求最小参数值模块：min^k＝Min(X^k)，

求平均参数值模块：avg^k＝Avg(X^k)，

求数据项个数模块：n^k＝Count(X^k)，

求数据项总和模块：sum^k＝Sum(X^k)

求平方和模块：

其中，max为最大值，min为最小值，max^k为第k个数据源端中的最大参数值，min^k为第k个数据源端中的最小参数值，

为第k个数据源端中所有满足查询条件的数据项组成的向量，

为第k个数据源端中满足查询条件的第i个数据项，n^k为第k个数据源端中所有满足查询条件的数据项总个数，Query_C为求数据项查询条件，avg^k为第k个数据源端中的平均参数值，sum^k为第k个数据源端中的数据项总和参数值，S^k为第k个数据源端中所有数据项与平均值

的差值的平方之和。

优选的，在步骤S2中，包括求最大值的方法，具体步骤为：

S2.1.1：所述中心计算端向各个所述数据源端发送求最大值的请求和Query_C；

S2.1.2：各个所述数据源端调用所述条件查询模块得到X^k；

S2.1.3：各个所述数据源端调用所述求最大参数值模块得到max^k并将max^k返回所述中心计算端；

S2.1.4：所述中心计算端接收到max^k后调用所述求最大值模块，得到max。

优选的，在步骤S2中，还包括求最小值的方法，具体步骤为：

S2.2.1：所述中心计算端向各个所述数据源端发送求最小值的请求和Query_C；

S2.2.2：各个所述数据源端调用所述条件查询模块得到X^k；

S2.2.3：各个所述数据源端调用所述求最小参数值模块得到min^k并将min^k返回所述中心计算端；

S2.2.4：所述中心计算端接收到min^k后调用所述求最小值模块，得到min。

优选的，在步骤S2中，还包括求平均值的方法，具体步骤为：

S2.3.1：所述中心计算端向各个所述数据源端发送求平均值的请求和Query_C；

S2.3.2：各个所述数据源端调用所述条件查询模块得到X^k；

S2.3.3：各个所述数据源端调用所述求数据项总和模块得到sum^k，调用所述求数据项个数模块得到n^k；并将sum^k、n^k返回所述中心计算端；

S2.3.4：所述中心计算端接收到sum^k和n^k后计算得到

计算公式为：

其中，N为所述数据源端的个数。

优选的，在步骤S2中，还包括求方差V的方法，具体步骤为：

S2.4.1：所述中心计算端向各个所述数据源端发送求方差的请求和Query_C；

S2.4.2：各个所述数据源端调用所述查询模块得到X^k；

S2.4.3：各个所述数据源端调用所述求数据项总和模块得到sum^k并将sum^k返回所述中心计算端；

各个所述数据源端调用所述求数据项个数模块得到n^k并将n^k返回所述中心计算端；

S2.4.4：所述中心计算端接收到sum^k和n^k后通过公式

计算得到

并将

发送到各个所述数据源端；

S2.4.5：各个所述数据源端接收到

后调用所述求平方和模块得到S^k，并将S^k返回所述中心计算端；

S2.4.6：所述中心计算端接收到S^k后计算得到V，计算公式为：

优选的，在步骤S2中，还包括求中位数M的方法，具体步骤为：

S2.5.1：所述中心计算端向各个所述数据源端发送求中位数的请求；

S2.5.2：所述中心计算端获取所有数据源端中数据的整体取值范围(min，max)；

S2.5.3：所述中心计算端根据所述数据源端的个数N将所述整体取值范围划分为N个取值区间，并将N个取值区间发送到各个所述数据源端；

S2.5.4：各个所述数据源端接收到所述N个取值区间后遍历各自的所有数据项并记录落在每个取值区间中数据项的个数

并将

返回所述中心计算端；其中，

表示第m个数据源端中落在第n个区间内的数据项的个数；

S2.5.5：所述中心计算端根据

计算得到所述数据源端中数据总个数T；计算公式为：

S2.5.6：所述中心计算端计算得到所述数据源端中中位数所在的排位R；计算公式为：

S2.5.7：所述中心计算端依次计算所述数据源端中所有数据落在各区间内的个数：

S2.5.8：所述中心计算端依据R和各区间内数据项的个数得出中位数所在的区间q：[min+(q-1)d，max+qd]；

S2.5.9：所述中心计算端把区间q内的所有数据看做一个组距数列并求中位数M。

优选的，步骤S2.5.2具体包括以下步骤：

S2.5.2.1：所述中心计算端向各个所述数据源端发送求最大值、求最小值的请求和Query_C；

S2.5.2.2：各个所述数据源端调用所述条件查询模块得到X^k；

S2.5.2.3：各个所述数据源端调用所述求最大参数值模块得到max^k，调用所述求最小参数值模块得到min^k；并将max^k、min^k返回所述中心计算端；

S2.5.2.4：所述中心计算端接收到max^k后调用所述求最大值模块，得到max；

所述中心计算端接收到min^k后调用所述求最小值模块，得到min；从而获取所有数据源端中数据的整体取值范围(min,max)；

优选的，步骤S2.5.3具体包括以下步骤：

S2.5.3.1：所述中心计算端计算各区间(除最后一组之外)的组距d，计算公式为：

S2.5.3.2：根据组距d把将所述整体取值范围划分为N个取值区间，得到各区间(除最后一组之外)分别为：

最后一组区间为：

[min+(N-1)d，max]；

S2.5.3.3：将N个取值区间发送到各个所述数据源端。

优选的，步骤S2.5.9采用改进的插补法求中位数，具体包括以下步骤：

S2.5.9.1：所述中心计算端计算中位数所在区间的下限值L，计算公式为：

L＝min+(q-1)d；

S2.5.9.2：所述中心计算端计算中位数所在区间以前的各区间的累积数据项个数S_q-1，计算公式为：

S2.5.9.3：所述中心计算端计算中位数所在区间的数据项个数f_q，计算公式为：

S2.5.9.4：所述中心计算端计算中位数所在区间的后一个区间的数据项个数f_q+1，计算公式为：

S2.5.9.5：所述中心计算端计算中位数所在区间的前一个区间的数据项个数f_q-1，计算公式为：

S2.5.9.6：所述中心计算端计算得出中位数M，计算公式为：

与现有技术相比，本发明技术方案的有益效果是：

本发明提供了一种分布式多源异构数据场景下的基础统计指标获取方法，通信模块采用WebService技术实现中心计算端和各个数据源端之间的数据交互，结合计算模块对各个数据源端的数据进行预处理，使得中心计算端和各个数据源端之间只需要交换少量数据值，避免将数据源端所有的数据全部发送至中心计算端，大大节约了计算时间以及通讯带宽，实现在多源异构数据场景下的基础统计指标高效获取，同时保护了各个数据源端的数据隐私。

附图说明

图1为本发明的实施流程图；

图2为本发明中一实施例的求最大值实施流程图；

图3为本发明中一实施例的求最小值实施流程图；

图4为本发明中一实施例的求平均值实施流程图；

图5为本发明中一实施例的求方差实施流程图；

图6为本发明中一实施例的求中位数实施流程图；

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

如图1所示，一种分布式多源异构数据场景下的基础统计指标获取方法，包括以下步骤：

更具体的，步骤S1中，在所述中心计算端构建的计算模块包括：

求最大值模块：max＝Max(max^k)，

求最小值模块：min＝Min(min^k)；

在各个所述数据源端构建的计算模块包括：

条件查询模块：X^k＝Query(Query_C)，

求最大参数值模块：max^k＝Max(X^k)，

求最小参数值模块：min^k＝Min(X^k)，

求平均参数值模块：avg^k＝Avg(X^k)，

求数据项个数模块：n^k＝Count(X^k)，

求数据项总和模块：sum^k＝Sum(X^k)

求平方和模块：

为第k个数据源端中所有满足查询条件的数据项组成的向量，

的差值的平方之和。

实施例1

更具体的，如图2所示，在步骤S2中，包括求最大值的方法，具体步骤为：

S2.1.2：各个所述数据源端调用所述条件查询模块得到X^k；

实施例2

更具体的，如图3所示，在步骤S2中，还包括求最小值的方法，具体步骤为：

S2.2.2：各个所述数据源端调用所述条件查询模块得到X^k；

实施例3

更具体的，如图4所示，在步骤S2中，还包括求平均值的方法，具体步骤为：

S2.3.2：各个所述数据源端调用所述条件查询模块得到X^k；

S2.3.4：所述中心计算端接收到sum^k和n^k后计算得到

计算公式为：

其中，N为所述数据源端的个数。

实施例4

更具体的，如图5所示，在步骤S2中，还包括求方差V的方法，具体步骤为：

S2.4.2：各个所述数据源端调用所述查询模块得到X^k；

S2.4.4：所述中心计算端接收到sum^k和n^k后通过公式

计算得到

并将

发送到各个所述数据源端；

S2.4.5：各个所述数据源端接收到

S2.4.6：所述中心计算端接收到S^k后计算得到V，计算公式为：

实施例5

更具体的，如图6所示，在步骤S2中，还包括求中位数M的方法，具体步骤为：

S2.5.2：所述中心计算端获取所有数据源端中数据的整体取值范围(min，max)，具体步骤为：

S2.5.2.2：各个所述数据源端调用所述条件查询模块得到X^k；

所述中心计算端接收到min^k后调用所述求最小值模块，得到min；从而获取所有数据源端中数据的整体取值范围(min，max)；

S2.5.3：所述中心计算端根据所述数据源端的个数N将所述整体取值范围划分为N个取值区间，并将N个取值区间发送到各个所述数据源端，具体步骤为：