CN111552720B - 分布式多源异构数据场景下的基础统计指标获取方法 - Google Patents

分布式多源异构数据场景下的基础统计指标获取方法 Download PDF

Info

Publication number
CN111552720B
CN111552720B CN202010339568.1A CN202010339568A CN111552720B CN 111552720 B CN111552720 B CN 111552720B CN 202010339568 A CN202010339568 A CN 202010339568A CN 111552720 B CN111552720 B CN 111552720B
Authority
CN
China
Prior art keywords
data
data source
module
central computing
max
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010339568.1A
Other languages
English (en)
Other versions
CN111552720A (zh
Inventor
杨静
赵欣
赵�卓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Normal University Zhuhai
Original Assignee
Beijing Normal University Zhuhai
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Normal University Zhuhai filed Critical Beijing Normal University Zhuhai
Priority to CN202010339568.1A priority Critical patent/CN111552720B/zh
Publication of CN111552720A publication Critical patent/CN111552720A/zh
Application granted granted Critical
Publication of CN111552720B publication Critical patent/CN111552720B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Fuzzy Systems (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Complex Calculations (AREA)

Abstract

本发明提供一种分布式多源异构数据场景下的基础统计指标获取方法,包括以下步骤:S1:在中心计算端和各个数据源端构建计算模块与通信模块;S2:各个所述数据源端根据所述中心计算端的请求调用所述计算模块得到参数值,并将所述参数值通过所述通信模块返回所述中心计算端,从而得到基础统计指标。本发明提供一种分布式多源异构数据场景下的基础统计指标获取方法,中心计算端和各个数据源端之间只需要交换少量数据值,避免将数据源端所有的数据全部发送至中心计算端,大大节约了计算时间以及通讯带宽,实现在多源异构数据场景下的基础统计指标高效获取,同时保护了各个数据源端的数据隐私。

Description

分布式多源异构数据场景下的基础统计指标获取方法
技术领域
本发明涉及多源异构数据处理技术领域,更具体的,涉及一种分布式多源异构数据场景下的基础统计指标获取方法。
背景技术
随着大数据技术的不断发展,无论是企业还是政府部门、事业单位每天都会产出庞大业务数据,对于这些数据进行准确的官方统计分析是一项非常重要的工作。在分布式计算环境下,这些大量的业务数据会经常被导入和导出,导入的数据可能来自不同类型的数据源端,导出的目的地也各不相同,由此形成了多源异构数据集。使用分布式计算系统来建立并管理计算和数据交换已经逐渐成为行业的标准软件技术,在分布式计算环境中数据交换产生的多源异构数据集的统计指标已经成为行业数据分析中的一个重要的内容。其中基础的统计指标包括:最大值、最小值、平均值、方差以及中位数。基础统计指标中的中位数指标作为划分数据中等水平的重要参照,需要在对数据进行整合排序后才能进行,而在多源异构数据集场景中,数据是分组分布的,中位数可能分布在不同的数据源端上,相比其他统计指标计算难度更大。
现有的多源异构数据集基础统计指标的计算,一般是把各个不同环境下的数据源端分别上传至中心计算端,将所有数据作为一个整体数据集,然后在这个新的数据集上进行相应的统计指标计算。一方面,这种方法需要多源异构数据集的大规模数据交换,开销巨大,处理成本非常高,从而导致整个整合分析过程效率低下;另一方面,由于各个数据源端均存在数据安全与共享权限的问题,从各个数据源端将数据集全部上传至中心计算端在大多数情况下都是不可行的。
发明内容
本发明为克服现有的多源异构数据集基础统计指标的计算效率低下的技术缺陷,提供一种分布式多源异构数据场景下的基础统计指标获取方法。
为解决上述技术问题,本发明的技术方案如下:
一种分布式多源异构数据场景下的基础统计指标获取方法,包括以下步骤:
S1:在中心计算端和各个数据源端构建计算模块与通信模块;
S2:各个所述数据源端根据所述中心计算端的请求调用所述计算模块得到参数值,并将所述参数值通过所述通信模块返回所述中心计算端,从而得到基础统计指标。
优选的,步骤S1中,在所述中心计算端构建的计算模块包括:
求最大值模块:max=Max(maxk),
求最小值模块:min=Min(mink);
在各个所述数据源端构建的计算模块包括:
条件查询模块:Xk=Query(Query_C),
求最大参数值模块:maxk=Max(Xk),
求最小参数值模块:mink=Min(Xk),
求平均参数值模块:avgk=Avg(Xk),
求数据项个数模块:nk=Count(Xk),
求数据项总和模块:sumk=Sum(Xk)
求平方和模块:
Figure BDA0002468082050000021
其中,max为最大值,min为最小值,maxk为第k个数据源端中的最大参数值,mink为第k个数据源端中的最小参数值,
Figure BDA0002468082050000022
为第k个数据源端中所有满足查询条件的数据项组成的向量,
Figure BDA0002468082050000023
为第k个数据源端中满足查询条件的第i个数据项,nk为第k个数据源端中所有满足查询条件的数据项总个数,Query_C为求数据项查询条件,avgk为第k个数据源端中的平均参数值,sumk为第k个数据源端中的数据项总和参数值,Sk为第k个数据源端中所有数据项与平均值
Figure BDA0002468082050000024
的差值的平方之和。
优选的,在步骤S2中,包括求最大值的方法,具体步骤为:
S2.1.1:所述中心计算端向各个所述数据源端发送求最大值的请求和Query_C;
S2.1.2:各个所述数据源端调用所述条件查询模块得到Xk
S2.1.3:各个所述数据源端调用所述求最大参数值模块得到maxk并将maxk返回所述中心计算端;
S2.1.4:所述中心计算端接收到maxk后调用所述求最大值模块,得到max。
优选的,在步骤S2中,还包括求最小值的方法,具体步骤为:
S2.2.1:所述中心计算端向各个所述数据源端发送求最小值的请求和Query_C;
S2.2.2:各个所述数据源端调用所述条件查询模块得到Xk
S2.2.3:各个所述数据源端调用所述求最小参数值模块得到mink并将mink返回所述中心计算端;
S2.2.4:所述中心计算端接收到mink后调用所述求最小值模块,得到min。
优选的,在步骤S2中,还包括求平均值的方法,具体步骤为:
S2.3.1:所述中心计算端向各个所述数据源端发送求平均值的请求和Query_C;
S2.3.2:各个所述数据源端调用所述条件查询模块得到Xk
S2.3.3:各个所述数据源端调用所述求数据项总和模块得到sumk,调用所述求数据项个数模块得到nk;并将sumk、nk返回所述中心计算端;
S2.3.4:所述中心计算端接收到sumk和nk后计算得到
Figure BDA0002468082050000031
计算公式为:
Figure BDA0002468082050000032
其中,N为所述数据源端的个数。
优选的,在步骤S2中,还包括求方差V的方法,具体步骤为:
S2.4.1:所述中心计算端向各个所述数据源端发送求方差的请求和Query_C;
S2.4.2:各个所述数据源端调用所述查询模块得到Xk
S2.4.3:各个所述数据源端调用所述求数据项总和模块得到sumk并将sumk返回所述中心计算端;
各个所述数据源端调用所述求数据项个数模块得到nk并将nk返回所述中心计算端;
S2.4.4:所述中心计算端接收到sumk和nk后通过公式
Figure BDA0002468082050000041
计算得到
Figure BDA0002468082050000042
并将
Figure BDA0002468082050000043
发送到各个所述数据源端;
S2.4.5:各个所述数据源端接收到
Figure BDA0002468082050000044
后调用所述求平方和模块得到Sk,并将Sk返回所述中心计算端;
S2.4.6:所述中心计算端接收到Sk后计算得到V,计算公式为:
Figure BDA0002468082050000045
优选的,在步骤S2中,还包括求中位数M的方法,具体步骤为:
S2.5.1:所述中心计算端向各个所述数据源端发送求中位数的请求;
S2.5.2:所述中心计算端获取所有数据源端中数据的整体取值范围(min,max);
S2.5.3:所述中心计算端根据所述数据源端的个数N将所述整体取值范围划分为N个取值区间,并将N个取值区间发送到各个所述数据源端;
S2.5.4:各个所述数据源端接收到所述N个取值区间后遍历各自的所有数据项并记录落在每个取值区间中数据项的个数
Figure BDA0002468082050000046
并将
Figure BDA0002468082050000047
返回所述中心计算端;其中,
Figure BDA0002468082050000048
表示第m个数据源端中落在第n个区间内的数据项的个数;
S2.5.5:所述中心计算端根据
Figure BDA0002468082050000049
计算得到所述数据源端中数据总个数T;计算公式为:
Figure BDA00024680820500000410
S2.5.6:所述中心计算端计算得到所述数据源端中中位数所在的排位R;计算公式为:
Figure BDA00024680820500000411
S2.5.7:所述中心计算端依次计算所述数据源端中所有数据落在各区间内的个数:
Figure BDA00024680820500000412
S2.5.8:所述中心计算端依据R和各区间内数据项的个数得出中位数所在的区间q:[min+(q-1)d,max+qd];
S2.5.9:所述中心计算端把区间q内的所有数据看做一个组距数列并求中位数M。
优选的,步骤S2.5.2具体包括以下步骤:
S2.5.2.1:所述中心计算端向各个所述数据源端发送求最大值、求最小值的请求和Query_C;
S2.5.2.2:各个所述数据源端调用所述条件查询模块得到Xk
S2.5.2.3:各个所述数据源端调用所述求最大参数值模块得到maxk,调用所述求最小参数值模块得到mink;并将maxk、mink返回所述中心计算端;
S2.5.2.4:所述中心计算端接收到maxk后调用所述求最大值模块,得到max;
所述中心计算端接收到mink后调用所述求最小值模块,得到min;从而获取所有数据源端中数据的整体取值范围(min,max);
优选的,步骤S2.5.3具体包括以下步骤:
S2.5.3.1:所述中心计算端计算各区间(除最后一组之外)的组距d,计算公式为:
Figure BDA0002468082050000051
S2.5.3.2:根据组距d把将所述整体取值范围划分为N个取值区间,得到各区间(除最后一组之外)分别为:
Figure BDA0002468082050000052
最后一组区间为:
[min+(N-1)d,max];
S2.5.3.3:将N个取值区间发送到各个所述数据源端。
优选的,步骤S2.5.9采用改进的插补法求中位数,具体包括以下步骤:
S2.5.9.1:所述中心计算端计算中位数所在区间的下限值L,计算公式为:
L=min+(q-1)d;
S2.5.9.2:所述中心计算端计算中位数所在区间以前的各区间的累积数据项个数Sq-1,计算公式为:
Figure BDA0002468082050000053
S2.5.9.3:所述中心计算端计算中位数所在区间的数据项个数fq,计算公式为:
Figure BDA0002468082050000061
S2.5.9.4:所述中心计算端计算中位数所在区间的后一个区间的数据项个数fq+1,计算公式为:
Figure BDA0002468082050000062
S2.5.9.5:所述中心计算端计算中位数所在区间的前一个区间的数据项个数fq-1,计算公式为:
Figure BDA0002468082050000063
S2.5.9.6:所述中心计算端计算得出中位数M,计算公式为:
Figure BDA0002468082050000064
与现有技术相比,本发明技术方案的有益效果是:
本发明提供了一种分布式多源异构数据场景下的基础统计指标获取方法,通信模块采用WebService技术实现中心计算端和各个数据源端之间的数据交互,结合计算模块对各个数据源端的数据进行预处理,使得中心计算端和各个数据源端之间只需要交换少量数据值,避免将数据源端所有的数据全部发送至中心计算端,大大节约了计算时间以及通讯带宽,实现在多源异构数据场景下的基础统计指标高效获取,同时保护了各个数据源端的数据隐私。
附图说明
图1为本发明的实施流程图;
图2为本发明中一实施例的求最大值实施流程图;
图3为本发明中一实施例的求最小值实施流程图;
图4为本发明中一实施例的求平均值实施流程图;
图5为本发明中一实施例的求方差实施流程图;
图6为本发明中一实施例的求中位数实施流程图;
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
如图1所示,一种分布式多源异构数据场景下的基础统计指标获取方法,包括以下步骤:
S1:在中心计算端和各个数据源端构建计算模块与通信模块;
S2:各个所述数据源端根据所述中心计算端的请求调用所述计算模块得到参数值,并将所述参数值通过所述通信模块返回所述中心计算端,从而得到基础统计指标。
更具体的,步骤S1中,在所述中心计算端构建的计算模块包括:
求最大值模块:max=Max(maxk),
求最小值模块:min=Min(mink);
在各个所述数据源端构建的计算模块包括:
条件查询模块:Xk=Query(Query_C),
求最大参数值模块:maxk=Max(Xk),
求最小参数值模块:mink=Min(Xk),
求平均参数值模块:avgk=Avg(Xk),
求数据项个数模块:nk=Count(Xk),
求数据项总和模块:sumk=Sum(Xk)
求平方和模块:
Figure BDA0002468082050000071
其中,max为最大值,min为最小值,maxk为第k个数据源端中的最大参数值,mink为第k个数据源端中的最小参数值,
Figure BDA0002468082050000072
为第k个数据源端中所有满足查询条件的数据项组成的向量,
Figure BDA0002468082050000073
为第k个数据源端中满足查询条件的第i个数据项,nk为第k个数据源端中所有满足查询条件的数据项总个数,Query_C为求数据项查询条件,avgk为第k个数据源端中的平均参数值,sumk为第k个数据源端中的数据项总和参数值,Sk为第k个数据源端中所有数据项与平均值
Figure BDA0002468082050000081
的差值的平方之和。
实施例1
更具体的,如图2所示,在步骤S2中,包括求最大值的方法,具体步骤为:
S2.1.1:所述中心计算端向各个所述数据源端发送求最大值的请求和Query_C;
S2.1.2:各个所述数据源端调用所述条件查询模块得到Xk
S2.1.3:各个所述数据源端调用所述求最大参数值模块得到maxk并将maxk返回所述中心计算端;
S2.1.4:所述中心计算端接收到maxk后调用所述求最大值模块,得到max。
实施例2
更具体的,如图3所示,在步骤S2中,还包括求最小值的方法,具体步骤为:
S2.2.1:所述中心计算端向各个所述数据源端发送求最小值的请求和Query_C;
S2.2.2:各个所述数据源端调用所述条件查询模块得到Xk
S2.2.3:各个所述数据源端调用所述求最小参数值模块得到mink并将mink返回所述中心计算端;
S2.2.4:所述中心计算端接收到mink后调用所述求最小值模块,得到min。
实施例3
更具体的,如图4所示,在步骤S2中,还包括求平均值的方法,具体步骤为:
S2.3.1:所述中心计算端向各个所述数据源端发送求平均值的请求和Query_C;
S2.3.2:各个所述数据源端调用所述条件查询模块得到Xk
S2.3.3:各个所述数据源端调用所述求数据项总和模块得到sumk,调用所述求数据项个数模块得到nk;并将sumk、nk返回所述中心计算端;
S2.3.4:所述中心计算端接收到sumk和nk后计算得到
Figure BDA0002468082050000091
计算公式为:
Figure BDA0002468082050000092
其中,N为所述数据源端的个数。
实施例4
更具体的,如图5所示,在步骤S2中,还包括求方差V的方法,具体步骤为:
S2.4.1:所述中心计算端向各个所述数据源端发送求方差的请求和Query_C;
S2.4.2:各个所述数据源端调用所述查询模块得到Xk
S2.4.3:各个所述数据源端调用所述求数据项总和模块得到sumk并将sumk返回所述中心计算端;
各个所述数据源端调用所述求数据项个数模块得到nk并将nk返回所述中心计算端;
S2.4.4:所述中心计算端接收到sumk和nk后通过公式
Figure BDA0002468082050000093
计算得到
Figure BDA0002468082050000094
并将
Figure BDA0002468082050000095
发送到各个所述数据源端;
S2.4.5:各个所述数据源端接收到
Figure BDA0002468082050000096
后调用所述求平方和模块得到Sk,并将Sk返回所述中心计算端;
S2.4.6:所述中心计算端接收到Sk后计算得到V,计算公式为:
Figure BDA0002468082050000097
实施例5
更具体的,如图6所示,在步骤S2中,还包括求中位数M的方法,具体步骤为:
S2.5.1:所述中心计算端向各个所述数据源端发送求中位数的请求;
S2.5.2:所述中心计算端获取所有数据源端中数据的整体取值范围(min,max),具体步骤为:
S2.5.2.1:所述中心计算端向各个所述数据源端发送求最大值、求最小值的请求和Query_C;
S2.5.2.2:各个所述数据源端调用所述条件查询模块得到Xk
S2.5.2.3:各个所述数据源端调用所述求最大参数值模块得到maxk,调用所述求最小参数值模块得到mink;并将maxk、mink返回所述中心计算端;
S2.5.2.4:所述中心计算端接收到maxk后调用所述求最大值模块,得到max;
所述中心计算端接收到mink后调用所述求最小值模块,得到min;从而获取所有数据源端中数据的整体取值范围(min,max);
S2.5.3:所述中心计算端根据所述数据源端的个数N将所述整体取值范围划分为N个取值区间,并将N个取值区间发送到各个所述数据源端,具体步骤为:
S2.5.3.1:所述中心计算端计算各区间(除最后一组之外)的组距d,计算公式为:
Figure BDA0002468082050000101
S2.5.3.2:根据组距d把将所述整体取值范围划分为N个取值区间,得到各区间(除最后一组之外)分别为:
Figure BDA0002468082050000102
最后一组区间为:
[min+(N-1)d,max];
S2.5.3.3:将N个取值区间发送到各个所述数据源端;
S2.5.4:各个所述数据源端接收到所述N个取值区间后遍历各自的所有数据项并记录落在每个取值区间中数据项的个数
Figure BDA0002468082050000103
并将
Figure BDA0002468082050000104
返回所述中心计算端;其中,
Figure BDA0002468082050000105
表示第m个数据源端中落在第n个区间内的数据项的个数;
S2.5.5:所述中心计算端根据
Figure BDA0002468082050000106
计算得到所述数据源端中数据总个数T;计算公式为:
Figure BDA0002468082050000107
S2.5.6:所述中心计算端计算得到所述数据源端中中位数所在的排位R;计算公式为:
Figure BDA0002468082050000111
S2.5.7:所述中心计算端依次计算所述数据源端中所有数据落在各区间内的个数:
Figure BDA0002468082050000112
S2.5.8:所述中心计算端依据R和各区间内数据项的个数得出中位数所在的区间q:[min+(q-1)d,max+qd];
S2.5.9:所述中心计算端把区间q内的所有数据看做一个组距数列并用改进的插补法求中位数M,具体步骤为:
S2.5.9.1:所述中心计算端计算中位数所在区间的下限值L,计算公式为:
L=min+(q-1)d;
S2.5.9.2:所述中心计算端计算中位数所在区间以前的各区间的累积数据项个数Sq-1,计算公式为:
Figure BDA0002468082050000113
S2.5.9.3:所述中心计算端计算中位数所在区间的数据项个数fq,计算公式为:
Figure BDA0002468082050000114
S2.5.9.4:所述中心计算端计算中位数所在区间的后一个区间的数据项个数fq+1,计算公式为:
Figure BDA0002468082050000115
S2.5.9.5:所述中心计算端计算中位数所在区间的前一个区间的数据项个数fq-1,计算公式为:
Figure BDA0002468082050000116
S2.5.9.6:所述中心计算端计算得出中位数M,计算公式为:
Figure BDA0002468082050000121
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (5)

1.一种分布式多源异构数据场景下的基础统计指标获取方法,其特征在于,包括以下步骤:
S1:在中心计算端和各个数据源端构建计算模块与通信模块;
S2:各个所述数据源端根据所述中心计算端的请求调用所述计算模块得到参数值,并将所述参数值通过所述通信模块返回所述中心计算端,从而得到基础统计指标;
步骤S1中,在所述中心计算端构建的计算模块包括:
求最大值模块:max=Max(maxk),
求最小值模块:min=Min(mink);
在各个所述数据源端构建的计算模块包括:
条件查询模块:Xk=Query(Query_C),
求最大参数值模块:maxk=Max(Xk),
求最小参数值模块:mink=Min(Xk),
求平均参数值模块:avgk=Avg(Xk),
求数据项个数模块:nk=Count(Xk),
求数据项总和模块:sumk=Sum(Xk)
求平方和模块:
Figure FDA0004089027950000011
其中,max为最大值,min为最小值,maxk为第k个数据源端中的最大参数值,mink为第k个数据源端中的最小参数值,
Figure FDA0004089027950000012
为第k个数据源端中所有满足查询条件的数据项组成的向量,
Figure FDA0004089027950000013
为第k个数据源端中满足查询条件的第i个数据项,nk为第k个数据源端中所有满足查询条件的数据项总个数,Query_C为求数据项查询条件,avgk为第k个数据源端中的平均参数值,sumk为第k个数据源端中的数据项总和参数值,Sk为第k个数据源端中所有数据项与平均值
Figure FDA0004089027950000021
的差值的平方之和;
在步骤S2中,还包括求中位数M的方法,具体步骤为:
S2.5.1:所述中心计算端向各个所述数据源端发送求中位数的请求;
S2.5.2:所述中心计算端获取所有数据源端中数据的整体取值范围(min,max);
S2.5.3:所述中心计算端根据所述数据源端的个数N将所述整体取值范围划分为N个取值区间,并将N个取值区间发送到各个所述数据源端;
S2.5.4:各个所述数据源端接收到所述N个取值区间后遍历各自的所有数据项并记录落在每个取值区间中数据项的个数
Figure FDA0004089027950000022
并将
Figure FDA0004089027950000023
返回所述中心计算端;其中,
Figure FDA0004089027950000024
表示第m个数据源端中落在第n个区间内的数据项的个数;
S2.5.5:所述中心计算端根据
Figure FDA0004089027950000025
计算得到所述数据源端中数据总个数T;计算公式为:
Figure FDA0004089027950000026
S2.5.6:所述中心计算端计算得到所述数据源端中中位数所在的排位R;计算公式为:
Figure FDA0004089027950000027
S2.5.7:所述中心计算端依次计算所述数据源端中所有数据落在各区间内的个数:
Figure FDA0004089027950000028
S2.5.8:所述中心计算端依据R和各区间内数据项的个数得出中位数所在的区间q:[min+(q-1)d,max+qd];
S2.5.9:所述中心计算端把区间q内的所有数据看做一个组距数列并求中位数M;
步骤S2.5.2具体包括以下步骤:
S2.5.2.1:所述中心计算端向各个所述数据源端发送求最大值、求最小值的请求和Query_C;
S2.5.2.2:各个所述数据源端调用所述条件查询模块得到Xk
S2.5.2.3:各个所述数据源端调用所述求最大参数值模块得到maxk,调用所述求最小参数值模块得到mink;并将maxk、mink返回所述中心计算端;
S2.5.2.4:所述中心计算端接收到maxk后调用所述求最大值模块,得到max;
所述中心计算端接收到mink后调用所述求最小值模块,得到min;从而获取所有数据源端中数据的整体取值范围(min,max);
步骤S2.5.3具体包括以下步骤:
S2.5.3.1:所述中心计算端计算各区间(除最后一组之外)的组距d,计算公式为:
Figure FDA0004089027950000031
S2.5.3.2:根据组距d把将所述整体取值范围划分为N个取值区间,得到各区间(除最后一组之外)分别为:
Figure FDA0004089027950000032
最后一组区间为:
[min+(N-1)d,max];
S2.5.3.3:将N个取值区间发送到各个所述数据源端;
步骤S2.5.9采用改进的插补法求中位数,具体包括以下步骤:
S2.5.9.1:所述中心计算端计算中位数所在区间的下限值L,计算公式为:
L=min+(q-1)d;
S2.5.9.2:所述中心计算端计算中位数所在区间以前的各区间的累积数据项个数Sq-1,计算公式为:
Figure FDA0004089027950000033
S2.5.9.3:所述中心计算端计算中位数所在区间的数据项个数fq,计算公式为:
Figure FDA0004089027950000034
S2.5.9.4:所述中心计算端计算中位数所在区间的后一个区间的数据项个数fq+1,计算公式为:
Figure FDA0004089027950000041
S2.5.9.5:所述中心计算端计算中位数所在区间的前一个区间的数据项个数fq-1,计算公式为:
Figure FDA0004089027950000042
S2.5.9.6:所述中心计算端计算得出中位数M,计算公式为:
Figure FDA0004089027950000043
2.根据权利要求1所述的分布式多源异构数据场景下的基础统计指标获取方法,其特征在于,在步骤S2中,包括求最大值的方法,具体步骤为:
S2.1.1:所述中心计算端向各个所述数据源端发送求最大值的请求和Query_C;
S2.1.2:各个所述数据源端调用所述条件查询模块得到Xk
S2.1.3:各个所述数据源端调用所述求最大参数值模块得到maxk并将maxk返回所述中心计算端;
S2.1.4:所述中心计算端接收到maxk后调用所述求最大值模块,得到max。
3.根据权利要求1所述的分布式多源异构数据场景下的基础统计指标获取方法,其特征在于,在步骤S2中,还包括求最小值的方法,具体步骤为:
S2.2.1:所述中心计算端向各个所述数据源端发送求最小值的请求和Query_C;
S2.2.2:各个所述数据源端调用所述条件查询模块得到Xk
S2.2.3:各个所述数据源端调用所述求最小参数值模块得到mink并将mink返回所述中心计算端;
S2.2.4:所述中心计算端接收到mink后调用所述求最小值模块,得到min。
4.根据权利要求1所述的分布式多源异构数据场景下的基础统计指标获取方法,其特征在于,在步骤S2中,还包括求平均值的方法,具体步骤为:
S2.3.1:所述中心计算端向各个所述数据源端发送求平均值的请求和Query_C;
S2.3.2:各个所述数据源端调用所述条件查询模块得到Xk
S2.3.3:各个所述数据源端调用所述求数据项总和模块得到sumk,调用所述求数据项个数模块得到nk;并将sumk、nk返回所述中心计算端;
S2.3.4:所述中心计算端接收到sumk和nk后计算得到
Figure FDA0004089027950000051
计算公式为:
Figure FDA0004089027950000052
其中,N为所述数据源端的个数。
5.根据权利要求1所述的分布式多源异构数据场景下的基础统计指标获取方法,其特征在于,在步骤S2中,还包括求方差V的方法,具体步骤为:
S2.4.1:所述中心计算端向各个所述数据源端发送求方差的请求和Query_C;
S2.4.2:各个所述数据源端调用所述查询模块得到Xk
S2.4.3:各个所述数据源端调用所述求数据项总和模块得到sumk并将sumk返回所述中心计算端;
各个所述数据源端调用所述求数据项个数模块得到nk并将nk返回所述中心计算端;
S2.4.4:所述中心计算端接收到sumk和nk后通过公式
Figure FDA0004089027950000053
计算得到
Figure FDA0004089027950000054
并将
Figure FDA0004089027950000055
发送到各个所述数据源端;
S2.4.5:各个所述数据源端接收到
Figure FDA0004089027950000056
后调用所述求平方和模块得到Sk,并将Sk返回所述中心计算端;
S2.4.6:所述中心计算端接收到Sk后计算得到V,计算公式为:
Figure FDA0004089027950000057
CN202010339568.1A 2020-04-26 2020-04-26 分布式多源异构数据场景下的基础统计指标获取方法 Active CN111552720B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010339568.1A CN111552720B (zh) 2020-04-26 2020-04-26 分布式多源异构数据场景下的基础统计指标获取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010339568.1A CN111552720B (zh) 2020-04-26 2020-04-26 分布式多源异构数据场景下的基础统计指标获取方法

Publications (2)

Publication Number Publication Date
CN111552720A CN111552720A (zh) 2020-08-18
CN111552720B true CN111552720B (zh) 2023-05-02

Family

ID=72003069

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010339568.1A Active CN111552720B (zh) 2020-04-26 2020-04-26 分布式多源异构数据场景下的基础统计指标获取方法

Country Status (1)

Country Link
CN (1) CN111552720B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105843842A (zh) * 2016-03-08 2016-08-10 东北大学 一种大数据环境下多维聚集查询与展示系统及方法
CN109684367A (zh) * 2018-12-20 2019-04-26 四川新网银行股份有限公司 一种动态调整多数据源数据集成处理方法与装置
CN110837585A (zh) * 2019-11-07 2020-02-25 中盈优创资讯科技有限公司 多源异构的数据关联查询方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105843842A (zh) * 2016-03-08 2016-08-10 东北大学 一种大数据环境下多维聚集查询与展示系统及方法
CN109684367A (zh) * 2018-12-20 2019-04-26 四川新网银行股份有限公司 一种动态调整多数据源数据集成处理方法与装置
CN110837585A (zh) * 2019-11-07 2020-02-25 中盈优创资讯科技有限公司 多源异构的数据关联查询方法及系统

Also Published As

Publication number Publication date
CN111552720A (zh) 2020-08-18

Similar Documents

Publication Publication Date Title
CN112488322B (zh) 一种基于数据特征感知聚合的联邦学习模型训练方法
CN112181971B (zh) 一种基于边缘的联邦学习模型清洗和设备聚类方法、系统
WO2015154438A1 (zh) 定位方法及装置
CN109963285B (zh) 确定小区覆盖范围的方法、装置、电子设备和存储介质
CN106649828A (zh) 一种数据查询方法及系统
CN107196848B (zh) 消息推送方法及装置
CN107622064A (zh) 一种数据读取方法及系统
CN111552720B (zh) 分布式多源异构数据场景下的基础统计指标获取方法
CN111400747A (zh) 一种基于轨迹隐私保护的度量方法
CN113891259B (zh) 短信分发方法、装置、设备以及计算机可读存储介质
CN1630423A (zh) 在蜂窝通信网络中估算移动台位置的方法
CN114500543A (zh) 一种基于分布式的弹性边缘采集系统及其应用方法
CN110503117A (zh) 数据聚类的方法和装置
CN105357317A (zh) 一种基于多客户端轮循排队的数据上传方法及系统
CN113657525B (zh) 基于KMeans的跨特征联邦聚类方法及相关设备
CN112307075B (zh) 用户关系识别方法及装置
CN113628256A (zh) 一种数据处理方法和装置
CN107357659B (zh) 面向Storm连续范围查询全局负载均衡的分组方法及查询方法
CN113608863A (zh) 一种海量数据分布式采集方法及系统
CN111915327A (zh) 一种基于事件特征的智能分发方法和装置
CN111460513B (zh) 一种基于相似度分箱的空间点集数据隐私保护匹配的方法
CN109981325B (zh) 一种告警阈值的设定方法、装置、计算设备及介质
CN109787851A (zh) 一种流量统计数据获取方法和装置
CN111061697A (zh) 日志数据处理方法、装置、电子设备及存储介质
CN111143397B (zh) 混合数据查询方法及装置、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant