CN113569200A - 数据统计的方法、装置及服务器 - Google Patents

数据统计的方法、装置及服务器 Download PDF

Info

Publication number
CN113569200A
CN113569200A CN202110887165.5A CN202110887165A CN113569200A CN 113569200 A CN113569200 A CN 113569200A CN 202110887165 A CN202110887165 A CN 202110887165A CN 113569200 A CN113569200 A CN 113569200A
Authority
CN
China
Prior art keywords
data
sampling
preset
counted
histogram
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110887165.5A
Other languages
English (en)
Inventor
杨杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Cloud Network Technology Co Ltd
Original Assignee
Beijing Kingsoft Cloud Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Cloud Network Technology Co Ltd filed Critical Beijing Kingsoft Cloud Network Technology Co Ltd
Priority to CN202110887165.5A priority Critical patent/CN113569200A/zh
Publication of CN113569200A publication Critical patent/CN113569200A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Operations Research (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Complex Calculations (AREA)

Abstract

本发明提供了一种数据统计的方法、装置及服务器,涉及数据统计的技术领域,该方法包括:获取分布式数据库中待统计数据集;将待统计数据集中所包括的数据在预设的多个数据节点中进行分片存储;对于每个数据节点所存储的数据,按照预设的分布式蓄水池算法进行采样处理,得到待统计数据集对应的抽样集;根据抽样集,以及预设的直方图参数构建直方图,以对待统计数据集进行统计分析。本发明提供的数据统计的方法、装置及服务器,可以对待统计数据集进行统计分析,而分布式蓄水池算法的采样处理过程,不仅能够实现待统计数据集的均匀采样,并且,也可以实现多个数据节点的并行处理,有效降低了耗时时间,进而提高了统计的效率。

Description

数据统计的方法、装置及服务器
技术领域
本发明涉及数据统计的技术领域,尤其是涉及一种数据统计的方法、装置及服务器。
背景技术
直方图(Histogram)是数据库提供的一种基础统计信息,用于描述列上的数据分布情况。在统计学中,直方图是一种对数据分布情况的图形表示,通常是一种二维统计图表,其两个坐标分别是统计样本(图像、视频帧)和样本的某种属性(亮度,像素值,梯度,方向,色彩等等任何特征),其最典型的场景是估算查询谓词的选择率,以便选择合适的执行计划。在使用直方图进行数据分布统计时,由于数据量较大,因此多需要对数据进行采样处理,而目前的采样方式多采用全表扫描的方式,不仅耗时时间长,也降低了统计效率。
发明内容
有鉴于此,本发明的目的在于提供一种数据统计的方法、装置及服务器,以缓解上述技术问题。
第一方面,本发明实施例提供了一种数据统计的方法,包括:获取分布式数据库中待统计数据集;将所述待统计数据集中所包括的数据在预设的多个数据节点中进行分片存储;对于每个所述数据节点所存储的数据,按照预设的分布式蓄水池算法进行采样处理,得到所述待统计数据集对应的抽样集;根据所述抽样集,以及预设的直方图参数构建直方图,以对所述待统计数据集进行统计分析。
优选地,在一种可能的实施方式中,上述将所述待统计数据集中所包括的数据在预设的多个数据节点中进行分片存储的步骤,包括:获取预设的所述数据节点的数量,按照所述数量将所述待统计数据集中所包括的数据分成多个数据流,其中,所述数据流的数量与所述数据节点的数量一致;将所述数据流分别在所述数据节点中进行分片存储。
优选地,在一种可能的实施方式中,上述对于每个所述数据节点所存储的数据,按照预设的分布式蓄水池算法进行采样处理,得到所述待统计数据集对应的抽样集的步骤,包括:对于每个所述数据节点所存储的数据,按照预设的第一蓄水池算法进行并行采样,得到每个所述数据节点对应的采样集;从每个所述采样集中,按照预设的第二蓄水池算法依次进行采样,得到所述待统计数据集对应的抽样集。
优选地,在一种可能的实施方式中,上述按照预设的第一蓄水池算法进行并行采样,得到每个所述数据节点对应的采样集的步骤,包括:获取预先设置的数据量;按照预设的所述第一蓄水池算法从每个所述数据节点所存储的数据中并行抽取与所述数据量匹配的数据,以得到每个所述数据节点对应的采样集。
优选地,在一种可能的实施方式中,上述从每个所述采样集中,按照预设的第二蓄水池算法依次进行采样,得到所述待统计数据集对应的抽样集的步骤,包括:基于预先设置的所述数据量,从每个所述采样集中依次等概率不放回地抽取一个数据;将抽取的所述数据加入到所述抽样集中,直至所述抽样集中的数据的数量满足预先设置的所述数据量。
优选地,在一种可能的实施方式中,上述将抽取的所述数据加入到所述抽样集中,直至所述抽样集中的数据的数量满足预先设置的所述数据量的步骤,包括:如果所述采样集的数量大于所述数据量,当所述抽样集中的数据量达到预先设置的所述数据量时,将抽取的所述数据,随机替换所述抽样集中的任一一个数据,以保证从每个所述采样集中依次等概率不放回地抽取一个数据,且,所述抽样集中的数据的数量满足预先设置的所述数据量。
优选地,在一种可能的实施方式中,上述根据所述抽样集,以及预设的直方图参数构建直方图的步骤,包括:按照预先设置的排序规则对所述抽样集中的数据进行排序,得到所述抽样集对应的排序抽样集;获取预设的直方图参数;根据所述排序抽样集,以及预设的所述直方图参数构建直方图;其中,所述直方图参数包括以下参数至少之一:所述直方图的桶数,所述直方图的桶深,以及,与所述排序抽样集对应的行数。
第二方面,本发明实施例还提供一种数据统计的装置,包括:获取模块,用于获取分布式数据库中待统计数据集;存储模块,用于将所述待统计数据集中所包括的数据在预设的多个数据节点中进行分片存储;采样模块,用于对于每个所述数据节点所存储的数据,按照预设的分布式蓄水池算法进行采样处理,得到所述待统计数据集对应的抽样集;构建模块,用于根据所述抽样集,以及预设的直方图参数构建直方图,以对所述待统计数据集进行统计分析。
第三方面,本发明实施例还提供一种服务器,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机可执行指令,所述处理器执行所述计算机可执行指令以实现第一方面所述的方法。
第四方面,本发明实施例还提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令在被处理器调用和执行时,计算机可执行指令促使处理器实现第一方面所述的方法。
本发明实施例带来了以下有益效果:
本发明实施例提供的数据统计的方法、装置及服务器,能够在获取到分布式数据库中的待统计数据集之后,将待统计数据集中所包括的数据在预设的多个数据节点中进行分片存储;并对于每个数据节点所存储的数据,按照预设的分布式蓄水池算法进行采样处理,得到待统计数据集对应的抽样集;进而根据抽样集,以及预设的直方图参数构建直方图,以对待统计数据集进行统计分析,而上述分布式蓄水池算法的采样处理过程,不仅能够实现待统计数据集的均匀采样,并且,也可以实现多个数据节点的并行处理,有效降低了耗时时间,进而提高了统计的效率。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种数据统计的方法的流程图;
图2为本发明实施例提供的另一种数据统计的方法的流程图;
图3为本发明实施例提供的一种数据统计的装置的结构示意图;
图4为本发明实施例提供的一种服务器的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前,对于大数据进行分析统计时,往往采用全表扫描的方式创建直方图,而对于大数据而言,全表扫描的方式将会非常耗时,严重降低了统计的效率。而普通采样方式虽然相对于全表扫描的方式占用的资源少,但是普通采样方式得到的直方图往往不够准确,难以达到统计的目的。
基于此,本发明实施例提供的一种数据统计的方法、装置及服务器,可以有效缓解上述问题。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种数据统计的方法进行详细介绍。
在一种可能的实施方式中,本发明实施例提供了一种数据统计的方法,具体地,该方法可以应用于服务器,对分布式数据库中存储的大数据进行统计分析。
如图1所示的一种数据统计的方法的流程图,该方法包括以下步骤:
步骤S102,获取分布式数据库中待统计数据集;
步骤S104,将上述待统计数据集中所包括的数据在预设的多个数据节点中进行分片存储;
其中,上述待统计数据集通常是分布式数据库中的大数据流,并且,该数据流的长度通常很大且不可知,所以难以一次性存入内存,因此,多存储在分布式数据库中,当需要对该大数据流进行统计分析,可以从分布式数据库中去获取上述待统计数据集,如,进行估算查询谓词的选择率等等,以便后续选择合适的执行计划。
进一步,由于上述待统计数据集的大数据流的数据较大,因此,在统计分析时,多采用分片存储的方式,将大数据流存储在多个数据节点中,以便继续执行下述各个步骤,对每个数据节点进行同步处理。
步骤S106,对于每个数据节点所存储的数据,按照预设的分布式蓄水池算法进行采样处理,得到待统计数据集对应的抽样集;
步骤S108,根据该抽样集,以及预设的直方图参数构建直方图,以对待统计数据集进行统计分析。
具体实现时,上述步骤S106中,是对每个数据节点所存储的数据进行分别采样处理的过程,而上述步骤S106中对于每个数据节点所采取的分布式蓄水池算法,可以在处理超大的数据量采样时,有效提升采样速率,降低耗时时间。
本发明实施例提供的数据统计的方法,能够在获取到分布式数据库中的待统计数据集之后,将待统计数据集中所包括的数据在预设的多个数据节点中进行分片存储;并对于每个数据节点所存储的数据,按照预设的分布式蓄水池算法进行采样处理,得到待统计数据集对应的抽样集;进而根据抽样集,以及预设的直方图参数构建直方图,以对待统计数据集进行统计分析,而上述分布式蓄水池算法的采样处理过程,不仅能够实现待统计数据集的均匀采样,并且,也可以实现多个数据节点的并行处理,有效降低了耗时时间,进而提高了统计的效率。
在实际使用时,上述步骤S104中,在对待统计数据集中所包括的大数据流进行分片存储时,通常是按照数据节点的数量进行的,因此,需要先获取可用的数据节点的数量信息,然后进行分片存储,以便于对每个数据节点所存储的数据进行进一步的统计分析。因此,在上述图1的基础上,图2还提供了另一种数据统计的方法的流程图,对待统计数据集中所包括的大数据流进行分片存储,以及统计分析的过程进行进一步的描述,具体地,如图2所示,包括以下步骤:
步骤S202,获取分布式数据库中待统计数据集;
步骤S204,获取预设的数据节点的数量,按照数量将待统计数据集中所包括的数据分成多个数据流;
其中,数据流的数量与数据节点的数量一致;
步骤S206,将数据流分别在数据节点中进行分片存储;
在实际使用时,上述数据节点通常是指可以对数据进行存储,以及按照预先配置的算法对其所存储的数据进行一定处理的数据节点,也可以称为“机器”,假设待统计数据集中的大数据流为N,预设的数据节点的数量为k,即,有k个机器对大数据流进行分片存储,此时,每个数据节点所存储的数据流可以为N1、N2、……、Nk,且,N1+N2+……+Nk=N。
步骤S208,对于每个数据节点所存储的数据,按照预设的第一蓄水池算法进行并行采样,得到每个数据节点对应的采样集;
步骤S210,从每个采样集中,按照预设的第二蓄水池算法依次进行采样,得到待统计数据集对应的抽样集;
在实际使用时,在上述步骤S208中,对每个数据节点所存储的数据流进行采样时,由于每个数据节点可以看成单独的机器,因此,此时可以采用第一蓄水池算法对每个数据节点进行并行采样,而此时采用的第一蓄水池算法,通常指的是单机版蓄水池抽样处理算法,具体地,第一蓄水池算法在采样时,需获取预先设置的数据量,然后按照预设的第一蓄水池算法从每个数据节点所存储的数据中并行抽取与数据量匹配的数据,以得到每个数据节点对应的采样集。
为了便于理解,以预先设置的数据量为m进行说明,即假设从每个数据节点所存储的数据中,并行抽取m个数据,当执行完上述步骤S208之后,由于具有k个数据节点,此时会得到k个采样集,且,每个采样集所包括的数据量为m。
进一步,上述步骤S210中,是对每个采样集继续采用的过程,此时使用的是第二蓄水池算法,具体地,该第二蓄水池算法是对上述k个采样集并行进行采样的抽样处理算法,包括以下过程:基于预先设置的数据量,从每个采样集中依次等概率不放回地抽取一个数据;将抽取的数据加入到抽样集中,直至抽样集中的数据的数量满足预先设置的数据量。
同样以上述预先设置的数据量为m为例进行说明,通常,m<Nk,上述步骤S208中得到的每个数据节点对应的采样集,可以看成是该数据节点的蓄水池,在第二蓄水池算法进行采样时,可以在第一个数据节点的蓄水池中等概率不放回地(每个数据的选取概率为1/m)选取一个数据;在第二个数据节点的蓄水池中等概率不放回地选取一个数据;以此类推,重复m次,则最终从每个数据节点对应的蓄水池,即大数据流为N的待统计数据集中选出m个数据,以构成上述抽样集。
在实际使用时,为例提现第二蓄水池算法抽样处理的等概率性,在进行抽样时,还可以使用随机数原理进行抽样处理,例如,同样以大数据流为N进行说明,取[1,N]范围内的一个随机数d,若d<N1,则在第一个数据节点的蓄水池中等概率不放回地(1/m)选取一个数据;若N1<=d<(N1+N2),则在第二个数据节点的蓄水池中等概率不放回地选取一个数据;以此类推,重复m次,则最终从N大数据流中选出m个数据。通过上述方式,可以保证本发明实施例中的分布式蓄水池算法在对待统计数据集进行采样处理的均匀性,即,使所得到的抽样集是一个数据相对均匀的集合。
进一步,由于待统计数据集的大数据流N的数据量较大,因此,上述数据节点的数量通常也是较多的,即需要较多的数据节点来对大数据流N进行分片存储,此时k通常是大于m的,即,采样集的数量大于上述数据量,而在进行采样时,为了保证数据的均匀性,如果上述采样集的数量大于数据量,则当抽样集中的数据量达到预先设置的数据量时,即,抽样集的数据量满足了m,但是上述步骤S210中的第二蓄水池算法还未执行完成,则会将继续抽取的后续采样集中的数据,并将抽取的采样集中的数据随机替换当前抽样集中的任一一个数据,以保证从每个采样集中依次等概率不放回地抽取一个数据,且,抽样集中的数据的数量满足预先设置的数据量,从而保证所抽取数据的均匀性。
步骤S212,根据该抽样集,以及预设的直方图参数构建直方图,以对待统计数据集进行统计分析。
具体地,在构建直方图时,需要先按照预先设置的排序规则对抽样集中的数据进行排序,得到抽样集对应的排序抽样集;然后获取预设的直方图参数;根据排序抽样集,以及预设的直方图参数构建直方图。
其中,上述直方图参数通常包括以下参数至少之一:直方图的桶数,直方图的桶深,以及,与排序抽样集对应的行数。
在实际使用时,由于直方图是一种对数据分布情况进行描述的工具,因此,为了便于进行统计,需要按照预先设置的排序规则对抽样集中的数据进行排序,例如,按照数据大小进行排序等等,以便于根据直方图的桶数进行分桶,以及,根据桶深和行数等参数来预先估算每个桶的数据量的个数,大多数数据库都会选择用直方图来进行区间查询的估算,并且,根据分桶策略的不同,构建的直方图可以分为等深直方图和等宽直方图等等,具体的直方图的构建行使,可以根据实际使用情况进行设置,本发明实施例对此不进行限制。
综上,本发明实施例中,对于分布式数据库,先对大数据流进行分片存储,使得每个数据节点都存储一部分数据,并且,对于每个数据节点,均通过第一蓄水池算法并行采样,得到多个采样集,再从每个数据节点的采样集中再按照预设的第二蓄水池算法依次进行采样,得到最终的抽样集,再构建直方图,以实现基于分布式蓄水池算法构建直方图的目的,进而对待统计数据集进行后续地统计分析,在处理过程中,不仅实现了大数据流的均匀采样过程,同时,也通过分布式蓄水池算法实现了并行处理,提升了处理速度。
进一步,在上述实施例的基础上,本发明实施例还提供了一种数据统计的装置,如图3所示的一种数据统计的装置的结构示意图,该装置包括:
获取模块30,用于获取分布式数据库中待统计数据集;
存储模块32,用于将所述待统计数据集中所包括的数据在预设的多个数据节点中进行分片存储;
采样模块34,用于对于每个所述数据节点所存储的数据,按照预设的分布式蓄水池算法进行采样处理,得到所述待统计数据集对应的抽样集;
构建模块36,用于根据所述抽样集,以及预设的直方图参数构建直方图,以对所述待统计数据集进行统计分析。
本发明实施例提供的数据统计的装置,与上述实施例提供的数据统计的方法具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。
进一步,本发明实施例还提供了一种服务器,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机可执行指令,所述处理器执行所述计算机可执行指令以实现图1或图2所示的方法。
进一步,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令在被处理器调用和执行时,计算机可执行指令促使处理器实现图1或图2所示的方法。
进一步,本发明实施例还提供了一种服务器的结构示意图,如图4所示,为该服务器的结构示意图,其中,该服务器包括处理器41和存储器40,该存储器40存储有能够被该处理器41执行的计算机可执行指令,该处理器41执行该计算机可执行指令以实现上述数据统计的方法。
在图4示出的实施方式中,该服务器还包括总线42和通信接口43,其中,处理器41、通信接口43和存储器40通过总线42连接。
其中,存储器40可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口43(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。总线42可以是ISA(IndustryStandard Architecture,工业标准体系结构)总线、PCI(Peripheral ComponentInterconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线42可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
处理器41可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器41中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器41可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital SignalProcessor,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器41读取存储器中的信息,结合其硬件完成前述实施例的数据统计的方法。
本发明实施例所提供的数据统计的方法、装置及服务器的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
另外,在本发明实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种数据统计的方法,其特征在于,包括:
获取分布式数据库中待统计数据集;
将所述待统计数据集中所包括的数据在预设的多个数据节点中进行分片存储;
对于每个所述数据节点所存储的数据,按照预设的分布式蓄水池算法进行采样处理,得到所述待统计数据集对应的抽样集;
根据所述抽样集,以及预设的直方图参数构建直方图,以对所述待统计数据集进行统计分析。
2.根据权利要求1所述的方法,其特征在于,将所述待统计数据集中所包括的数据在预设的多个数据节点中进行分片存储的步骤,包括:
获取预设的所述数据节点的数量,按照所述数量将所述待统计数据集中所包括的数据分成多个数据流,其中,所述数据流的数量与所述数据节点的数量一致;
将所述数据流分别在所述数据节点中进行分片存储。
3.根据权利要求1所述的方法,其特征在于,对于每个所述数据节点所存储的数据,按照预设的分布式蓄水池算法进行采样处理,得到所述待统计数据集对应的抽样集的步骤,包括:
对于每个所述数据节点所存储的数据,按照预设的第一蓄水池算法进行并行采样,得到每个所述数据节点对应的采样集;
从每个所述采样集中,按照预设的第二蓄水池算法依次进行采样,得到所述待统计数据集对应的抽样集。
4.根据权利要求3所述的方法,其特征在于,按照预设的第一蓄水池算法进行并行采样,得到每个所述数据节点对应的采样集的步骤,包括:
获取预先设置的数据量;
按照预设的所述第一蓄水池算法从每个所述数据节点所存储的数据中并行抽取与所述数据量匹配的数据,以得到每个所述数据节点对应的采样集。
5.根据权利要求4所述的方法,其特征在于,从每个所述采样集中,按照预设的第二蓄水池算法依次进行采样,得到所述待统计数据集对应的抽样集的步骤,包括:
基于预先设置的所述数据量,从每个所述采样集中依次等概率不放回地抽取一个数据;
将抽取的所述数据加入到所述抽样集中,直至所述抽样集中的数据的数量满足预先设置的所述数据量。
6.根据权利要求5所述的方法,其特征在于,将抽取的所述数据加入到所述抽样集中,直至所述抽样集中的数据的数量满足预先设置的所述数据量的步骤,包括:
如果所述采样集的数量大于所述数据量,当所述抽样集中的数据量达到预先设置的所述数据量时,将抽取的所述数据,随机替换所述抽样集中的任一一个数据,以保证从每个所述采样集中依次等概率不放回地抽取一个数据,且,所述抽样集中的数据的数量满足预先设置的所述数据量。
7.根据权利要求1所述的方法,其特征在于,根据所述抽样集,以及预设的直方图参数构建直方图的步骤,包括:
按照预先设置的排序规则对所述抽样集中的数据进行排序,得到所述抽样集对应的排序抽样集;
获取预设的直方图参数;
根据所述排序抽样集,以及预设的所述直方图参数构建直方图;其中,所述直方图参数包括以下参数至少之一:所述直方图的桶数,所述直方图的桶深,以及,与所述排序抽样集对应的行数。
8.一种数据统计的装置,其特征在于,包括:
获取模块,用于获取分布式数据库中待统计数据集;
存储模块,用于将所述待统计数据集中所包括的数据在预设的多个数据节点中进行分片存储;
采样模块,用于对于每个所述数据节点所存储的数据,按照预设的分布式蓄水池算法进行采样处理,得到所述待统计数据集对应的抽样集;
构建模块,用于根据所述抽样集,以及预设的直方图参数构建直方图,以对所述待统计数据集进行统计分析。
9.一种服务器,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机可执行指令,所述处理器执行所述计算机可执行指令以实现权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令在被处理器调用和执行时,计算机可执行指令促使处理器实现权利要求1至7任一项所述的方法。
CN202110887165.5A 2021-08-03 2021-08-03 数据统计的方法、装置及服务器 Pending CN113569200A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110887165.5A CN113569200A (zh) 2021-08-03 2021-08-03 数据统计的方法、装置及服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110887165.5A CN113569200A (zh) 2021-08-03 2021-08-03 数据统计的方法、装置及服务器

Publications (1)

Publication Number Publication Date
CN113569200A true CN113569200A (zh) 2021-10-29

Family

ID=78170139

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110887165.5A Pending CN113569200A (zh) 2021-08-03 2021-08-03 数据统计的方法、装置及服务器

Country Status (1)

Country Link
CN (1) CN113569200A (zh)

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040059743A1 (en) * 2002-09-25 2004-03-25 Burger Louis M. Sampling statistics in a database system
US20070174290A1 (en) * 2006-01-19 2007-07-26 International Business Machines Corporation System and architecture for enterprise-scale, parallel data mining
US20110072206A1 (en) * 2009-09-21 2011-03-24 Translattice, Inc. Distributed content storage and retrieval
WO2015149497A1 (zh) * 2014-03-29 2015-10-08 华为技术有限公司 一种基于分布式的数据统计的方法
US20160277490A1 (en) * 2015-03-20 2016-09-22 Yahoo! Inc. Using hierarchical reservoir sampling to compute percentiles at scale
US20170012902A1 (en) * 2014-03-25 2017-01-12 Huawei Technologies Co., Ltd. Data Flow Statistics Collection Method, System, and Apparatus
CN106598729A (zh) * 2016-11-18 2017-04-26 深圳市证通电子股份有限公司 分布式并行计算系统的数据分配方法及系统
CN107077453A (zh) * 2015-03-24 2017-08-18 华为技术有限公司 用于使用集群缓存进行数据库查询的并行优化的系统和方法
US20180181621A1 (en) * 2016-12-22 2018-06-28 Teradata Us, Inc. Multi-level reservoir sampling over distributed databases and distributed streams
CN110399413A (zh) * 2019-07-04 2019-11-01 博彦科技股份有限公司 数据抽样方法、装置、存储介质和处理器
WO2020010569A1 (zh) * 2018-07-12 2020-01-16 深圳齐心集团股份有限公司 大数据综合分析处理服务系统
CN111506621A (zh) * 2020-03-31 2020-08-07 新华三大数据技术有限公司 一种数据统计方法及装置
CN112000467A (zh) * 2020-07-24 2020-11-27 广东技术师范大学 一种数据倾斜处理方法、装置、终端设备及存储介质
CN112988904A (zh) * 2021-04-23 2021-06-18 广州汇智通信技术有限公司 一种分布式数据管理系统及数据存储方法

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040059743A1 (en) * 2002-09-25 2004-03-25 Burger Louis M. Sampling statistics in a database system
US20070174290A1 (en) * 2006-01-19 2007-07-26 International Business Machines Corporation System and architecture for enterprise-scale, parallel data mining
US20110072206A1 (en) * 2009-09-21 2011-03-24 Translattice, Inc. Distributed content storage and retrieval
US20170012902A1 (en) * 2014-03-25 2017-01-12 Huawei Technologies Co., Ltd. Data Flow Statistics Collection Method, System, and Apparatus
WO2015149497A1 (zh) * 2014-03-29 2015-10-08 华为技术有限公司 一种基于分布式的数据统计的方法
US20160277490A1 (en) * 2015-03-20 2016-09-22 Yahoo! Inc. Using hierarchical reservoir sampling to compute percentiles at scale
CN107077453A (zh) * 2015-03-24 2017-08-18 华为技术有限公司 用于使用集群缓存进行数据库查询的并行优化的系统和方法
CN106598729A (zh) * 2016-11-18 2017-04-26 深圳市证通电子股份有限公司 分布式并行计算系统的数据分配方法及系统
US20180181621A1 (en) * 2016-12-22 2018-06-28 Teradata Us, Inc. Multi-level reservoir sampling over distributed databases and distributed streams
WO2020010569A1 (zh) * 2018-07-12 2020-01-16 深圳齐心集团股份有限公司 大数据综合分析处理服务系统
CN110399413A (zh) * 2019-07-04 2019-11-01 博彦科技股份有限公司 数据抽样方法、装置、存储介质和处理器
CN111506621A (zh) * 2020-03-31 2020-08-07 新华三大数据技术有限公司 一种数据统计方法及装置
CN112000467A (zh) * 2020-07-24 2020-11-27 广东技术师范大学 一种数据倾斜处理方法、装置、终端设备及存储介质
CN112988904A (zh) * 2021-04-23 2021-06-18 广州汇智通信技术有限公司 一种分布式数据管理系统及数据存储方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
杨定裕: "实时流数据分析的关键技术及应用", 中国博士学位论文全文库 信息科技辑, 15 February 2017 (2017-02-15) *
潘兆平;张建军;魏志强;: "基于分布式流数据的在线汇聚与统计", 数字技术与应用, no. 09, 5 September 2018 (2018-09-05) *
王磐;李勋;张涛;: "基于分布式系统的大数据随机抽样算法的实现", 电脑知识与技术, no. 20, 31 December 2016 (2016-12-31) *

Similar Documents

Publication Publication Date Title
CN110572362B (zh) 针对多类不均衡异常流量的网络攻击检测方法及装置
CN109697456B (zh) 业务分析方法、装置、设备及存储介质
CN109685092B (zh) 基于大数据的聚类方法、设备、存储介质及装置
CN111177445B (zh) 标准图元的确定方法、图元识别方法、装置和电子设备
CN111294819B (zh) 一种网络优化方法及装置
JP6657417B2 (ja) サービス・パラメータ選択方法及び関連するデバイス
CN110825826A (zh) 聚类簇计算方法、装置、终端及存储介质
CN108536815B (zh) 一种文本分类方法及装置
CN110880014A (zh) 数据处理方法、装置、计算机设备及存储介质
CN108234452B (zh) 一种网络数据包多层协议识别的系统和方法
CN110895533B (zh) 一种表单映射方法、装置、计算机设备和存储介质
CN112364014A (zh) 数据查询方法、装置、服务器及存储介质
CN115729817A (zh) 测试用例库的生成及优化方法、装置、电子设备和存储介质
KR20160113826A (ko) 빅데이터 클러스터링을 위한 K-Means 초기 중심 선정 방법
CN111046747A (zh) 人群计数模型的训练方法、人群计数方法、装置和服务器
CN114791927A (zh) 一种数据分析方法和装置
CN109710633B (zh) 中间人信息的确定方法、装置及智能终端
CN113569200A (zh) 数据统计的方法、装置及服务器
CN110955774B (zh) 基于词频分布的文字分类方法、装置、设备及介质
CN111125158B (zh) 数据表处理方法、装置、介质及电子设备
CN112580286A (zh) 多线程综合方法及装置
CN110807286A (zh) 一种结构网格识别方法
CN109802847A (zh) 一种网络传输服务质量的分析方法、装置
CN116137061A (zh) 数量统计模型的训练方法、装置、电子设备及存储介质
CN110968835A (zh) 一种近似分位数计算方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination