CN110019355A

CN110019355A - 独立数据计算方法及装置

Info

Publication number: CN110019355A
Application number: CN201710888944.0A
Authority: CN
Inventors: 陈国兴
Original assignee: Beijing Gridsum Technology Co Ltd
Current assignee: Beijing Gridsum Technology Co Ltd
Priority date: 2017-09-27
Filing date: 2017-09-27
Publication date: 2019-07-16

Abstract

本发明提供了一种独立数据计算方法及装置，该方法应用于分布式数据服务器，首先获取目标独立数据，然后将目标独立数据进行分组，得到至少两个独立数据分组。之后确定各独立数据分组中各类型的独立数据的条数，并依次确定为目标子数量，然后根据目标子数量，确定目标独立数据的总数量。可见，本方案中，通过将待计算数量的独立数据进行分组拆分，然后由不同的分布式服务器进行分别计数，此时，无需将所有数据汇总到一处进行去重计算，减少了各分布式服务器的数据处理数量以及数据占用资源，最后将分组计数后的独立数据的数量进行汇总，得到目标独立数据的总量，使得整体数据的计算时间缩短，提高了数据处理速度。

Description

独立数据计算方法及装置

技术领域

本发明涉及数据处理技术领域，尤其涉及一种独立数据计算方法及装置。

背景技术

随着科技的不断发展，用户能够通过访问网页来获取更多的信息，随之，网络数据量也越来越大。

目前，在对数据库中某一维度的数据计算独立数据时，通常选用预设的计算函数实现，如在sqlserver、mysql等关系数据库中，可以使用如下查询语句直接计算独立数据：select count(distinct filed_name)fromtable_name，同样，在分布式数据库中也有对应的函数。

然而，发明人发现，上述的函数是将独立数据进行汇总到一处存储介质后进行去重计算。然而，随着数据量的日益增加，目前的计算方式会消耗较多的存储资源以及要求后台服务器具备更高的数据处理能力，甚至，会因为数据量过大导致计算数据失败。因此，如何提供一种独立数据计算方法，能够降低对服务器计算能力的要求以及提高数据处理速度是本领域技术人员亟待解决的一大技术问题。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的技术方案：

一种独立数据计算方法，应用于分布式数据服务器，包括：

获取目标独立数据；

将所述目标独立数据进行分组，得到至少两个独立数据分组，不同所述独立数据分组中包含的所述独立数据的所属类型不相同；

确定各所述独立数据分组中各类型的所述独立数据的条数，并依次确定为每个类型的独立数据所对应的目标子数量；

根据各类型的独立数据所对应的所述目标子数量，确定所述目标独立数据的总数量。

可选的，所述将所述目标独立数据进行分组，包括：

确定所述目标独立数据中各独立数据的类型标识；

按照预设数据类型标识划分规则，将所述目标独立数据划分为多个独立数据分组。

可选的，所述根据各类型的独立数据所对应的所述目标子数量，确定所述目标独立数据的总数量，包括：

确定各类型的所述独立数据所对应的所述目标子数量的加和为所述目标独立数据的总数量。

可选的，所述按照预设数据类型标识划分规则，将所述目标独立数据划分为多个独立数据分组，包括：

确定具有相同类型标识的所述独立数据为目标子独立数据；

确定至少一个所述目标子独立数据为一个所述独立数据分组。

一种独立数据计算装置，应用于分布式数据服务器，包括：

获取模块，用于获取目标独立数据；

划分模块，用于将所述目标独立数据进行分组，得到至少两个独立数据分组，不同所述独立数据分组中包含的所述独立数据的所属类型不相同；

第一确定模块，用于确定各所述独立数据分组中各类型的所述独立数据的条数，并依次确定为每个类型的独立数据所对应的目标子数量；

第二确定模块，用于根据各类型的独立数据所对应的所述目标子数量，确定所述目标独立数据的总数量。

可选的，所述划分模块包括：

第一确定单元，用于确定所述目标独立数据中各独立数据的类型标识；

分组单元，用于按照预设数据类型标识划分规则，将所述目标独立数据划分为多个独立数据分组。

可选的，所述第二确定模块包括：

第二确定单元，用于确定各类型的所述独立数据所对应的所述目标子数量的加和为所述目标独立数据的总数量。

可选的，所述分组单元包括：

第一确定子单元，用于确定具有相同类型标识的所述独立数据为目标子独立数据；

第二确定子单元，用于确定至少一个所述目标子独立数据为一个所述独立数据分组。

一种独立数据计算系统，包括：

存储器，用于存储程序；

处理器，用于执行所述程序，所述程序运行时执行任意一项上述的独立数据计算方法。

一种存储介质，存储有程序，所述程序被处理器执行时实现任意一项上述的独立数据计算方法。

借由上述技术方案，本发明公开了一种独立数据计算方法，应用于分布式数据服务器，首先获取目标独立数据，然后将所述目标独立数据进行分组，得到至少两个独立数据分组，其中，不同所述独立数据分组中包含的所述独立数据的所属类型不相同。之后确定各所述独立数据分组中各类型的所述独立数据的条数，并依次确定为每个类型的独立数据所对应的目标子数量，然后根据各类型的独立数据所对应的所述目标子数量，确定所述目标独立数据的总数量。可见，本方案中，通过将待计算数量的独立数据进行分组拆分，然后由不同的分布式服务器进行分别计数，此时，无需将所有数据汇总到一处进行去重计算，减少了各分布式服务器的数据处理数量以及数据占用资源，最后将分组计数后的独立数据的数量进行汇总，得到目标独立数据的总量，使得整体数据的计算时间缩短，提高了数据处理速度。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例提供的一种独立数据计算方法的流程示意图；

图2示出了本发明实施例提供的又一种独立数据计算方法的流程示意图；

图3示出了本发明实施例提供的一种独立数据计算装置的结构示意图；

图4示出了本发明实施例提供的又一种独立数据计算装置的结构示意图；

图5示出了本发明实施例提供的又一种独立数据计算装置的结构示意图；

图6示出了本发明实施例提供的又一种独立数据计算装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明实施例提供了一种独立数据计算方法，应用于分布式数据服务器，请参阅图1，示出了该独立数据计算方法的流程示意图，可以包括：

S11、获取目标独立数据。

其中，独立数据为根据用户的需求指定的某一维度的数据，例如，可以为某个项目的独立用户的数据，又或者某个数据库中某产品的交易数据，除此，还可以为某一时间周期内的预设行为的数据。而本实施例的目的是为了快速计算目标独立数据的数量，相应的，为查询某个数据库中某个项目的独立用户数量，又如，计算某个产品的购买交易数量，或者计算一天内某个网站对某个广告的点击数量。

S12、将所述目标独立数据进行分组，得到至少两个独立数据分组，不同所述独立数据分组中包含的所述独立数据的所属类型不相同。

本步骤将目标独立数据进行分组，其分组规则可以有多种，如根据各独立数据的类型进行划分，或者可以根据预设时间段进行划分，在本实施例并不进行穷举。但优选的，本实施例中按照独立数据的所属类型进行划分，如，有10W的cookie数据，可以根据cookie所属的网页行为的不同类型进行划分，如分成网页浏览5W数据，鼠标点击3W数据，鼠标滚动1.5W数据，电子订单0.5W数据。

需要说明的是，独立数据的数量为该独立数据的数据条数，如上述10W的cookie数据，其中，独立数据为cookie数据，而该cookie数据的数量为该cookie数据的数据条数，为10W条。

除此，本实施例中，并不限定各个独立数据分组中独立数据所属类型的种类的数量，如，上述10W数据可以分为两个独立数据分组，其中，一个独立数据分组包括5W网页浏览数据，另外一个独立数据分组包括3W鼠标点击数据，1.5W鼠标滚动数据以及0.5W电子订单数据。即，一个独立数据分组中包含一个独立数据的所属类型，而另外一个独立数据分组中包含三个独立数据的所属类型。

当然，上述仅是为了举例说明，各独立数据分组中所包含的独立数据所属类型还可以为其他数量，但本实施例中，每个所述独立数据分组中包含的所述独立数据的所属类型不相同，即一个独立数据分组中包含网页浏览数据的类型，另外一个独立数据分组中则不包含网页浏览数据类型。这样，本实施例在进行目标独立数据分组时，就将同类型的独立数据进行去重，保证在后续步骤将独立数据的数量进行汇总时，无需再进行数据去重处理。

S13、确定各所述独立数据分组中各类型的所述独立数据的条数，并依次确定为每个类型的独立数据所对应的目标子数量。

上述步骤将各独立数据进行分组，本步骤将上述分组后的数据按照独立数据的所属类型进行数据统计，如上述分组中，一个独立数据分组包括5W网页浏览数据，另外一个独立数据分组包括3W鼠标点击数据，1.5W鼠标滚动数据以及0.5W电子订单数据。那么，本步骤是对这四个类型的独立数据进行数量的统计，需要说明的，统计的数量为对上述获取的数据进行去重处理后的独立数据的数量，如，5W的网页浏览数据进行去重处理后，可能为3W个独立的网页浏览数据，那么，对应的，本步骤确定的目标子数量为3W，同样，3W的鼠标点击数据进行去重处理后，可能为2W个独立的鼠标点击数据，那么，对应确定的目标子数量为2W。除此，假设1.5W的鼠标滚动数据进行去重处理后，为0.5W个独立的鼠标滚动数据，那么，对应确定的目标子数量为0.5W。假设0.5W的电子订单数据进行去重处理后，为0.4W个独立的电子订单数据，那么，对应确定的目标子数量为0.4W。

即，本步骤根据各独立数据的所属类型，确定出四个目标子数量，依次为3W、2W、0.5W以及0.4W。

S14、根据各类型的独立数据所对应的所述目标子数量，确定所述目标独立数据的总数量。

当本实施例中多个独立数据分组中包含的所述独立数据的所属类型不相同时，可以通过直接对步骤S13中确定的目标子数量进行加和，得到目标独立数据的数量，结合上述举例，确定目标独立数据的数量为5.9W(3W+2W+0.5W+0.4W)。

需要说明的是，本实施例还可以不限定各独立数据分组中独立数据所属的类型是否相同，如，将目标独立数据分为三个独立数据分组，其中两个独立数据分组中可以同时包括某一类型的独立数据，如，假设有10W的cookie数据，可以分为一个独立数据分组为4W网页浏览数据，又一个独立数据分组为1W网页浏览数据以及2W鼠标点击数据，另一个独立数据分组为1W鼠标点击数据、1.5W鼠标滚动数据以及0.5W电子订单数据。

那么，在进行各类型的独立数据的计数时，需要对每个独立数据分组内的各类型的独立数据进行去重计数，得到各目标子数量，然后根据各目标子数量确定目标独立数据的总数时，需要再次进行数据的去重处理，因为，不同独立数据分组中相同独立数据所属类型的数据可能还会存在重复的数据。如，4W网页浏览数据确定目标子数量为3W，1W网页浏览数据确定目标子数量为0.5W，而网页浏览数据的总的目标子数量可能为3W，小于各独立数据分组中确定出的目标子数量的加和。

但，由于本实施例中，采用分布式服务器分别对各独立数据分组的数据进行去重计数，使得各服务器的处理数据量较总的数据量小，加快了数据处理的时间，也减少了数据占用的总资源需求。

在另一种可能的实现方式中，如图2所示，对于上述实施例提供的独立数据计算方法中，在将所述目标独立数据进行分组时，具体包括：

S21、确定所述目标独立数据中各独立数据的类型标识；

S22、按照预设数据类型标识划分规则，将所述目标独立数据划分为多个独立数据分组。

其中，各独立数据具有一个类型标识，该类型标识表征该独立数据的所属类型，在本实施例中，所述按照预设数据类型标识划分规则，将所述目标独立数据划分为多个独立数据分组，可以具体包括步骤：

确定具有相同类型标识的所述独立数据为目标子独立数据；

例如，分别确定各独立数据的类型标识，如类型标识依次为L、K、H、D以及S，然后具有相同类型标识的独立数据为一个目标子独立数据，即本实施例包含目标子独立数据L、目标子独立数据K、目标子独立数据H、目标子独立数据D以及目标子独立数据S。然后，可以将至少一个目标子独立数据确定为一个独立数据分组，如，目标子独立数据L以及目标子独立数据K组成第一独立数据分组，目标子独立数据H形成第二独立数据分组，目标子独立数据D以及目标子独立数据S形成第三独立数据分组。

示例性的，本实施例还提供了一种具体实现代码，假设数据库为impala数据库，目的为查询2017年每个项目的独立用户数。

现有技术的方案代码如下：

selectcampaign_name,count(distinct cookie)from table where year＝2017group by campaign_name

即将2017年所有的独立数据进行汇总去重。

本方案代码如下：

select campaign_name,count(1)from–汇总

(select campaign_name,cookie from table where year＝2017group bycampaign_name,cookie)as t–分组、计数

group by campaign_name

即，先将2017年的独立数据进行分组，然后进行分组计数，最后进行计数数据汇总。

可见，本方案中，通过将待计算数量的独立数据进行分组拆分，然后由不同的分布式服务器进行分别计数，此时，无需将所有数据汇总到一处进行去重计算，减少了各分布式服务器的数据处理数量以及数据占用资源，最后将分组计数后的独立数据的数量进行汇总，得到目标独立数据的总量，使得整体数据的计算时间缩短，提高了数据处理速度。

与上述方法相对应，本发明实施例还提供了一种独立数据计算装置，请参阅图3，示出了该独立数据计算装置的结构示意图，可以包括：

获取模块31，用于获取目标独立数据；

划分模块32，用于将所述目标独立数据进行分组，得到至少两个独立数据分组，每个所述独立数据分组中包含的所述独立数据的所属类型不相同；

第一确定模块33，用于确定各所述独立数据分组中各类型的所述独立数据的数量，并依次确定为目标子数量；

第二确定模块34，用于根据所述目标子数量，确定所述目标独立数据的独立数据数量。

可选的，如图4所示，所述划分模块32包括：

第一确定单元41，用于确定所述目标独立数据中各独立数据的类型标识；

分组单元42，用于按照预设数据类型标识划分规则，将所述目标独立数据划分为多个独立数据分组。

可选的，如图5所示，所述第二确定模块34包括：

第二确定单元51，用于确定各类型的所述独立数据的数量的加和为所述目标独立数据的独立数据数量。

可选的，如图6所示，所述分组单元42包括：

第一确定子单元61，用于确定具有相同类型标识的所述独立数据为目标子独立数据；

第二确定子单元62，用于确定至少一个所述目标子独立数据为一个所述独立数据分组。

其工作原理请参见方法实施例。

所述独立数据计算装置包括处理器和存储器，上述获取模块31、划分模块32、第一确定模块33以及第二确定模块34等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来解决了现有技术中计算方式会消耗较多的存储资源以及要求后台服务器具备更高的数据处理能力，甚至，会因为数据量过大导致计算数据失败的问题。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本发明实施例提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现所述独立数据计算方法。

本发明实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行所述独立数据计算方法。

本发明实施例提供了一种设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现以下步骤：

获取目标独立数据；

可选的，所述将所述目标独立数据进行分组，包括：

确定所述目标独立数据中各独立数据的类型标识；

确定具有相同类型标识的所述独立数据为目标子独立数据；

本文中的设备可以是服务器、PC、PAD、手机等。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：

获取目标独立数据；

可选的，所述将所述目标独立数据进行分组，包括：

确定所述目标独立数据中各独立数据的类型标识；

确定具有相同类型标识的所述独立数据为目标子独立数据；

综上，本发明提供了一种独立数据计算方法、装置、系统以及存储介质，该方法应用于分布式数据服务器，首先获取目标独立数据，然后将所述目标独立数据进行分组，得到至少两个独立数据分组，其中，不同所述独立数据分组中包含的所述独立数据的所属类型不相同。之后确定各所述独立数据分组中各类型的所述独立数据的条数，并依次确定为每个类型的独立数据所对应的目标子数量，然后根据各类型的独立数据所对应的所述目标子数量，确定所述目标独立数据的总数量。可见，本方案中，通过将待计算数量的独立数据进行分组拆分，然后由不同的分布式服务器进行分别计数，此时，无需将所有数据汇总到一处进行去重计算，减少了各分布式服务器的数据处理数量以及数据占用资源，最后将分组计数后的独立数据的数量进行汇总，得到目标独立数据的总量，使得整体数据的计算时间缩短，提高了数据处理速度。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种独立数据计算方法，其特征在于，应用于分布式数据服务器，包括：

获取目标独立数据；

2.根据权利要求1所述的独立数据计算方法，其特征在于，所述将所述目标独立数据进行分组，包括：

确定所述目标独立数据中各独立数据的类型标识；

3.根据权利要求1或2所述的独立数据计算方法，其特征在于，所述根据各类型的独立数据所对应的所述目标子数量，确定所述目标独立数据的总数量，包括：

4.根据权利要求2所述的独立数据计算方法，其特征在于，所述按照预设数据类型标识划分规则，将所述目标独立数据划分为多个独立数据分组，包括：

确定具有相同类型标识的所述独立数据为目标子独立数据；

5.一种独立数据计算装置，其特征在于，应用于分布式数据服务器，包括：

获取模块，用于获取目标独立数据；

6.根据权利要求5所述的独立数据计算装置，其特征在于，所述划分模块包括：

7.根据权利要求5或6所述的独立数据计算装置，其特征在于，所述第二确定模块包括：

8.根据权利要求6所述的独立数据计算装置，其特征在于，所述分组单元包括：

9.一种独立数据计算系统，其特征在于，包括：

存储器，用于存储程序；

处理器，用于执行所述程序，所述程序运行时执行权利要求1至4中任意一项所述的独立数据计算方法。

10.一种存储介质，其特征在于，存储有程序，所述程序被处理器执行时实现如权利要求1-4中任意一项所述的独立数据计算方法。