CN110298709A

CN110298709A - 一种超大规模数据的预估方法和装置

Info

Publication number: CN110298709A
Application number: CN201910615310.7A
Authority: CN
Inventors: 范芳铭; 王海胜; 李友国; 周峰; 冯潇
Original assignee: Guangzhou Pinwei Software Co Ltd
Current assignee: Guangzhou Pinwei Software Co Ltd
Priority date: 2019-07-09
Filing date: 2019-07-09
Publication date: 2019-10-01
Anticipated expiration: 2039-07-09
Also published as: CN110298709B

Abstract

本发明公开了一种超大规模数据的预估方法和装置，包括：根据预置条件对待计算数据进行切分，将所述待计算数据切分成多个分组；按比例从每个所述分组中抽取部分用户组成样本数据，使得从一个分组中抽取出来的待计算数据占所述样本数据的比例与所述一个分组占所述待计算数据的比例相同；从所述样本数据中随机选取部分数据构成子样本数据，并按多个预置属性对所述子样本数据进行分类形成多个预估表；将预置的业务需求与相应的预估表关联并生成数据脚本，所述预置的业务需求与至少一个预置属性相关；对所述数据脚本进行计算生成预估结果。解决了现有的预估采用随机或者分桶进行数据采样可能会导致数据在某些值上发生累积的技术问题。

Description

一种超大规模数据的预估方法和装置

技术领域

本发明涉及数据处理技术领域，尤其涉及一种超大规模数据的预估方法和装置。

背景技术

大数据的背景下，需要计算的数据规模越来越大(比如超过10亿、50亿甚至100亿条数据)。在多张大表之间做数据组合查询，需要很长时间。有时候超过1个小时或者几个小时，甚至更长。

而在很多的场景下，用户可能需要快速的做出决策，这种情况下，就需要使用预估。在对数据要求比较高的场合，对预估的数据的精确度的要求也越高。预估是一种在大数据时代常用的技术。大数据一般都是用类似hadoop进行运算。

常用的预估包括数据采样和计算，数据采样通常使用随机数和分桶等算法。但直接的随机或者分桶采样，可能会导致数据在某些值上发生累积。如果在多张表上直接做抽样，那么这些抽样表做组合查询的时候，预估的结果就会非常少。

发明内容

本发明提供了一种超大规模数据的预估方法和装置，解决了现有的预估采用随机或者分桶进行数据采样可能会导致数据在某些值上发生累积的技术问题。

本发明提供了一种超大规模数据的预估方法，包括：

根据预置条件对待计算数据进行切分，将所述待计算数据切分成多个分组；

按比例从每个所述分组中抽取部分用户组成样本数据，使得从一个分组中抽取出来的待计算数据占所述样本数据的比例与所述一个分组占所述待计算数据的比例相同；

从所述样本数据中随机选取部分数据构成子样本数据，并按多个预置属性对所述子样本数据进行分类形成多个预估表；

将预置的业务需求与相应的预估表关联并生成数据脚本，所述预置的业务需求与至少一个预置属性相关；

对所述数据脚本进行计算生成预估结果。

优选地，

所述的超大规模数据的预估方法，还包括：

根据预置的属性参考值与所述多个预估表中的属性实际值比较，判断所述属性实际值是否在预置的置信区间内，若在，将所述预估结果作为最终结果输出。

优选地，

所述的超大规模数据的预估方法，还包括：

预先根据作为参考的属性对所述待计算数据进行计算，得到所述属性参考值。

优选地，

所述的超大规模数据的预估方法，还包括：

若所述属性实际值不在预置的置信区间内，则根据预置规则对所述预估结果进行处理生成相应的预估区间，并将所述预估区间作为最终结果输出。

优选地，

根据预置规则对所述预估结果进行处理生成相应的预估区间具体包括：

若存在n个所述属性实际值不在所述置信区间内，则计算n个所述属性实际值与对应的n个所述属性参考值之间偏差的百分比x1％，x1％，……xn％，然后生成预估区间[A*(x1*x2*…xn),A+(1-x1)*A+(1-x2)*A+……+(1-xn)*A]。

本发明提供了一种超大规模数据的预估装置，包括：

切分单元，用于根据预置条件对待计算数据进行切分，将所述待计算数据切分成多个分组；

样本数据构建单元，用于按比例从每个所述分组中抽取部分用户组成样本数据，使得从一个分组中抽取出来的待计算数据占所述样本数据的比例与所述一个分组占所述待计算数据的比例相同；

预估表生成单元，用于从所述样本数据中随机选取部分数据构成子样本数据，并按多个预置属性对所述子样本数据进行分类形成多个预估表；

数据脚本生成单元，用于将预置的业务需求与相应的预估表关联并生成数据脚本，所述预置的业务需求与至少一个预置属性相关；

计算单元，用于对所述数据脚本进行计算生成预估结果。

优选地，

所述的超大规模数据的预估装置，还包括：

比较单元，用于根据预置的属性参考值与所述多个预估表中的属性实际值比较，判断所述属性实际值是否在预置的置信区间内，若在，将所述预估结果作为最终结果输出。

优选地，

所述的超大规模数据的预估装置，还包括：

属性参考值计算单元，用于预先根据作为参考的属性对所述待计算数据进行计算，得到所述属性参考值。

优选地，

所述的超大规模数据的预估装置，还包括：

预估区间生成单元，用于当所述属性实际值不在预置的置信区间时，根据预置规则对所述预估结果进行处理生成相应的预估区间，并将所述预估区间作为最终结果输出。

优选地，

所述预估区间生成单元具体用于：

当所述属性实际值不在预置的置信区间且存在n个所述属性实际值不在所述置信区间内时，计算n个所述属性实际值与对应的n个所述属性参考值之间偏差的百分比x1％，x1％，……xn％，然后生成预估区间[A*(x1*x2*…xn),A+(1-x1)*A+(1-x2)*A+……+(1-xn)*A]。

从以上技术方案可以看出，本发明具有以下优点：

根据预置条件对待计算数据进行切分，将待计算数据切分成多个分组；按比例从每个分组中抽取部分用户组成样本数据，使得从一个分组中抽取出来的待计算数据占样本数据的比例与一个分组占待计算数据的比例相同，从而一定程度上保证了样本数据与待计算数据的一致性，使得样本数据的构建更合理；从样本数据中随机选取部分数据构成子样本数据，使得计算的数据量更少，很大程度的提高了预估速度，然后按多个预置属性对子样本数据进行分类形成多个预估表；将预置的业务需求与相应的预估表关联并生成数据脚本，预置的业务需求与至少一个预置属性相关；对数据脚本进行计算生成预估结果；因此本发明可以实现对超大规模数据的快速预估，而且可以保证较准确的预估结果，并且支持多个与多个预置属性相关的业务需求的计算。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本发明提供的一种超大规模数据的预估方法的第一实施例的流程示意图；

图2为本发明提供的一种超大规模数据的预估方法的第二实施例的流程示意图；

图3为本发明提供的一种超大规模数据的预估装置的第一实施例的结构示意图；

图4为本发明提供的一种超大规模数据的预估装置的第二实施例的结构示意图。

具体实施方式

本发明实施例提供了一种超大规模数据的预估方法和装置，解决了现有的预估采用随机或者分桶进行数据采样可能会导致数据在某些值上发生累积的技术问题。

为了便于理解本发明的技术方案，特对本发明提供超大规模数据的预估方法和装置的应用场景进行说明：

在大数据背景下，每天都会产生大量的数据，需要计算的数据规模可以称得上超大规模，例如双11购物节当天的网购数据可达几十亿条，对于超大规模数据的计算需要很长时间，而且往往业务需求对多张数据表进行组合查询，那么耗费时间将更长，所以本发明提供超大规模数据的预估方法和装置是应用于超大规模数据的计算，且应用于用户或工作人员进行数据查询时，所以需要预估的速度很快。

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1，本发明提供的一种超大规模数据的预估方法的第一实施例的流程示意图。

本发明提供了一种超大规模数据的预估方法的第一实施例，包括：

步骤101，根据预置条件对待计算数据进行切分，将待计算数据切分成多个分组。

预置条件可以为用户的id的注册地区，也可以为是否购物。

待计算数据有多种形式，例如在电商领域，待计算数据可以为用户量，并可以根据是否购物将用户分为两组。

步骤102，按比例从每个分组中抽取部分用户组成样本数据，使得从一个分组中抽取出来的待计算数据占样本数据的比例与一个分组占待计算数据的比例相同。

假设在待计算数据中，购物用户占比80％，未购物用户占比20％，那么可以按比例分别从购物用户分组和未购物用户分组中分别抽取数据，使得在样本数据中，购物用户也占比80％，未购物用户也占比20％。

步骤103，从样本数据中随机选取部分数据构成子样本数据，并按多个预置属性对子样本数据进行分类形成多个预估表。

从样本数据中选取数据构成子样本数据，可以进一步缩小预估的数据量，加快预估速度。

预置属性的种类有很多，例如可以为一周内咨询过客服、一周内向购物车加载过商品以及一周内没有购物，预置属性可以根据实际需要进行设定。

步骤104，将预置的业务需求与相应的预估表关联并生成数据脚本，预置的业务需求与至少一个预置属性相关。

例如，预置的业务需求可以是计算一周内向购物车加载过商品但没有购物的用户比例，这种情况下，业务需求与一周内向购物车加载过商品和一周内没有购物这两个预置属性相关；业务需求也可以是一周内浏览过女装的用户比例，这种情况下，业务需求与浏览过女装这一个预置属性相关；业务需求还可以与三个甚至三个以上的预置属性相关。

生成数据脚本是指，例如将预估表中的子样本数据转换成矩阵的形式。

步骤105，对数据脚本进行计算生成预估结果。

计算方法有多种，例如hadoop、presto和spark等计算方法。

请参阅图2，本发明提供的一种超大规模数据的预估方法的第二实施例的流程示意图。

本发明提供了一种超大规模数据的预估方法的第二实施例，包括：

步骤201，根据预置条件对待计算数据进行切分，将待计算数据切分成多个分组。

步骤201与本申请第一实施例中步骤101的内容相同，具体描述可以参见第一实施例步骤101的内容，在此不再赘述。

步骤202，按比例从每个分组中抽取部分用户组成样本数据，使得从一个分组中抽取出来的待计算数据占样本数据的比例与一个分组占待计算数据的比例相同。

步骤202与本申请第一实施例中步骤102的内容相同，具体描述可以参见第一实施例步骤102的内容，在此不再赘述。

步骤203，从样本数据中随机选取部分数据构成子样本数据，并按多个预置属性对子样本数据进行分类形成多个预估表。

步骤203与本申请第一实施例中步骤103的内容相同，具体描述可以参见第一实施例步骤103的内容，在此不再赘述。

步骤204，将预置的业务需求与相应的预估表关联并生成数据脚本，预置的业务需求与至少一个预置属性相关。

步骤204与本申请第一实施例中步骤104的内容相同，具体描述可以参见第一实施例步骤104的内容，在此不再赘述。

步骤205，对数据脚本进行计算生成预估结果。

步骤205与本申请第一实施例中步骤105的内容相同，具体描述可以参见第一实施例步骤105的内容，在此不再赘述。

步骤206，预先根据作为参考的属性对待计算数据进行计算，得到属性参考值。

可以作为参考的属性一般为核心属性或固有属性，核心属性可以理解为对业务需求较重要的属性；而固有属性可以理解为当待计算数据达到一定量后，该属性大致保持不变，例如，在某个电商的注册用户中，近一个月购物用户的男女比例为4比6，因为近一周购物用户的数量足够大，所以这个男女比例会基本保持不变，即计算近一周购物用户的男女比例也为4比6。

并且，可以作为参考的属性一般为枚举值，像时间这种通常不作为参考的属性。

需要说明的是，步骤206虽然是对全部待计算数据进行计算，但可以预先进行，比如可以在步骤201进行之前就计算出属性参考值，所以不会增加预估时间。

步骤207，根据预置的属性参考值与多个预估表中的属性实际值比较，判断属性实际值是否在预置的置信区间内，若在，将预估结果作为最终结果输出。

本实施例通过判断属性实际值是否在预置的置信区间来确定预估的精准度，若属性实际值在预置的置信区间，则认为预估的精准度达到要求，便将预估结果作为最终结果输出。

步骤208，若属性实际值不在预置的置信区间内，则根据预置规则对预估结果进行处理生成相应的预估区间，并将预估区间作为最终结果输出。

预估结果是一个数值，但因为精准度不够，所以对预估结果进行处理，并以预估区间的形式输出最终结果，一定程度上保证了输出结果的可参考性。

其中，根据预置规则对预估结果进行处理生成相应的预估区间可以具体包括：

若存在n个属性实际值不在置信区间内，则计算n个属性实际值与对应的n个属性参考值之间偏差的百分比x1％，x1％，……xn％，然后生成预估区间[A*(x1*x2*…xn),A+(1-x1)*A+(1-x2)*A+……+(1-xn)*A]。

需要说明的是，这种预估区间的生成方法属于悲观预估，还可以进行乐观预估，即认为步骤205生成的预估结果是准确的，即使属性实际值不在预置的置信区间内，也将步骤205生成的预估结果作为最终结果输出；另外，还可以进行中庸估值，例如取步骤208生成的预估区间的中间值作为最终结果输出。

请参阅图3，本发明提供的一种超大规模数据的预估装置的第一实施例的结构示意图。

本发明提供了一种超大规模数据的预估装置的第一实施例，包括：

切分单元301，用于根据预置条件对待计算数据进行切分，将待计算数据切分成多个分组；

样本数据构建单元302，用于按比例从每个分组中抽取部分用户组成样本数据，使得从一个分组中抽取出来的待计算数据占样本数据的比例与一个分组占待计算数据的比例相同；

预估表生成单元303，用于从样本数据中随机选取部分数据构成子样本数据，并按多个预置属性对子样本数据进行分类形成多个预估表；

数据脚本生成单元304，用于将预置的业务需求与相应的预估表关联并生成数据脚本，预置的业务需求与至少一个预置属性相关；

计算单元305，用于对数据脚本进行计算生成预估结果。

请参阅图4，本发明提供的一种超大规模数据的预估装置的第二实施例的结构示意图。

本发明提供了一种超大规模数据的预估装置的第二实施例，包括：

切分单元401，用于根据预置条件对待计算数据进行切分，将待计算数据切分成多个分组；

样本数据构建单元402，用于按比例从每个分组中抽取部分用户组成样本数据，使得从一个分组中抽取出来的待计算数据占样本数据的比例与一个分组占待计算数据的比例相同；

预估表生成单元403，用于从样本数据中随机选取部分数据构成子样本数据，并按多个预置属性对子样本数据进行分类形成多个预估表；

数据脚本生成单元404，用于将预置的业务需求与相应的预估表关联并生成数据脚本，预置的业务需求与至少一个预置属性相关；

计算单元405，用于对数据脚本进行计算生成预估结果。

属性参考值计算单元406，用于预先根据作为参考的属性对待计算数据进行计算，得到属性参考值。

比较单元407，用于根据预置的属性参考值与多个预估表中的属性实际值比较，判断属性实际值是否在预置的置信区间内，若在，将预估结果作为最终结果输出。

预估区间生成单元408，用于当属性实际值不在预置的置信区间时，根据预置规则对预估结果进行处理生成相应的预估区间，并将预估区间作为最终结果输出。

预估区间生成单元具体用于：

当属性实际值不在预置的置信区间且存在n个属性实际值不在置信区间内时，计算n个属性实际值与对应的n个属性参考值之间偏差的百分比x1％，x1％，……xn％，然后生成预估区间[A*(x1*x2*…xn),A+(1-x1)*A+(1-x2)*A+……+(1-xn)*A]。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种超大规模数据的预估方法，其特征在于，包括：

对所述数据脚本进行计算生成预估结果。

2.根据权利要求1所述的超大规模数据的预估方法，其特征在于，还包括：

3.根据权利要求2所述的超大规模数据的预估方法，其特征在于，还包括：

4.根据权利要求2所述的超大规模数据的预估方法，其特征在于，还包括：

5.根据权利要求4所述的超大规模数据的预估方法，其特征在于，根据预置规则对所述预估结果进行处理生成相应的预估区间具体包括：

6.一种超大规模数据的预估装置，其特征在于，包括：

计算单元，用于对所述数据脚本进行计算生成预估结果。

7.根据权利要求1所述的超大规模数据的预估装置，其特征在于，还包括：

8.根据权利要求7所述的超大规模数据的预估装置，其特征在于，还包括：

9.根据权利要求7所述的超大规模数据的预估装置，其特征在于，还包括：

10.根据权利要求9所述的超大规模数据的预估装置，其特征在于，所述预估区间生成单元具体用于：