CN113032400B

CN113032400B - 海量数据的高性能TopN查询方法、系统及介质

Info

Publication number: CN113032400B
Application number: CN202110349754.8A
Authority: CN
Inventors: 蔡晓华; 杨光辉
Original assignee: Shanghai Netis Technologies Co ltd
Current assignee: Shanghai Netis Technologies Co ltd
Priority date: 2021-03-31
Filing date: 2021-03-31
Publication date: 2022-11-08
Anticipated expiration: 2041-03-31
Also published as: CN113032400A

Abstract

本发明提供了一种海量数据的高性能TopN查询方法、系统及介质，包括：步骤1：判断TopN数据列是否有值索引，若有则执行步骤2，否则执行步骤3；步骤2：采用基于自身值索引的TopN算法，直接查询获取TopN数据集；步骤3：判断其余数据列是否有值索引，若有则执行步骤4，否则执行步骤5；步骤4：采用基于其余数据列值索引的TopN算法，间接查询获取TopN数据集；步骤5：采用任一种或任多种组合形式的非值索引的TopN算法查询获取TopN数据集。本发明通过采样和值索引，使得在TopN查询中数据值的访问量大幅下降。

Description

海量数据的高性能TopN查询方法、系统及介质

技术领域

本发明涉及大数据处理技术领域，具体地，涉及一种海量数据的高性能TopN查询方法、系统及介质。

背景技术

TopN算法在联机分析处理(OLAP)中有着非常普遍的应用，譬如查看最热销的一批商品，查看最活跃的一群用户，查看通信量最大的一批会话等等。这既是发现数据价值的一种重要手段，也是发现问题进行排障的一种重要手段。

就这类算法本身而言，已经有很多的研究，譬如各种大小堆算法，分组算法，或者MapReduce算法，分布式算法。但这类算法实际上会加载对应TopN指标的所有数据，即使是采用列存储，在大数据量场景下也会有明显的巨大的时间开销。譬如典型的广域网监控场景中，以分钟作为颗粒度进行网络流量数据统计，每分钟的通信会话对都在1000万以上，用户想排查最近30分钟内，数据量最大的Top50个通信会话对，那么如果packet_length表示数据量，将在1000万x30＝3亿量级以会话标示(session_id)为维度，以packet_length为取值的<session_id,length>数据中，先对session_id做group by，再按packet_length在进行排序，取最大的前50。

从应用的角度来说，这类OLAP操作都作用在数据库或者分布式数据库上，TopN的含义也就是直接根据值做orderby然后取limitN；或者根据某些维度group by之后，再根据值做orderby，之后取limitN。除去水平扩展带来的并行能力提升，如何进一步利用数据库特性，加速这类TopN操作，是个有实际意义的难题。

专利文献CN105678590B(申请号：CN201610083749.6)公开了一种面向社交网络基于云模型的topN推荐方法，利用社交网络海量数据集收集被推荐用户信息，评分物品信息，推荐用户信息；从被推荐用户信息和推荐用户信息中提取用户属性、获得用户评分，由多维云逆向云发生器生成多维云；通过多维云相似度计算用户属性云相似度；由推荐用户和被推荐用户的评分生成评分云，合并所有评分云生成父云，在父云中生成新的评分；综合相似度和评分生成被推荐用户对新物品的兴趣度，取兴趣度高的前N个物品生成topN推荐集。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种海量数据的高性能TopN查询方法、系统及介质。

根据本发明提供的海量数据的高性能TopN查询方法，包括：

步骤1：判断TopN数据列是否有值索引，若有则执行步骤2，否则执行步骤3；

步骤2：采用基于自身值索引的TopN算法，直接查询获取TopN数据集；

步骤3：判断其余数据列是否有值索引，若有则执行步骤4，否则执行步骤5；

步骤4：采用基于其余数据列值索引的TopN算法，间接查询获取TopN数据集；

步骤5：采用任一种或任多种组合形式的非值索引的TopN算法查询获取TopN数据集。

优选的，所述步骤2包括：

步骤2.1：以采样的方式在原始数据集合中获取采样数据集合；

步骤2.2：根据百分位算法或TopN算法，在采样数据集合上基于TopN数据列获取第一数据阈值；

步骤2.3：根据TopN数据列的值索引，以第一数据阈值为过滤条件对原始数据集合进行过滤，得到第一数据集；

步骤2.4：在第一数据集上应用TopN算法，得到TopN数据集。

优选的，所述步骤4包括：

步骤4.1：以采样的方式在原始数据集合中获取采样数据集合；

步骤4.2：根据百分位算法或TopN算法，在采样数据集合上基于具有值索引的数据列获得第二数据阈值；

步骤4.3：以第二数据阈值为过滤条件，利用该数据列的值索引，获得第二数据集；

步骤4.4：在第二数据集上应用TopN算法，得到TopN数据集。

优选的，采用随机采样法对原始数据集合进行采样，根据实际数据量，采样的比例为1/1000或1/10000，采样数据集的数据量比TopN数据集的数据量大4个数量级。

根据本发明提供的海量数据的高性能TopN查询系统，包括：

模块M1：判断TopN数据列是否有值索引，若有则调用模块M2，否则调用模块M3；

模块M2：采用基于自身值索引的TopN算法，直接查询获取TopN数据集；

模块M3：判断其余数据列是否有值索引，若有则调用模块M4，否则调用模块M5；

模块M4：采用基于其余数据列值索引的TopN算法，间接查询获取TopN数据集；

模块M5：采用任一种或任多种组合形式的非值索引的TopN算法查询获取TopN数据集。

优选的，所述模块M2包括：

模块M2.1：以采样的方式在原始数据集合中获取采样数据集合；

模块M2.2：根据百分位算法或TopN算法，在采样数据集合上基于TopN数据列获取第一数据阈值；

模块M2.3：根据TopN数据列的值索引，以第一数据阈值为过滤条件对原始数据集合进行过滤，得到第一数据集；

模块M2.4：在第一数据集上应用TopN算法，得到TopN数据集。

优选的，所述模块M4包括：

模块M4.1：以采样的方式在原始数据集合中获取采样数据集合；

模块M4.2：根据百分位算法或TopN算法，在采样数据集合上基于具有值索引的数据列获得第二数据阈值；

模块M4.3：以第二数据阈值为过滤条件，利用该数据列的值索引，获得第二数据集；

模块M4.4：在第二数据集上应用TopN算法，得到TopN数据集。

根据本发明提供的一种存储有计算机程序的计算机可读存储介质，所述计算机程序被处理器执行时实现上述的方法的步骤。

与现有技术相比，本发明具有如下的有益效果：

(1)本发明通过采样设计和值索引设计，使得在TopN查询中，数据值的访问量大幅下降，一般下降2个数量级以上；而在海量数据场景下，TopN查询性能大幅提升；

(2)本发明聚焦在数据源数据量的减少上，因此，本发明可以和任何相关算法叠加，无论是排序算法、TopN算法、百分位算法，抑或是各种算法的分布式版本；

(3)本发明在基于数据库的OLAP系统中，主要基于数据的函数和查询语句实现，具有很好的通用性和易用性，有着广泛的应用场景；

(4)本发明同样适用于非数据的OLAP系统，只要满足采样性和有值索引即可，其中采样性是非常容易附加实现的，而值索引则容易通过附属KV索引(或者索引数据库)来附加实现，因此本发明具有很强的泛化性，有着广泛的应用场景。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明主流程图；

图2为基于自身的值索引的TopN算法流程图；

图3为基于其它列的值索引的TopN算法流程图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

实施例1：

本发明的核心思路是减少TopN算法过程中被访问数据的数据量，因此数据需要有值索引，然后根据一个计算得到阈值做大幅度的数据过滤。而计算阈值的过程同样需要减少被访问数据量，否则等于没减少TopN过程访问的数据量，因此计算阈值的过程需要使用采样的方法，从而大幅减少被访问的数据量。

根据上述思路，本发明有两个限制：

限制1：如果数据库原生不支持数据的值索引，或者不能通过扩展或者嵌入代码(或者算法)的方式支持值索引，那么本法将无效。但所幸的是，这种情况在现代的通用数据库(包括现代通用的分布式数据库)中极为罕见。

限制2：如果数据库原生不支持随机在表中取出数据，或者不能通过扩展或者嵌入代码(或者算法)的方式支持随机在表中取出数据，那么本法将无效。但所幸的是，这种情况在现代的通用数据库(包括现代通用的分布式数据库)中极为罕见。

因此，对于在现代的通用数据库(包括现代通用的分布式数据库)，本发明是普遍适用的。

但TopN是针对某一个列的数据所做的，该列可能没有添加值索引，譬如对于大宽表场景，只会对常用的和重要的列做值索引，而不一定是所有列。因此，参考图1，本发明包括如下步骤：

步骤1：判断该列是否有值索引，也就是检查TopN数据那列是否有值索引；如果有，进入步骤2；否则进入步骤3。

步骤2：采用基于自身的值索引的TopN算法，直接查询获得TopN数据集。

步骤3：判断是否其它关键列有值索引，也就是检查数据中其它列是否有值索引；如果有，进入步骤4；否则进入步骤5。

步骤4：采用基于其它列的值索引的TopN算法，间接查询获得TopN数据集。

步骤5：蜕化执行传统的TopN算法，这种情况，查询过程将得不到有效的加速，但本发明是完整和鲁棒的。

其中，参考图2，步骤2基于自身的值索引的TopN算法，包括如下步骤：

步骤2.0：假设原始集合为A，要根据列X获得TopN数据，X有值索引。

步骤2.1：使用采样方法获得采样数据集合B。这里的采样包含但不限于随机采样，采样的比率可以根据实际情况来定，譬如从1/1000、1/10000、甚至更低的比率进行采样，从而使得数据量大幅减小。

为了确保数据的准确性，采样的数据量B要比TopN的N大1万倍，这样在步骤2.2选取特定阈值(一般还会下降100倍)后，还能留下比N大100倍以上的数据做最后的TopN。

对于一般数据库来说，这里的采样比不用特别刻意计算，可以采用经验值，譬如，对于亿级数据，从原始数据集规模下降3个数据量级之后，性能提升已经非常明显了。因此对于10亿级数据下降4个数量级，以此类推。本发明的代码实现过程，既可以硬编码，也可以采用自适应的方法，譬如包括但不限于查表，线性回归算法等。

步骤2.2：在B上基于X获得符合预期的数据阈值x_thre。B是比原始数据集A小3个数量集上的集合，在这个数据集合上按X列，可以采用但不限于高效的百分位算法(取99％)或者直接采用TopN算法，计算一个特定的数据阈值，不妨称之为x_thre。

由于数据量的大幅下降，这个计算过程是非常快速的。同时一般可以直接使用数据库函数实现，或者通过查询语句实现。

对于随机采样的场景，如果计算中使用的是百分位算法，那么x_thre近似于原始数据集A的相应百分位；取99％的话，相当于数据是原始数据A的1/100。如果计算中使用的是TopN算法，那么x_thre近似于原始数据的TopN'值，N'近似于N放大采样比率倒数倍。如果计算中采用其他方法，可以以上述方法类推。

如果数据取出后还需要按维度聚合，那么可以采用百分位算法，以保留更多的有数据；如果数据是直接使用，可以直接采用TopN算法。具体的算法选择要根据实际情况和性能目标做一些测试来选择，一旦选定后，不需要反复调整。

步骤2.3：以x_thre为过滤条件，利用X的值索引，获得数据集A'。这个过程使用过滤语句实现，譬如对于最大值Top使用大于过滤，对于最小值Top使用小于来进行过滤。

因为利用了值索引，所以是直接过滤出符合条件的数据集A'，而不会访问不符合过滤条件的数据。数据量上，延续步骤2.2的讨论，如果采用百分位算法(取99％)，那么数据量下降为原始的1/100；如果采用TopN算法，采样率为1/1000，则数据量巨幅下降为N的1000倍。因此数据访问时间都会大幅减少。

步骤2.4：在A'上，对于值X，应用TopN算法。对于一般数据来说，TopN的含义也就是直接根据X值做orderby然后取limitN；或者根据某些维度group by之后，再根据X值做order by，之后取limitN。

参考图3，步骤4基于其它列的值索引的TopN算法，包括如下步骤：

步骤4.0：假设原始集合为A，要根据列X获得TopN数据，X没有值索引，但列Y。

步骤4.1：使用采样方法获得采样数据集合B。同步骤2.1。

步骤4.2：在B上基于Y获得符合预期的数据阈值y_thre。除了按照Y列外，其它均同步骤2.2。

步骤4.3：以y_thre为过滤条件，利用Y的值索引，获得数据集A'。除了使用Y的值索引外，其它均同步骤2.3。

步骤4.4：在A'上，对于值X，应用TopN算法。同步步骤2.4。

显然，Y和X不见得有严格的对应关系，因此步骤4是一种近似算法。所以，应该采用两个实践来改进和提升效果：

(1)在步骤4.2中采用百分位算法，以方位较大数据量(但即使这样，也是原始数据量得1/100)，防止TopN相关组成数据被过滤掉。

(2)Y应该是认为设定的表征系统的关键属性。譬如，在监控场景中的数据量packet_length，因为特别大的数据量和特别小的数据量，往往是监控场景需要关注的“异常”情况。

实施例2：

实施例2是实施例1的优选例。

以Clickhouse数据库为例，假设有数据库db1，表table1，有以下若干列：time为时间，session_id为通信回话标示，packet_length为包长，建立了值索引，而packet_count为包数，未建值索引。

建表语句如下：

CREATE TABLE db1.table1

(

time DateTime,

session_id String,

packet_length UInt64,

packet_count UInt64,

INDEX l packet_length TYPE set(0)GRANULARITY 1

)

ENGINE＝<Engine>

...

如果查询packet_length最大的50个通信对，参考步骤2，按如下实现：

步骤2.1：按1/1000采样：

SELECTpacket_length FROM db1.table1 SAMPLE 0.001

步骤2.2：取99％百分位数：

quantileTDigest(0.99)(packet_length)as x_thre

步骤2.3：以x_thre为过滤条件：

SELECT session_id,sum(packet_length)AS sum_length\

FROM db1.table1 WHEREpacket_length>x_thre

步骤2.4：在A'上，对于值X，应用TopN算法：

SELECT session_id,sum(packet_length)AS sum_length\

FROM db1.table1 WHEREpacket_length>x_thre\

GROUP BY session_id ORDER BY sum_length DESC LIMIT 50

汇总步骤2.1到2.4：

SELECT session_id,sum(packet_length)AS sum_length\

FROM db1.table1 WHEREpacket_length>

(SELECT quantileTDigest(0.99)(packet_length)\

FROM db1.table1 SAMPLE 0.001)\

GROUP BY session_id ORDER BY sum_length DESC LIMIT 50

如果是查询packet_count最大的50个通信对，参考步骤4，按如下实现：

步骤4.1，按1/1000采样：

SELECTpacket_length FROM db1.table1 SAMPLE 0.001

步骤4.2，取99％百分位数：

quantileTDigest(0.99)(packet_length)as y_thre

步骤4.3：以y_thre为过滤条件：

SELECT session_id,sum(packet_length)AS sum_length\

FROM db1.table1 WHEREpacket_length>y_thre

步骤4.4：在A'上，对于值X，应用TopN算法：

SELECT session_id,sum(packet_count)AS sum_count\

FROM db1.table1 WHEREpacket_length>y_thre\

GROUP BY session_id ORDER BY sum_count DESC LIMIT 50

汇总步骤4.1到4.4：

SELECT session_id,sum(packet_count)AS sum_count\

FROM db1.table1 WHEREpacket_length>

(SELECT quantileTDigest(0.99)(packet_length)\

FROM db1.table1 SAMPLE 0.001)\

GROUP BY session_id ORDER BY sum_count DESC LIMIT 50。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种海量数据的高性能TopN查询方法，其特征在于，包括：

步骤5：采用任一种或任多种组合形式的非值索引的TopN算法查询获取TopN数据集；

所述步骤2包括：

步骤2.4：在第一数据集上应用TopN算法，得到TopN数据集；

所述步骤4包括：

步骤4.4：在第二数据集上应用TopN算法，得到TopN数据集。

2.根据权利要求1所述的海量数据的高性能TopN查询方法，其特征在于，采用随机采样法对原始数据集合进行采样，根据实际数据量，采样的比例为1/1000或1/10000，采样数据集的数据量比TopN数据集的数据量大4个数量级。

3.一种海量数据的高性能TopN查询系统，其特征在于，包括：

模块M5：采用任一种或任多种组合形式的非值索引的TopN算法查询获取TopN数据集；

所述模块M2包括：

模块M2.4：在第一数据集上应用TopN算法，得到TopN数据集；

所述模块M4包括：

模块M4.4：在第二数据集上应用TopN算法，得到TopN数据集。

4.根据权利要求3所述的海量数据的高性能TopN查询系统，其特征在于，采用随机采样法对原始数据集合进行采样，根据实际数据量，采样的比例为1/1000或1/10000，采样数据集的数据量比TopN数据集的数据量大4个数量级。

5.一种存储有计算机程序的计算机可读存储介质，其特征在于，所述计算机程序被处理器执行时实现权利要求1或2所述的方法的步骤。