CN105224697A

CN105224697A - 带过滤条件的排序方法和用于执行所述方法的装置

Info

Publication number: CN105224697A
Application number: CN201510783269.6A
Authority: CN
Inventors: 袁安峰
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2015-11-16
Filing date: 2015-11-16
Publication date: 2016-01-06
Anticipated expiration: 2035-11-16
Also published as: CN105224697B

Abstract

提供了一种带过滤条件的排序方法，包括：分析过滤条件并确定过滤条件是否有上限；如果确定过滤条件无上限，则对数据进行全局排序，并基于过滤条件执行过滤；以及如果确定过滤条件有上限，则提取上限，记为K，获取前K个数据并基于过滤条件执行过滤，K为整数。

Description

带过滤条件的排序方法和用于执行所述方法的装置

技术领域

本发明涉及大数据领域，具体地，涉及一种带过滤条件的排序方法和用于执行所述方法的装置。

背景技术

随着信息化的越来越普遍，需要处理的数据量越来越多且所需要的数据处理速度越来越快。

TopN算法是大数据领域常用的一种算法，用于快速从海量数据中获取最符合要求的N条数据。最常用的TopN算法是用最小堆算法实现的。由于使用TopN算法来处理数据不需要对数据进行全局排序，其处理效率是非常高的。

然而，在一些情况下，需要对数据进行排序后取其中一部分数据，即，带过滤条件的排序，例如，取第100条以及200条至300条的数据。在这种情况下，往往使用快速排序算法对数据进行全局排序，并对排序后的结果进行过滤，以便获取所需数据。

此外，Presto是常用的一种纯内存的交互式SQL查询引擎，它具有查询效率高的优点，并且能够跨越包括Hive、MySQL、Kafka在内的多种数据源进行查询。目前，Presto已成功应用于各种互联网公司，诸如Facebook、Netflix、Dropbox、京东等。

当在Presto中进行带过滤条件的排序时，需要将所有数据载入内存并进行全局排序。由于Presto是纯内存式的交互式SQL查询引擎，将所有数据载入内存中并进行全局排序会导致内存占用高，甚至内存溢出、CPU负载过高等问题。

发明内容

为了至少解决上述问题，本发明提供了一种带过滤条件的排序方法和用于执行所述方法的装置，该方法能够以高效地处理带过滤条件的排序，并且具有占用内存小、计算量少等优点。

本发明的示例实施例提供了一种带过滤条件的排序方法，包括：分析过滤条件并确定过滤条件是否有上限；如果确定过滤条件无上限，则对数据进行全局排序，并基于过滤条件执行过滤；以及如果确定过滤条件有上限，则提取上限，记为K，获取前K个数据并基于过滤条件执行过滤，K为整数。

所述分析过滤条件并确定过滤条件是否有上限包括：分析过滤条件是否与排序后数据的行号相关；如果过滤条件与排序后数据的行号相关，且过滤条件所需数据量受到行号的限制，则确定有上限，将与过滤条件相关的行号中的最大行号值提取作为所述上限K，否则确定无上限。

所述获取前K个数据包括：采用TopN算法来获取前K个数据。

所述对数据进行全局排序包括：采用快速排序算法来对数据进行全局排序。

本发明的示例实施例提供了一种用于实现带过滤条件的排序方法的装置，包括：过滤条件上限提取模块，配置为分析过滤条件并确定过滤条件是否有上限；排序模块，配置为响应于确定过滤条件无上限对数据进行全局排序，而响应于确定过滤条件有上限，提取上限，记为K，并获取前K个数据；以及过滤器，配置为：基于过滤条件对排序后的数据执行过滤，K为整数。

所述过滤条件上限提取模块配置为：分析过滤条件是否与排序后数据的行号相关；如果过滤条件与排序后数据的行号相关，且过滤条件所需数据量受到行号的限制，则确定有上限，将与过滤条件相关的行号中的最大行号值提取作为所述上限K，否则确定无上限。

所述排序模块配置为：采用TopN算法来获取前K个数据。

所述排序模块还配置为：采用快速排序算法来对数据进行全局排序。

附图说明

以下结合附图，将更清楚本发明的示例实施例的上述和其它方面、特征以及优点，附图中：

图1是示出了根据本公开示例实施例的用于执行带过滤条件的排序方法的装置的框图；

图2示出了根据本公开示例实施例的用于提取过滤条件上限的方法的一个实施例；以及

图3是示出了根据本公开示例实施例的带过滤条件的排序方法的一个实施例。

具体实施方式

以下参考附图描述了本发明的示例实施。本发明提供了一种带过滤条件的排序方法和用于执行所述方法的装置，该方法能够以高效地处理带过滤条件的排序，并且具有占用内存小、计算量少等优点。

应注意，为了便于描述，将本发明的方法和装置描述为被用于实现在Presto中进行带过滤条件的排序，然而这仅是多种示例实施例之一，本领域技术人员可以想到将本发明的方法和装置用于其他查询引擎，而不脱离本发明的精神和范围。

图1是示出了根据本公开示例实施例的用于执行带过滤条件的排序方法的装置100的框图。

如图1所示，用于执行带过滤条件的排序方法的装置100可以包括：过滤条件上限提取模块110，配置为分析过滤条件并确定过滤条件是否有上限；排序模块120，配置为：响应于确定过滤条件无上限，对数据进行全局排序，而响应于确定过滤条件有上限，提取上限，记为K，获取前K个数据；过滤器130，基于过滤条件对排序后的数据执行过滤，K为整数。为了清楚地理解本发明，将省略对公知结构和功能的描述。

由过滤上限提取模块110执行的用于提取过滤条件上限的方法可以包括：分析过滤条件是否与排序后数据的行号相关；如果过滤条件与排序后数据的行号相关，且过滤条件所需数据量受到行号的限制，则确定有上限，将与过滤条件相关的行号中的最大行号值提取作为所述上限K，否则确定无上限。具体地，假设r_n为排序后数据的行号，则提取过滤条件出来，并对过滤条件进行分析(例如，将过滤条件进行合并和排序)，得到以下几种情况：

1.如果过滤条件与r_n相关，则有可能出现：

1.1)过滤条件包含明确上限，如r_n≤B，在这种情况下，所提取的过滤条件上限K＝B；

例如，过滤条件为行号r_n大于3并且小于5，则过滤条件提取模块110通过分析可以确定过滤条件是有上限的，并且与过滤条件相关的行号中的最大行号值为5，因此可以将5提取作为过滤条件上限。

1.2)过滤条件包含隐式上限，如r_n≥AlimitB(表示以A行为起点后续B行)，在这种情况下，所提取的过滤条件上限K＝A+B；

例如，过滤条件为从第5行开始接下来的3行，则过滤条件提取模块110通过分析可以确定该过滤条件同样是有上限的，并且可以确定与该过滤条件相关的行号中的最大行号值为8，因此可以将8提取作为过滤条件上限。

1.3)过滤条件所需数据量不受r_n限制，如r_n＞A，在这种情况下，确定过滤条件无上限；

例如，过滤条件为行号大于5，则过滤条件提取模块110通过分析可以确定该过滤条件所需的数据量不受r_n的限制，因此该过滤条件没有过滤条件上限。

2.如果过滤条件与r_n无关，则确定过滤条件无上限。例如，过滤条件可以被设置为平方值大于4或数据更新时间早于2015年3月5日，在该情况下，过滤条件提取模块110确定过滤条件与行号无关，因此确定该过滤条件没有过滤条件上限。

以下参考图2描述根据本公开示例实施例的用于提取过滤条件上限的方法的一个实施例。首先，在步骤201，过滤条件提取模块110获取过滤条件。在步骤202对所述过滤条件进行合并、排序。在步骤203分析所述过滤条件以便确定该过滤条件是否存在上限。在确定该过滤条件不存在上限的情况下(203-N)，向排序模块120和过滤器130发送指示该过滤条件无上限的信号以及所述过滤条件，以便对数据进行带过滤条件的全局排序；而在确定该过滤条件存在上限的情况下(无论是存在明确上限(203-Y-1)还是存在隐式上限(203-Y-2))，在步骤204提取该过滤条件的上限K(K为整数)，并向排序模块120和过滤器130发送所述过滤条件上限K以及所述过滤条件，以便对前K个数据进行过滤。

以上仅给出了过滤条件的几个示例，实际的过滤条件可以是其他过滤条件或上述过滤条件中的两个或更多个的组合。过滤条件提取模块110通过对过滤条件进行合并和排序来分析过滤模块，从而确定过滤条件是否存在上限并在存在过滤条件上限的情况下确定具体上限值。

此外，本领域技术人员应理解的是上述过滤条件上限的定义同样也是示例性的，可以根据需要来限定过滤条件上限，过滤条件上限仅是用于表明相应过滤条件所需的数据量的上限值。例如，还可以在过滤条件为r_n≤B的情况下，将过滤条件上限设置为B+1。

通过上述用于提取过滤条件上限的方法，可以实现带过滤条件的排序方法。具体地，所述方法包括：通过过滤条件上限提取模块110执行图2所示的用于提取过滤条件上限的方法，以便分析过滤条件并确定过滤条件是否有上限。如果过滤条件无上限，则过滤条件上限提取模块110将对过滤条件无上限加以指示的信号和所述过滤条件传送给排序模块120和过滤器130。然后，排序模块120对所有数据进行全局排序，接着过滤器130基于所述过滤条件执行过滤，从而得到最终数据。在上述情况下，排序模块120可以通过采用快速排序算法来对数据进行全局排序。如果过滤条件有上限，则过滤条件上限提取模块110提取上限K，然后，将上限K和所述过滤条件传送给排序模块120和过滤器130。排序模块120可以通过诸如采用TopN的算法来获取前K个数据，接着过滤器130基于所述过滤条件执行过滤，K为整数。应清楚的是尽管描述了排序模块120采用TopN算法来获取前K个数据的实施例，然而这仅是示例性的，排序模块120可以不采用TopN算法或通过采用其他算法来获取前K个数据。

以下参考图3，来描述根据本公开示例实施例的带过滤条件的排序方法的一个实施例。具体地，首先在步骤301，由过滤条件上限提取模块110获取过滤条件，并在步骤302对过滤条件进行分析，以便确定是否存在过滤条件上限。如果确定过滤条件存在上限(302-Y)且上限为K，则可以在步骤303通过排序模块120执行诸如TopN算法以便提取前K个数据，随后在步骤305通过过滤器130对所述前K个数据执行过滤，以便输出最终结果。然而，如果确定过滤条件不存在上限(302-N)，则可以在步骤304通过排序模块120将所有数据载入内存并使用诸如快速排序算法的方法来对所有数据进行排序。然后，执行步骤305，通过过滤器130对所述前K个数据执行过滤，以便输出最终结果。

这样，本技术方案能够智能获取全局排序时过滤条件中的上限，根据上限K，获取所需要的前K条数据，然后根据过滤条件再进行过滤。根据本公开多种实施例的带过滤条件的排序方法和用于执行所述方法的装置相对于传统全局排序的方法和装置，可以减少了需要处理的数据量，因此占用内存较小且计算量也较小，效率较高。

本发明能够避免不必要的全局排序，只处理所需要的前K条数据，减少了需要处理的数据量，大大提高执行效率，并且能够节省较多内存和CPU。

以上方案仅是示出本发明构思的一个具体实现方案，本发明不限于上述实现方案。可以省略或跳过上述实现方案中的一部分处理，而不脱离本发明的精神和范围。

前面的方法可以通过多种计算机装置以可执的程序命令形式实现并记录在计算机可读记录介质中。在这种情况下，计算机可读记录介质可以包括单独的程序命令、数据文件、数据结构或其组合。同时，记录在记录介质中的程序命令可以专门设计或配置用于本发明，或是计算机软件领域的技术人员已知应用的。计算机可读记录介质包括例如硬盘、软盘或磁带等磁性介质、例如压缩盘只读存储器(CD-ROM)或数字通用盘(DVD)等光学介质、例如光磁软盘的磁光介质以及例如存储和执行程序命令的ROM、RAM、闪存等硬件装置。此外，程序命令包括编译器形成的机器语言代码和计算机通过使用解释程序可执行的高级语言。前面的硬件装置可以配置成作为至少一个软件模块操作以执行本发明的操作，并且逆向操作也是一样的。

尽管以特定顺序示出并描述了本文方法的操作，然而可以改变每个方法的操作的顺序，使得可以以相反顺序执行特定操作或使得可以至少部分地与其它操作同时来执行特定操作。此外，本发明不限于上述示例实施例，它可以在不脱离本公开的精神和范围的前提下，包括一个或多个其他部件或操作，或省略一个或多个其他部件或操作。

以上已经结合本发明的优选实施例示出了本发明，但是本领域的技术人员将会理解，在不脱离本发明的精神和范围的情况下，可以对本发明进行各种修改、替换和改变。因此，本发明不应由上述实施例来限定，而应由所附权利要求及其等价物来限定。

Claims

1.一种带过滤条件的排序方法，包括：

分析过滤条件并确定过滤条件是否有上限；

如果确定过滤条件无上限，则对数据进行全局排序，并基于过滤条件执行过滤；以及

如果确定过滤条件有上限，则提取上限，记为K，获取前K个数据并基于过滤条件执行过滤，K为整数。

2.根据权利要求1所述的方法，其中所述分析过滤条件并确定过滤条件是否有上限包括：

分析过滤条件是否与排序后数据的行号相关；

如果过滤条件与排序后数据的行号相关，且过滤条件所需数据量受到行号的限制，则确定有上限，将与过滤条件相关的行号中的最大行号值提取作为所述上限K，否则确定无上限。

3.根据权利要求1所述的方法，其中所述获取前K个数据包括：采用TopN算法来获取前K个数据。

4.根据权利要求1所述的方法，其中所述对数据进行全局排序包括：采用快速排序算法来对数据进行全局排序。

5.一种用于实现带过滤条件的排序方法的装置，包括：

过滤条件上限提取模块，配置为分析过滤条件并确定过滤条件是否有上限；

排序模块，配置为响应于确定过滤条件无上限对数据进行全局排序，而响应于确定过滤条件有上限，提取上限，记为K，并获取前K个数据；以及

过滤器，基于过滤条件对排序后的数据执行过滤，K为整数。

6.根据权利要求5所述的装置，其中所述过滤条件上限提取模块配置为：

分析过滤条件是否与排序后数据的行号相关；

7.根据权利要求5所述的装置，其中所述排序模块配置为：

采用TopN算法来获取前K个数据。

8.根据权利要求5所述的装置，其中所述排序模块还配置为：

采用快速排序算法来对数据进行全局排序。