CN112328630B - 数据查询方法、装置、设备及存储介质 - Google Patents

数据查询方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112328630B
CN112328630B CN202011241196.5A CN202011241196A CN112328630B CN 112328630 B CN112328630 B CN 112328630B CN 202011241196 A CN202011241196 A CN 202011241196A CN 112328630 B CN112328630 B CN 112328630B
Authority
CN
China
Prior art keywords
data
array
target
ordering
query
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011241196.5A
Other languages
English (en)
Other versions
CN112328630A (zh
Inventor
黄元兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Huya Technology Co Ltd
Original Assignee
Guangzhou Huya Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Huya Technology Co Ltd filed Critical Guangzhou Huya Technology Co Ltd
Priority to CN202011241196.5A priority Critical patent/CN112328630B/zh
Publication of CN112328630A publication Critical patent/CN112328630A/zh
Application granted granted Critical
Publication of CN112328630B publication Critical patent/CN112328630B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • G06F16/24534Query rewriting; Transformation
    • G06F16/24542Plan optimisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24552Database cache management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Operations Research (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种数据查询方法、装置、设备及存储介质。该方法包括:响应于对数据集中前K个数据的查询,从数据集获取K个数据加入至第一数组中,所述查询与目标排序方式关联;对第一数组进行与目标排序方式匹配的排序,并获取第一数组中末位数据;根据末位数据,从数据集的剩余数据中获取至少一个关联排序数据加入至第二数组中,并使用第二数组更新第一数组;返回执行获取第一数组中末位数据的操作,直至完成对完整数据集的处理,并将当前更新的第一数组确定为查询结果。本发明实施例的技术方案,实现了一种新的数据查询方式,只使用两个数组就可以从大规模数据中快速查询到前K个数据,提高查询效率。

Description

数据查询方法、装置、设备及存储介质
技术领域
本发明实施例涉及数据处理技术领域,尤其涉及一种数据查询方法、装置、设备及存储介质。
背景技术
在互联网行业中,在海量数据中查询排序top-k的数据是常见的应用场景,并且数据查询速度直接影响到终端用户的用户体验,目前常用的top-k数据查询方式是采用堆排序算法。
但是,堆排序算法存在以下几个问题:1、插入新数据时可能导致堆随机遍历,内存空间跳跃大,缓存不友好,性能下降明显;2、输入数据如果反向有序,每次都会触发堆顶的弹出,算法复杂度急剧上升;3、堆的几个基本操作实现较复杂,部分语言库(例如C语言)不提供该组件或算法;4、某些库实现需要额外的内存空间。这些问题都会导致top-k数据查询性能下降,查询速度慢。
发明内容
本发明提供一种数据查询方法、装置、设备及存储介质,实现了一种新的数据查询方式,只使用两个数组就可以从大规模数据中快速查询到前K个数据,提高查询效率。
第一方面,本发明实施例提供了一种数据查询方法,包括:
响应于对数据集中前K个数据的查询,从数据集获取K个数据加入至第一数组中,查询与目标排序方式关联;
对第一数组进行与目标排序方式匹配的排序,并获取第一数组中末位数据;
根据末位数据,从数据集的剩余数据中获取至少一个关联排序数据加入至第二数组中,并使用第二数组更新第一数组;
返回执行获取第一数组中末位数据的操作,直至完成对完整数据集的处理,并将当前更新的第一数组确定为查询结果。
可选的,对第一数组进行与目标排序方式匹配的排序,包括:
采用快速排序算法,对第一数组进行与目标排序方式匹配的排序;以及
使用第二数组更新第一数组,包括:
采用快速排序算法,对第二数组进行与目标排序方式匹配的排序;
采用归并排序算法,使用排序后的第二数组更新第一数组。
可选的,采用归并排序算法,使用排序后的第二数组更新第一数组,包括:
根据第一数组和排序后的第二数组中的各项数据,在排序后的第二数组中确定目标替换数据,并采用归并排序算法,将目标替换数据更新替换至第一数组中。
可选的,在根据末位数据,从数据集的剩余数据中获取至少一个关联排序数据加入至第二数组中之前,还包括:
根据系统硬件信息和/或测试配置信息,确定目标数组长度,并根据目标数组长度,创建第二数组。
可选的,根据系统硬件信息和/或测试配置信息,确定目标数组长度,并根据目标数组长度,创建第二数组,包括:
根据K的取值,确定备选数组长度区间,以及与备选数组长度区间关联的缓存类型;
根据缓存类型中的空余缓存空间,在备选数组长度区间内确定目标数组长度,并在空余缓存空间中,创建目标数组长度的第二数组。
可选的,缓存类型包括:一级缓存以及二级缓存。
可选的,根据末位数据,从数据集的剩余数据中获取至少一个关联排序数据加入至第二数组中,包括:
从数据集的剩余数据中获取当前数据,并将当前数据与末位数据进行比对;
如果比对结果满足候选条件,则将当前数据存放至第二数组中;
返回执行从数据集的剩余数据中获取当前数据的操作,直至第二数组中存储的数据数量等于目标数组长度,或者当前数据为数据集的剩余数据中的最后一个数据。
可选的,如果比对结果满足候选条件,则将当前数据存放至第二数组中,包括:
如果目标排序方式为升序排序,且比对结果为当前数据小于末位数据,则确定比对结果满足候选条件,将当前数据存放至第二数组中;
如果目标排序方式为降序排序,且比对结果为当前数据大于末位数据,则确定比对结果满足候选条件,将当前数据存放至第二数组中。
可选的,根据第一数组和排序后的第二数组中的各项数据,在排序后的第二数组中确定目标替换数据,并采用归并排序算法,将目标替换数据更新替换至第一数组中,包括:
采用预定义的数据查找函数,在第一数组和排序后的第二数组的所有数据的前K个数据中,确定第一数组包括的数据数量为第一数量;
获取第一数组中前第一数量的数据作为目标保留数据,获取第二数组中前第二数量的数据作为目标替换数据,第二数量等于K与第一数量的差值;
采用归并排序算法,将目标替换数据更新替换至第一数组中,与目标保留数据归并排序。
第二方面,本发明实施例还提供了一种数据查询装置,包括:
获取模块,用于响应于对数据集中前K个数据的查询,从数据集获取K个数据加入至第一数组中,查询与目标排序方式关联;
排序模块,用于对第一数组进行与目标排序方式匹配的排序,并获取第一数组中末位数据;
更新模块,用于根据末位数据,从数据集的剩余数据中获取至少一个关联排序数据加入至第二数组中,并使用第二数组更新第一数组;
返回模块,用于返回执行获取第一数组中末位数据的操作,直至完成对完整数据集的处理,并将当前更新的第一数组确定为查询结果。
第三方面,本发明实施例还提供了一种电子设备,电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现本发明任意实施例提供的数据查询方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明任意实施例提供的数据查询方法。
本发明实施例中,通过响应于对数据集中前K个数据的查询,从数据集获取K个数据加入至第一数组中,查询与目标排序方式关联;对第一数组进行与目标排序方式匹配的排序,并获取第一数组中末位数据;根据末位数据,从数据集的剩余数据中获取至少一个关联排序数据加入至第二数组中,并使用第二数组更新第一数组;返回执行获取第一数组中末位数据的操作,直至完成对完整数据集的处理,并将当前更新的第一数组确定为查询结果,解决了现有技术中堆排序算法数据查询性能下降,查询速度慢的问题,实现了一种新的数据查询方式,只使用两个数组就可以从大规模数据中快速查询到前K个数据,简化了堆排序算法进行数据查询的流程,提高了数据查询效率,减少了内存的消耗。
附图说明
图1是本发明实施例一中的一种数据查询方法的流程图;
图2a是本发明实施例二中的一种数据查询方法的流程图;
图2b是本发明实施例二中的一种数据查询方法的实现流程图;
图2c是本发明实施例二中的数据查找函数和归并排序算法的代码示意图;
图2d是本发明实施例二中的一种top-K数据的查询代码示意图;
图3是本发明实施例三中的一种数据查询装置的结构示意图;
图4是本发明实施例四中的一种电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1是本发明实施例一中的一种数据查询方法的流程图,本实施例可适用于在大规模数据量中查询前K个数据的情况,该方法可以由数据查询装置来执行,该装置可以由硬件和/或软件来实现,并一般可以集成在提供前K个数据的查询服务的电子设备中,例如服务器中。如图1所示,该方法包括:
步骤110、响应于对数据集中前K个数据的查询,从数据集获取K个数据加入至第一数组中,查询与目标排序方式关联。
本实施例中,数据集可以是各场景下的待进行数据查询的数据,数据集中包括的数据数量远远大于K,对数据集中前K个数据的查询,即为从数据集包括的大量数据中选择排序前K的K个数据。示例性的,对数据集中前K个数据的查询,可以是从直播应用的几百万甚至几千万用户成绩中查询前100的用户成绩;或者,从海量服务器日志中搜索某种特征字符串,并按累计个数排序个数最多的前100个条目;或者,从用于数据挖掘的大量特征向量中,提取匹配程度最高的10条特征等等。
本实施例中,响应于对数据集中前K个数据的查询,获取对应的数据集以及目标查询方式,目标查询方式可以是升序排序或者降序排序,然后从数据集中按顺序获取K个数据加入至第一数组中,或者,也可以从数据集中随机获取K个数据加入至第一数组中,以便于后续进行数据查询。其中,第一数组的数组长度等于K,用于存储数据集中的前K个数据。
步骤120、对第一数组进行与目标排序方式匹配的排序,并获取第一数组中末位数据。
本实施例中,如果目标排序方式为升序排序,即从数据集中获取前K个最小数据,则采用相应的排序算法对第一数组中的数据进行升序排序,如果目标排序方式为降序排序,即从数据集中获取前K个最大的数据,则采用相应的排序算法对第一数组中的数组进行降序排序,然后,获取第一数组中的末位数据,以便于后续根据末位数据从数据集的剩余数据中筛选可能是前K的数据。
可选的,对第一数组进行与目标排序方式匹配的排序,可以包括:采用快速排序算法,对第一数组进行与目标排序方式匹配的排序。
本实施例中,考虑到编程语言中自带快速排序算法的基础库,无需用户自己实现,可以减少用户的工作量,并且对于无序数据集和有序数据集,快速排序算法的性能都较优,因此,采用快速排序算法对第一数组进行与目标排序方式匹配的排序。当然,也可以选择其它排序算法对第一数组进行排序。
步骤130、根据末位数据,从数据集的剩余数据中获取至少一个关联排序数据加入至第二数组中,并使用第二数组更新第一数组。
本实施例中,由于第一数组中的当前数据是数据集的部分数据中的前K个数据,并不是整个数据集中的前K个数据,为了能够从数据集的剩余数据中筛选出可能属于前K的数据,将第一数组中的末位数据与数据集中的各剩余数据进行比较,并将剩余数据中排序在末位数据之前的数据加入至第二数组中,使用第二数组对第一数组中的数据进行更新,即对数据集的前K数据进行更新。
可选的,使用第二数组更新第一数组,可以包括:采用快速排序算法,对第二数组进行与目标排序方式匹配的排序;采用归并排序算法,使用排序后的第二数组更新第一数组。
本实施例中,考虑到快速排序算法无需用户自己实现,并且采用分治思想进行数据排序性能较优,因此,对第二数组也使用快速排序算法进行与目标排序方式匹配的排序。当第一数组和第二数组都是有序数组时,为了找到这两个数组中的前K个数据,对第一数组和第二数组进行合并,即采用归并排序算法使用排序后的第二数组更新第一数组。
步骤140、返回执行获取第一数组中末位数据的操作,直至完成对完整数据集的处理,并将当前更新的第一数组确定为查询结果。
本实施例中,当第二数组中存放的数据数量等于第二数组的数组长度时,数据集中可能还有剩余数据,即当前第一数组中的数据并不是整个数据集中的前K个数据,此时,第一数组为有序数组,获取当前第一数组中的末位数据,清空第二数组,根据当前末位数据,从数据集的剩余数据中筛选出可能属于前K的数据并放入至第二数组中,根据第二数组更新第一数组,重复上述过程,直至完成对整个数据集的处理,此时第一数组中的数据即为整个数据集中的前K个数据。
本发明实施例中,通过响应于对数据集中前K个数据的查询,从数据集获取K个数据加入至第一数组中,查询与目标排序方式关联;对第一数组进行与目标排序方式匹配的排序,并获取第一数组中末位数据;根据末位数据,从数据集的剩余数据中获取至少一个关联排序数据加入至第二数组中,并使用第二数组更新第一数组;返回执行获取第一数组中末位数据的操作,直至完成对完整数据集的处理,并将当前更新的第一数组确定为查询结果,解决了现有技术中堆排序算法数据查询性能下降,查询速度慢的问题,实现了一种新的数据查询方式,只使用两个数组就可以从大规模数据中快速查询到前K个数据,简化了堆排序算法进行数据查询的流程,提高了数据查询效率,减少了内存的消耗。
实施例二
图2a是本发明实施例二中的一种数据查询方法的流程图,本实施例在上述实施例的基础上进一步细化,提供了构建和更新第二数组的具体步骤,以及采用归并排序算法,使用排序后的第二数组更新第一数组的具体步骤。下面结合图2a对本实施例提供的一种数据查询方法进行说明,包括以下步骤:
步骤210、响应于对数据集中前K个数据的查询,构建第一数组和第二数组,并从数据集获取K个数据加入至第一数组中。
本实施例中,如图2b所示,根据对输入的数据集中前K个数据的查询,可以确定数据集中包括的数据总量,K的取值以及目标排序方式。为了能够存放数据集中的前K个数据,构建数组长度等于数据总量的第一数组,并按顺序或者随机从数据集中获取K个数据加入至第一数组中,以选出数据集的部分数据中的前K个数据。可以根据K的取值构建第二数组,第二数组用于存放数据集的剩余数据中可能属于前K的候选数据,以便于后续根据第二数组中的候选数据更新整个数据集的前K个数据。
可选的,可以根据系统硬件信息和/或测试配置信息,确定目标数组长度,并根据目标数组长度,创建第二数组。
本实施例中,考虑到后续需要使用有序的第二数组更新第一数组,因此,为了充分利用硬件缓存排序性能好的特点,加快第二数组的数据排序速度,可以根据系统硬件信息和K的取值确定目标数组长度M,或者,也可以通过测试确定测试配置信息,进而根据测试配置信息确定目标数组长度M,然后构建数组长度为目标数组长度的第二数组。
可选的,根据系统硬件信息和/或测试配置信息,确定目标数组长度,并根据目标数组长度,创建第二数组,可以包括:根据K的取值,确定备选数组长度区间,以及与备选数组长度区间关联的缓存类型;根据缓存类型中的空余缓存空间,在备选数组长度区间内确定目标数组长度,并在空余缓存空间中,创建目标数组长度的第二数组。
本实施例中,可以根据K的取值大小,确定备选数组长度区间,即第二数组对应的目标数组长度的可能取值范围,例如,K取值为50,备选数组长度区间为150-250;K取值为150,备选数组长度区间为50-100。确定与该备选数组长度区间关联的中央处理器(CentralProcessing Unit,CPU)硬件缓存类型,根据缓存类型中的未被占用的空余缓存空间,在备选数组长度区间内选择适当的目标数组长度,以保证第二数组不会产生数据溢出,并且在空余缓存空间中,创建目标数组长度的第二数组。
可选的,缓存类型包括:一级缓存以及二级缓存。
本实施例中,CPU的缓存类型可以包括一级缓存和二级缓存,部分CPU甚至有三级缓存。每一级缓存中所储存的全部数据都是下一级缓存的一部分,当CPU要读取一个数据时,首先从一级缓存中查找,如果在一级缓存中没有找到该数据,再从二级缓存中查找,如果还是没有就从三级缓存或内存中查找。
本实施例中,如图2d所示的代码中,为了充分利用硬件缓存,提高数组的排序性能,加快数据排序速度,当K取值较小时,对应的备选数组长度区间可以设置的较大,以使CPU的二级缓存能够存放完整的第二数组;当K取值较大时,对应的备选数组长度区间可以设置的较小,以使CPU的一级缓存能够存放完整的第二数组。
步骤220、采用快速排序算法,对第一数组进行与目标排序方式匹配的排序,并获取第一数组中末位数据。
本实施例中,考虑到编程语言中自带快速排序算法的基础库,无需用户自己实现,可以减少用户的工作量,并且对于无序数据集和有序数据集,采用分治思想的快速排序算法的性能都较优,因此,可以采用快速排序算法对第一数组进行与目标排序方式匹配的排序,并获取排序后的第一数组中的末位数据,以便于后续根据末位数据从数据集的剩余数据中筛选可能是前K的数据。
步骤230、根据末位数据,从数据集的剩余数据中获取至少一个关联排序数据加入至第二数组中,并采用快速排序算法,对第二数组进行与目标排序方式匹配的排序。
本实施例中,关联排序数据是数据集的剩余数据中包括的可能位于整个数据集的前K的数据。如果剩余数据中有数据排序在末位数据之前,则该数据应该替换末位数据成为前K的数据,基于此,有必要将剩余数据中排序在末位数据之前的数据存放至第二数组中,并采用快速排序算法对第二数组进行与目标排序方式匹配的排序,以用于后续对当前第一数组中的前K数据进行更新。
可选的,根据末位数据,从数据集的剩余数据中获取至少一个关联排序数据加入至第二数组中,可以包括:从数据集的剩余数据中获取当前数据,并将当前数据与末位数据进行比对;如果比对结果满足候选条件,则将当前数据存放至第二数组中;返回执行从数据集的剩余数据中获取当前数据的操作,直至第二数组中存储的数据数量等于目标数组长度,或者当前数据为数据集的剩余数据中的最后一个数据。
本实施例中,如图2b所示,从数据集的剩余数据中筛选可能是前K的数据时,可以按照顺序获取剩余数据作为当前数据,然后将当前数据与末位数据进行比对,并将比对结果与目标排序方式对应的候选条件进行匹配,如果满足候选条件,则说明当前数据比末位数据更有可能在前K个数据中,因此将当前数据存放至第二数组中,如果此时第二数组没有放满,则返回执行从数据集的剩余数据中获取当前数据的操作,直至第二数组已放满或者数据集中没有剩余数据为止。
可选的,如果比对结果满足候选条件,则将当前数据存放至第二数组中,可以包括:如果目标排序方式为升序排序,且比对结果为当前数据小于末位数据,则确定比对结果满足候选条件,将当前数据存放至第二数组中;如果目标排序方式为降序排序,且比对结果为当前数据大于末位数据,则确定比对结果满足候选条件,将当前数据存放至第二数组中。
本实施例中,候选条件实际上是用于判断当前数据在整个数据集中的排序是否在末位数据之前。示例性的,假设当前数据为9,末位数据为7,如果目标排序方式为升序排序,即从数据集中选择前K个最小的数据,则由于当前数据大于末位数据,因此,当前数据在整个数据集中的排序在末位数据之后,无需将当前数据加入至第二数组中,可以更新当前数据,继续将新的当前数据与末位数据进行比对。如果目标排序方式为降序排序,即从数据集中选择前K个最大的数据,则由于当前数据大于末位数据,因此,当前数据在整个数据集中的排序在末位数据之前,需要将当前数据加入至第二数组中。
步骤240、采用归并排序算法,使用排序后的第二数组更新第一数组。
本实施例中,当第一数组和第二数组都有序时,可以采用归并排序算法将这两个有序数组进行合并,以找到这两个数组中的前K个数据,对第一数组进行更新。
可选的,采用归并排序算法,使用排序后的第二数组更新第一数组,可以包括:根据第一数组和排序后的第二数组中的各项数据,在排序后的第二数组中确定目标替换数据,并采用归并排序算法,将目标替换数据更新替换至第一数组中。
本实施例中,为了实现使用第二数组更新第一数组,先根据第一数组和排序后的第二数组中的各项数据,确定第二数组中用于更新第一数组的目标替换数据,即在第一数组和第二数组的所有数据的前K个数据中,第二数组中包括的前K数据,然后根据归并思想,将目标替换数据归并替换至第一数组中。
可选的,根据第一数组和排序后的第二数组中的各项数据,在排序后的第二数组中确定目标替换数据,并采用归并排序算法,将目标替换数据更新替换至第一数组中,可以包括:采用预定义的数据查找函数,在第一数组和排序后的第二数组的所有数据的前K个数据中,确定第一数组包括的数据数量为第一数量;获取第一数组中前第一数量的数据作为目标保留数据,获取第二数组中前第二数量的数据作为目标替换数据,第二数量等于K与第一数量的差值;采用归并排序算法,将目标替换数据更新替换至第一数组中,与目标保留数据归并排序。
本实施例中,采用预先定义的数据查找函数,例如,图2c所示的find_kth函数,找到在第一数组和第二数组的所有数据中排序第K的数据在第一数组中的下标值i,则第一数组中0-i下标对应的数据属于前K,即第一数组中前i+1个数据可以作为目标保留数据,相应地,第二数组中前K-i-1个数据属于两个数组的前K数据,可以作为目标替换数据。由于第一数组和第二数组的内存是连续的,因此,可以将目标替换数据替换更新至第一数组中,无需另外申请内存。
本实施例中,可以采用归并排序算法,例如,图2c所示的merge_array函数,将目标替换数据更新替换至第一数组中。示例性的,假设目标排序方式为升序排序,K=7,第一数组为[2,3,5,7,8,9,9],前4个为目标保留数据,第二数组为[1,4,6,8,9,10,11],前3个为目标替换数据,则将第一指针指向第一数组中的7,将第二指针指向第二数组中的6,将第一指针与第二指针所指向的数据进行比对,由于6<7,即6排序靠前,则将7加入至第一数组的最后一位中,将第一指针向前移动一位指向5。将第一指针与第二指针所指向的数据进行比对,由于5<6,即6排序靠后,则将6加入至第一数组的倒数第二位中,将第二指针向前移动一位。重复上述过程,直至第二数组中的数据被遍历为止。
步骤250、返回执行获取第一数组中末位数据的操作,直至完成对完整数据集的处理,并将当前更新的第一数组确定为查询结果。
本实施例中,通过结合快速排序算法和归并排序算法,实现了一种新的数据查询方式,在复杂度基本不变的情况下,只需两个数组,只需遍历一次数据集就可以快速地选出前K个数据,简化了现有的前K个数据的查询流程。并且,根据K的取值以及系统硬件信息确定第二数组的数组长度,使得第二数组完全在系统硬件缓存中,充分利用硬件缓存优势加快排序速度。使用第二数组更新替换第一数组时,无需额外申请内存,可以直接在第一数组中实现数据的归并排序,减少内存的占用。
本发明实施例中,响应于对数据集中前K个数据的查询,从数据集获取K个数据加入至第一数组中,查询与目标排序方式关联;对第一数组进行与目标排序方式匹配的排序,并获取第一数组中末位数据;根据末位数据,从数据集的剩余数据中获取至少一个关联排序数据加入至第二数组中,并使用第二数组更新第一数组;返回执行获取第一数组中末位数据的操作,直至完成对完整数据集的处理,并将当前更新的第一数组确定为查询结果,解决了现有技术中堆排序算法数据查询性能下降,查询速度慢的问题,实现了一种新的数据查询方式,只使用两个数组就可以从大规模数据中快速查询到前K个数据,简化了堆排序算法进行数据查询的流程,提高了数据查询效率,减少了内存的消耗。
实施例三
图3是本发明实施例三中的一种数据查询装置的结构示意图,本实施例可适用于在大规模数据量中查询前K个数据的情况,该装置可以由硬件和/或软件来实现,并一般可以集成在提供前K个数据的查询服务的电子设备中,例如服务器中。如图3所示,该装置包括:
获取模块310,用于响应于对数据集中前K个数据的查询,从数据集获取K个数据加入至第一数组中,查询与目标排序方式关联;
排序模块320,用于对第一数组进行与目标排序方式匹配的排序,并获取第一数组中末位数据;
更新模块330,用于根据末位数据,从数据集的剩余数据中获取至少一个关联排序数据加入至第二数组中,并使用第二数组更新第一数组;
返回模块340,用于返回执行获取第一数组中末位数据的操作,直至完成对完整数据集的处理,并将当前更新的第一数组确定为查询结果。
本发明实施例中,通过响应于对数据集中前K个数据的查询,从数据集获取K个数据加入至第一数组中,查询与目标排序方式关联;对第一数组进行与目标排序方式匹配的排序,并获取第一数组中末位数据;根据末位数据,从数据集的剩余数据中获取至少一个关联排序数据加入至第二数组中,并使用第二数组更新第一数组;返回执行获取第一数组中末位数据的操作,直至完成对完整数据集的处理,并将当前更新的第一数组确定为查询结果,解决了现有技术中堆排序算法数据查询性能下降,查询速度慢的问题,实现了一种新的数据查询方式,只使用两个数组就可以从大规模数据中快速查询到前K个数据,简化了堆排序算法进行数据查询的流程,提高了数据查询效率,减少了内存的消耗。
可选的,排序模块320,包括:第一排序单元,用于采用快速排序算法,对第一数组进行与目标排序方式匹配的排序;
更新模块330,包括:第二排序单元,用于采用快速排序算法,对第二数组进行与目标排序方式匹配的排序;归并单元,用于采用归并排序算法,使用排序后的第二数组更新第一数组。
可选的,归并单元,用于:根据第一数组和排序后的第二数组中的各项数据,在排序后的第二数组中确定目标替换数据,并采用归并排序算法,将目标替换数据更新替换至第一数组中。
可选的,还包括:数组创建模块,用于在根据末位数据,从数据集的剩余数据中获取至少一个关联排序数据加入至第二数组中之前,根据系统硬件信息和/或测试配置信息,确定目标数组长度,并根据目标数组长度,创建第二数组。
可选的,数组创建模块,用于:根据K的取值,确定备选数组长度区间,以及与备选数组长度区间关联的缓存类型;根据缓存类型中的空余缓存空间,在备选数组长度区间内确定目标数组长度,并在空余缓存空间中,创建目标数组长度的第二数组。
可选的,缓存类型包括:一级缓存以及二级缓存。
可选的,更新模块330,用于:从数据集的剩余数据中获取当前数据,并将当前数据与末位数据进行比对;如果比对结果满足候选条件,则将当前数据存放至第二数组中;返回执行从数据集的剩余数据中获取当前数据的操作,直至第二数组中存储的数据数量等于目标数组长度,或者当前数据为数据集的剩余数据中的最后一个数据。
可选的,更新模块330,用于:如果目标排序方式为升序排序,且比对结果为当前数据小于末位数据,则确定比对结果满足候选条件,将当前数据存放至第二数组中;如果目标排序方式为降序排序,且比对结果为当前数据大于末位数据,则确定比对结果满足候选条件,将当前数据存放至第二数组中。
可选的,归并单元,用于:采用预定义的数据查找函数,在第一数组和排序后的第二数组的所有数据的前K个数据中,确定第一数组包括的数据数量为第一数量;获取第一数组中前第一数量的数据作为目标保留数据,获取第二数组中前第二数量的数据作为目标替换数据,第二数量等于K与第一数量的差值;采用归并排序算法,将目标替换数据更新替换至第一数组中,与目标保留数据归并排序。
本发明实施例所提供的数据查询装置可执行本发明任意实施例所提供的数据查询方法,具备执行方法相应的功能模块和有益效果。
实施例四
图4是本发明实施例四公开的一种电子设备的结构示意图。图4示出了适于用来实现本发明实施方式的示例性电子设备12的框图。图4显示的电子设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图4所示,电子设备12以通用计算设备的形式表现。电子设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
电子设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存。电子设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图4未显示,通常称为“硬盘驱动器”)。尽管图4中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
电子设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该电子设备12交互的设备通信,和/或与使得该电子设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,电子设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与电子设备12的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的数据查询方法。
也即:实现一种数据查询方法,包括:
响应于对数据集中前K个数据的查询,从数据集获取K个数据加入至第一数组中,查询与目标排序方式关联;
对第一数组进行与目标排序方式匹配的排序,并获取第一数组中末位数据;
根据末位数据,从数据集的剩余数据中获取至少一个关联排序数据加入至第二数组中,并使用第二数组更新第一数组;
返回执行获取第一数组中末位数据的操作,直至完成对完整数据集的处理,并将当前更新的第一数组确定为查询结果。
实施例五
本发明实施例五还公开了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现一种数据查询方法,包括:
响应于对数据集中前K个数据的查询,从数据集获取K个数据加入至第一数组中,查询与目标排序方式关联;
对第一数组进行与目标排序方式匹配的排序,并获取第一数组中末位数据;
根据末位数据,从数据集的剩余数据中获取至少一个关联排序数据加入至第二数组中,并使用第二数组更新第一数组;
返回执行获取第一数组中末位数据的操作,直至完成对完整数据集的处理,并将当前更新的第一数组确定为查询结果。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是,但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,程序设计语言包括面向对象的程序设计语言,诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言,诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (12)

1.一种数据查询方法,其特征在于,包括:
响应于对数据集中前K个数据的查询,从数据集获取K个数据加入至第一数组中,所述查询与目标排序方式关联;
对第一数组进行与目标排序方式匹配的排序,并获取第一数组中末位数据;
根据末位数据,从数据集的剩余数据中获取至少一个关联排序数据加入至第二数组中,并使用第二数组更新第一数组;
返回执行获取第一数组中末位数据的操作,直至完成对完整数据集的处理,并将当前更新的第一数组确定为查询结果;
所述根据末位数据,从数据集的剩余数据中获取至少一个关联排序数据加入至第二数组中,包括:
将所述第一数组中的末位数据与所述数据集中的各剩余数据进行比较,并将所述剩余数据中排序在所述末位数据之前的数据加入至所述第二数组中;
所述使用第二数组更新第一数组,包括:
采用快速排序算法,对第二数组进行与目标排序方式匹配的排序;
采用归并排序算法,使用排序后的第二数组更新第一数组。
2.根据权利要求1所述的方法,其特征在于,对第一数组进行与目标排序方式匹配的排序,包括:
采用快速排序算法,对第一数组进行与目标排序方式匹配的排序。
3.根据权利要求2所述的方法,其特征在于,采用归并排序算法,使用排序后的第二数组更新第一数组,包括:
根据所述第一数组和所述排序后的第二数组中的各项数据,在所述排序后的第二数组中确定目标替换数据,并采用归并排序算法,将目标替换数据更新替换至第一数组中。
4.根据权利要求1所述的方法,其特征在于,在根据末位数据,从数据集的剩余数据中获取至少一个关联排序数据加入至第二数组中之前,还包括:
根据系统硬件信息和/或测试配置信息,确定目标数组长度,并根据目标数组长度,创建第二数组。
5.根据权利要求4所述的方法,其特征在于,根据系统硬件信息和/或测试配置信息,确定目标数组长度,并根据目标数组长度,创建第二数组,包括:
根据K的取值,确定备选数组长度区间,以及与所述备选数组长度区间关联的缓存类型;
根据所述缓存类型中的空余缓存空间,在所述备选数组长度区间内确定目标数组长度,并在所述空余缓存空间中,创建所述目标数组长度的第二数组。
6.根据权利要求5所述的方法,其特征在于,所述缓存类型包括:一级缓存以及二级缓存。
7.根据权利要求1所述的方法,其特征在于,根据末位数据,从数据集的剩余数据中获取至少一个关联排序数据加入至第二数组中,包括:
从数据集的剩余数据中获取当前数据,并将所述当前数据与所述末位数据进行比对;
如果比对结果满足候选条件,则将所述当前数据存放至第二数组中;
返回执行从数据集的剩余数据中获取当前数据的操作,直至所述第二数组中存储的数据数量等于目标数组长度,或者所述当前数据为所述数据集的剩余数据中的最后一个数据。
8.根据权利要求7所述的方法,其特征在于,如果比对结果满足候选条件,则将所述当前数据存放至第二数组中,包括:
如果目标排序方式为升序排序,且比对结果为所述当前数据小于所述末位数据,则确定比对结果满足候选条件,将所述当前数据存放至第二数组中;
如果目标排序方式为降序排序,且比对结果为所述当前数据大于所述末位数据,则确定比对结果满足候选条件,将所述当前数据存放至第二数组中。
9.根据权利要求3所述的方法,其特征在于,根据所述第一数组和所述排序后的第二数组中的各项数据,在所述排序后的第二数组中确定目标替换数据,并采用归并排序算法,将目标替换数据更新替换至第一数组中,包括:
采用预定义的数据查找函数,在所述第一数组和所述排序后的第二数组的所有数据的前K个数据中,确定第一数组包括的数据数量为第一数量;
获取所述第一数组中前第一数量的数据作为目标保留数据,获取所述第二数组中前第二数量的数据作为目标替换数据,所述第二数量等于K与第一数量的差值;
采用归并排序算法,将目标替换数据更新替换至第一数组中,与目标保留数据归并排序。
10.一种数据查询装置,其特征在于,包括:
获取模块,用于响应于对数据集中前K个数据的查询,从数据集获取K个数据加入至第一数组中,所述查询与目标排序方式关联;
排序模块,用于对第一数组进行与目标排序方式匹配的排序,并获取第一数组中末位数据;
更新模块,用于根据末位数据,从数据集的剩余数据中获取至少一个关联排序数据加入至第二数组中,并使用第二数组更新第一数组;
返回模块,用于返回执行获取第一数组中末位数据的操作,直至完成对完整数据集的处理,并将当前更新的第一数组确定为查询结果;
所述更新模块具体用于:
将所述第一数组中的末位数据与所述数据集中的各剩余数据进行比较,并将所述剩余数据中排序在所述末位数据之前的数据加入至所述第二数组中;
所述更新模块,包括:
第二排序单元,用于采用快速排序算法,对第二数组进行与目标排序方式匹配的排序;
归并单元,用于采用归并排序算法,使用排序后的第二数组更新第一数组。
11.一种电子设备,其特征在于,所述电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-9中任一项所述的数据查询方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-9中任一项所述的数据查询方法。
CN202011241196.5A 2020-11-09 2020-11-09 数据查询方法、装置、设备及存储介质 Active CN112328630B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011241196.5A CN112328630B (zh) 2020-11-09 2020-11-09 数据查询方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011241196.5A CN112328630B (zh) 2020-11-09 2020-11-09 数据查询方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN112328630A CN112328630A (zh) 2021-02-05
CN112328630B true CN112328630B (zh) 2023-10-13

Family

ID=74317101

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011241196.5A Active CN112328630B (zh) 2020-11-09 2020-11-09 数据查询方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112328630B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113947397A (zh) * 2021-03-09 2022-01-18 同济大学 统一移动支付平台的对账方法、系统、存储介质及终端

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106951531A (zh) * 2017-03-21 2017-07-14 东软集团股份有限公司 数据查询方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8275803B2 (en) * 2008-05-14 2012-09-25 International Business Machines Corporation System and method for providing answers to questions

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106951531A (zh) * 2017-03-21 2017-07-14 东软集团股份有限公司 数据查询方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于Flink框架的TopN堆排序优化算法;关沫;魏碧晴;;信息技术与网络安全(第02期);全文 *

Also Published As

Publication number Publication date
CN112328630A (zh) 2021-02-05

Similar Documents

Publication Publication Date Title
CN107247808B (zh) 一种分布式NewSQL数据库系统及图片数据查询方法
US10114908B2 (en) Hybrid table implementation by using buffer pool as permanent in-memory storage for memory-resident data
US10282439B2 (en) Storing and querying multidimensional data using first and second indicies
US10592532B2 (en) Database sharding
US7779016B2 (en) Parallel execution of operations for a partitioned binary radix tree on a parallel computer
US11537578B2 (en) Paged column dictionary
US20150227535A1 (en) Caseless file lookup in a distributed file system
CN111177476B (zh) 数据查询方法、装置、电子设备及可读存储介质
CN104731896A (zh) 一种数据处理方法及系统
US20190179933A1 (en) Generating sub-indexes from an index to compress the index
US20120150864A1 (en) Text indexing for updateable tokenized text
CN113760839A (zh) 日志数据压缩处理方法、装置、电子设备和存储介质
US9213759B2 (en) System, apparatus, and method for executing a query including boolean and conditional expressions
CN112328630B (zh) 数据查询方法、装置、设备及存储介质
CN110222046B (zh) 列表数据的处理方法、装置、服务器和存储介质
CN108897819B (zh) 一种数据搜索方法和装置
CN115878824B (zh) 图像检索系统、方法和装置
CN107341221B (zh) 索引结构的建立、关联检索方法、装置、设备及存储介质
CN111352837A (zh) 一种生物信息学高性能计算平台的测试方法
CN111290714A (zh) 数据读取方法和装置
CN110737678A (zh) 一种数据查找方法、装置、设备和存储介质
CN115495504A (zh) 数据查询方法和装置、电子设备、计算机可读存储介质
CN114385891A (zh) 数据搜索方法、装置、电子设备及存储介质
CN111782834A (zh) 图像检索的方法、装置、设备及计算机可读存储介质
CN106776772B (zh) 一种数据检索的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant