CN113568940B

CN113568940B - 数据查询的方法、装置、设备以及存储介质

Info

Publication number: CN113568940B
Application number: CN202110892030.8A
Authority: CN
Inventors: 王岗; 刘伟; 张谦; 陈国梁
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-08-04
Filing date: 2021-08-04
Publication date: 2024-05-21
Anticipated expiration: 2041-08-04
Also published as: EP4109293A1; JP2022137281A; US20220358178A1; CN113568940A

Abstract

本公开提供了一种数据查询的方法、装置、设备以及存储介质，涉及计算机技术领域，尤其涉及智能搜索领域。具体实现方案为：根据数据查询请求，确定目标数据的提取位置；确定与提取位置对应的数据提取策略；根据数据提取策略，在提取位置提取目标数据，将目标数据作为数据查询结果。上述方案解决了现有深度分页机制中存在的系统开销过大以及实时性较差的技术问题。

Description

数据查询的方法、装置、设备以及存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及智能搜索领域。

背景技术

在特定的数据查询场景下，用户需要通过翻页实时查看任意页数据结果，整个过程需要后端查询系统在线实时响应。在数据量规模比较大的情况下，现有技术存在系统开销大、实时性较差以及不能支持跳页查询的问题，用户体验较差。

发明内容

本公开提供了一种用于数据查询的方法、装置、设备以及存储介质。

根据本公开的一方面，提供了一种数据查询的方法，该方法可以包括以下步骤：

根据数据查询请求，确定目标数据的提取位置；

确定与提取位置对应的数据提取策略；

根据数据提取策略，在提取位置提取目标数据，将目标数据作为数据查询结果。

根据本公开的另一方面，提供了一种数据查询的装置，该装置可以包括：

提取位置确定模块，用于根据数据查询请求，确定目标数据的提取位置；

提取策略确定模块，用于确定与提取位置对应的数据提取策略；

结果确定模块，用于根据数据提取策略，在提取位置提取目标数据，将目标数据作为数据查询结果。

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与该至少一个处理器通信连接的存储器；其中，

该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行本公开任一实施例中的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使计算机执行本公开任一实施例中的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现本公开任一实施例中的方法。

根据本公开的技术解决了现有深度分页机制中存在的系统开销过大以及实时性较差的技术问题，提升了数据查询的效率。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开查询的方法的流程图；

图2是根据本公开确定提取位置的流程图一；

图3是根据本公开确定提取策略的流程图一；

图4是根据本公开确定提取位置的流程图二；

图5是根据本公开确定提取策略的流程图二；

图6是根据本公开确定第一候选数据集合的流程图；

图7是根据本公开确定提取起点的流程图；

图8是根据本公开确定目标数据的流程图；

图9是根据本公开深度分页的逻辑流程图；

图10是根据本公开查询的装置的示意图；

图11是用来实现本公开实施例的查询的方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

如图1所示，本公开涉及一种数据查询的方法，该方法可以包括以下步骤：

S101：根据数据查询请求，确定目标数据的提取位置；

S102：确定与提取位置对应的数据提取策略；

S103：根据数据提取策略，在提取位置提取目标数据，将目标数据作为数据查询结果。

本实施例可以应用于服务端，服务端可以是具备数据查询功能的电子设备，例如平板电脑、智能手机等。

在用户在客户端查询数据时，服务端接收客户端发送来的数据查询请求，其中，查询请求可以包括客户端要查询的数据的要求，例如，查询请求可以包括关于查询结果的关键词，对查询结果进行排序的排序字段、查询数据的分页参数等。任何数据查询请求均可以用于本发明，此处不予限定。

当用户在服务端通过指定关键词及排序字段发起数据查询请求，能够通过翻页按照一定顺序实时查看对应的查询结果，即从查询请求对应的第一页结果开始，持续进行翻页浏览。当请求结果大于一定的页数，例如，数据查询请求对应的页码超过一定数量(例如1000页或者更多)时，可能产生深度分页问题。

服务端基于用户端发送的数据查询请求，将符合数据查询请求的目标数据返回给客户端。目标数据可以是目标结果页数据，包括符合数据查询请求的多条存储数据。具体而言，包括以下步骤：

首先，确定目标数据的提取位置。在高速缓冲存储器中存储有目标数据的情况下，可以将高速缓冲存储器作为目标数据的提取位置；否则，可以将主存储器作为目标数据的提取位置。

然后，确定与提取位置对应的数据提取策略。在以高速缓冲存储器作为目标数据的提取位置时，基于标识信息快速读取目标数据并作为对应的数据提取策略；在以主存储器作为目标数据的提取位置时，基于数据查询请求生成标识信息，进而基于标识信息提取目标数据。

最后，根据数据提取策略，在提取位置提取目标数据，将目标数据作为数据查询结果。

通过上述过程，基于数据查询请求，确定对应的数据提取位置及提取策略，如此能够在不同的提取位置中采取不同的提取策略来查询目标数据，解决现有深度分页机制中存在的系统开销过大以及实时性较差的技术问题。

如图2所示，在一种实施方式中，步骤S101可以包括以下子步骤：

S201：确定与查询请求对应的标识；

S202：基于标识，在高速缓冲存储器中搜索目标群组数据，目标群组数据包含目标数据；

S203：在高速缓冲存储器存储有目标群组数据的情况下，将高速缓冲存储器作为提取位置。

查询请求对应的标识可以是与客户端发送的查询请求唯一对应的字符串，举例来说，查询请求对应的标识可以是高速缓冲存储器中使用的会话标识(Session ID)。

其中，Session是指访问无状态的服务时使用的一种会话保持机制。当用户初次访问服务端时，服务端会为用户生成一个唯一的Session ID返回给用户，同时，服务端会在高速缓冲存储器中缓存该Session ID对应的Session数据并设置该Session数据的失效时间。当该用户再次访问服务端时，服务端会基于该用户携带的Session ID查找缓存记录，快速应答本次数据查询请求。

在一种实施方式中，确定与查询请求对应的标识，可以包括：

首先，基于查询请求计算目标数据对应的目标群组的序号；然后，基于查询请求及目标群组的序号，确定对应的标识。

数据查询请求可以包括查询关键词、排序字段、页码信息、页大小信息、页群组的数据容量信息等。

其中，排序字段可以是“时间”、“价格”等，此处不做穷举。

页码信息可以是用户希望调取的目标页对应的序号信息，取值可以为1，2，3，……，n(正整数)，此处不予限定。

页大小信息，即每个页面对应的存储数据条数，一般取10，也可以根据需要进行设定，此处不予限定。

页面群组的数据容量是指一个群组内对应的存储数据结果条数，例如将第1页至第100页作为一个页面群组，每页包含10条存储数据，则页面群组对应的数据容量为1000条，页面群组的数据容量还可以是5000条，10000条等，此处不予限定。

目标群组是包含目标数据的单位存取数据，目标群组的序号可以是用来标识包含目标数据的多个连续页对应的结果集合。例如，在第1页至第100页组成的页面群组的序号为1，第101页至第200页组成的页面群组的序号为2。对应的，第81页存储数据对应的目标群组的序号为1，第151页对应的目标群组的序号为2，其他页码信息对应的目标群组的序号不再穷举。

在一种实施方式中，基于查询请求，利用向上取整函数计算目标数据对应的目标群组的序号，计算过程见计算式(1)：

page_group_index＝CEIL((page_size*page_index)/(1.0*page_group_size))——计算式(1)

其中，page_group_index可以表示目标群组的序号，取值为1，2,3，……，n；page_size可以表示页大小，即每页结果条数，默认取值为10，也可以自定义赋值；page_index可以表示页码信息，取值为1，2,3，……，n；page_group_size可以表示页群组内结果总数。

举例来说，当page_size＝10，page_index＝205，page_group_size＝1000，此时，page_group_index＝CEIL((10*205)/(1.0*1000))＝2；

对应的目标群组的序号的计算方式还可以采用其他取整函数形式，例如向下取整函数等，此处不予限定。

在计算得到目标群组的序号后，进一步可以基于查询请求及目标群组的序号，确定对应的标识。具体来说，可以是基于查询请求中包含的参数信息以及目标群组的序号信息提取出一个有限长度的数字指纹作为对应的标识。例如，可以是基于哈希函数(hash)根据以下计算式(2)生成对应的标识，具体过程如下：

Session ID＝hash(query+sorted field+page_size+page_group_index+page_group_size)——计算式(2)

其中，query可以表示数据查询请求中所包含的关键词，sorted field可以表示数据查询请求中的排序字段，其他参数对应的含义可以参考上述计算式(1)对应的解释。

确定与查询请求对应的标识还可以采用其他散列函数形式，此处不予限定。

在得到查询请求对应的标识后，可以基于标识在高速缓冲存储器中搜索目标群组数据，目标群组数据包含目标数据。

服务端基于标识在高速缓冲存储器中查找缓存记录，可以快速应答本次数据查询请求。在一段时间内该标识对应的目标群组数据有历史查询记录，且该历史查询记录处于未失效状态的情况下，高速缓冲存储器存储有目标群组数据。

在高速缓冲存储器存储有目标群组数据的情况下，将高速缓冲存储器作为提取位置。服务端基于查询请求对应的标识，在高速缓冲存储器中提取查询请求对应的目标群组数据。进一步地，可以根据查询请求中包含的目标页码信息，在目标群组数据中提取目标数据。

通过上述过程，服务端可以基于查询请求对应的标识向高速缓冲存储器查找缓存记录，从而快速应答本次数据查询请求。

如图3所示，在一种实施方式中，在将高速缓冲存储器作为提取位置的情况下，步骤S102可以包括以下子步骤：

S301：获取数据查询请求中的目标页码信息；

S302：将基于目标页码信息在目标群组数据中提取目标数据的策略，作为数据提取策略。

例如，页大小(page_size)＝10，页码信息(page_index)＝205，页群组内结果总数(page_group_size)＝1000，此时对应的数据提取策略为，服务端基于查询请求对应的标识在高速缓冲存储器中快速读取到目标群组的序号(page_group_index)＝2对应的缓存记录，进一步地，服务端基于页码信息(page_index)＝205，在上述缓存记录中截取目标页码信息为205所对应的10条目标数据。

此时，若用户端随机跳页至261页，也就是说此时页码信息(page_index)＝261，此时目标数据与前次查询205页对应的目标数据同属于目标群组的序号(page_group_index)＝2对应的目标群组数据，此时对应的数据提取策略为服务端基于页码信息(page_index)＝261，在上述缓存记录中截取目标页码信息为261所对应的10条目标数据。

通过上述过程，在待查询目标数据与历史查询数据属于同一页群组的情况下，将基于目标页码信息在目标群组数据中提取目标数据的策略，支持客户端在高速缓冲存储器中随机跳页查询。

如图4所示，在一种实施方式中，步骤S101可以包括以下子步骤：

S401：确定与查询请求对应的标识；

S402：基于标识，在高速缓冲存储器中搜索目标群组数据，目标群组数据包含目标数据；

S403：在高速缓冲存储器未存储目标群组数据的情况下，将主存储器作为提取位置，主存储器包括N个存储分片，N为不小于1的整数。

其中，步骤S401及步骤S402与前述步骤相同，此处不再赘述。

高速缓冲存储器未存储有目标群组数据主要包括以下两种情况，在一段时间内，该标识对应的目标群组数据未出现历史查询记录；或者是出现过该标识对应的历史查询记录但该历史查询记录已处于失效状态。

在高速缓冲存储器未存储目标群组数据的情况下，将主存储器作为查询请求对应的提取位置，其中，主存储器可以对应于服务端后台索引模块，具体可以包括N个存储分片，N可以根据数据量情况取值1，2，3等不小于1的正整数，此处不做穷举。

存储分片(shard)为数据库相关的技术用语，可以将数据库对应的全量数据分成多个存储分片，分布到多个物理节点上，每个存储分片都有一个分片标识。

通过上述过程，在高速缓冲存储器未存储目标群组数据的情况下，将主存储器作为提取位置，使得服务端能够快速响应数据查询请求。

在一种实施方式中，如图5所示，在数据查询请求包括排序规则的情况下，步骤S102可以进一步包括以下子步骤：

S501：根据排序规则，对每个存储分片中的存储数据进行排序，得到排序结果；

S502：根据目标群组的参数信息，在每个存储分片的排序结果中进行存储数据的提取，得到N个第一候选数据集合；目标群组的参数信息包括目标群组的数据容量；

S503：合并N个第一候选数据集合中的存储数据，得到第二候选数据集合；

S504：将在第二候选数据集合中进行数据提取的策略，作为数据提取策略。

其中，数据查询请求中包含的排序规则包括排序字段及排序方式，具体而言，排序字段可以根据需要设置为时间字段、价格字段等，排序方式可以是升序排列或者降序排列，此处不予限定。

比如，用户在某购物网站进行查询过程中，对应的数据查询请求中可以包括关键词“上衣”，排序字段“价格”以及排序方式“升序”；再比如，用户在查询发表文章对应的评论信息时，相应的数据查询情况可以包括关键词“疫情”，排序字段“评论时间”以及排序方式“降序”，也就是将与“疫情”相关的评论信息按照评论时间由新及旧的方式进行排序。上述排序规则还可以根据需要进行其他设定，此处不做限定。

根据排序规则，对每个存储分片中的存储数据进行排序，得到排序结果。其中，存储数据对应的初始状态为，将根据查询请求中的关键词信息确定的多个存储数据随机存储至多个存储分片。根据排序规则对每个存储分片中的存储数据进行排序，得到排序后的存储分片作为排序结果。

举例来说，在查询评论信息的场景下，当数据查询请求中关键词信息为“疫情”时，假设此时对应的全量数据有1000万条时，可以将全量数据随机分成20个存储分片，每个存储分片对应50万条存储数据，然后以“评论时间”及“降序”作为排序规则，对每个存储分片中的50万条存储数据进行排序，得到排序结果。

存储分片的数量以及每个存储分片中存储数据的条数均可以根据需要进行相应的设置，此处不予限定。

在得到每个存储分片对应的排序结果后，根据目标群组的参数信息，在每个存储分片的排序结果中进行存储数据的提取，对应得到N个第一候选数据集合；目标群组的参数信息包括目标群组的数据容量。

其中，目标群组的参数信息可以包括目标群组的数据容量(page_group_size)以及目标群组的序号(page_group_index)等信息，此处不予限定。

举例来说，当数据查询请求中对应的page_group_size＝1000，那么在某一个排序后的存储分片中，通过选定提取起点，以提取起点对应的存储数据作为第一条数据内容，提取1000条存储数据作为该存储分片对应的第一候选数据集合。对N各存储分片执行相同的操作，得到N个第一候选数据集合。

然后获取N个存储分片的提取结果，合并N个第一候选数据集合中的存储数据，得到第二候选数据集合。最后基于数据查询请求中的目标页码信息，将在第二候选数据集合中进行数据提取的策略，作为数据提取策略。

通过上述过程，将主存储器划分为多个存储分片，每个存储分片最多只检索全量数据中的部分数据，由此可以大幅提升查询效率。

在一种实施方式中，如图6所示，步骤S502可以进一步包括：

S601：根据目标群组的参数信息，确定每个第一候选数据集合的数据提取起点；

S602：利用数据提取起点，提取预定数量的存储数据，将提取的结果作为对应的第一候选数据集合。

数据提取起点即对排序后的存储分片进行数据提取的第一条存储数据所处的位置，具体来说，数据提取起点可以在存储分片的起始位置，或者也可以是存储分片中的指定位置，此处不予限定。

预定数量可以是与目标群组的数据容量(page_group_size)相同的数量，此处不予限定。

通过上述过程，可以基于确定提取起点和预定数量，可以准确定位每个存储分片中的第一候选数据集合，减少系统资源消耗。

在一种实施方式中，如图7所示，步骤S601可以进一步包括以下子步骤：

S701：对于第i个第一候选数据集合，获取参数信息中的目标群组的序号；其中，1≤i≤N；

S702：在目标群组的序号大于1的情况下，利用高速缓冲存储器查询目标群组的前向相邻群组；

S703：利用前向相邻群组的最后一条存储数据的排序值，确定目标群组的首条存储数据的排序值；

S704：利用首条存储数据的排序值，确定第i个第一候选数据集合的提取起点。

通过获取参数信息中的目标群组的序号，确定第一候选数据集合的提取起点。在目标群组的序号大于1的情况下，可以通过高速缓冲存储器获取目标群组的前向相邻群组的最后一条存储数据的相关信息，以快速定位第一候选数据集合的提取起点。

具体而言，当基于数据查询请求对应的标识(Session ID)，在高速缓冲存储器中无法获取目标群组数据时，可以继续在高速缓冲存储器中查询目标群组数据的前向相邻群组(pre_page_group)数据。若查询成功，则可以利用高速缓冲存储器获取目标群组的前向相邻群组的最后一条存储数据，以确定第一候选数据集合的提取起点。其中，前向相邻群组即目标群组的前一个页面群组，前向相邻群组的序号可以利用以下计算式(3)进行计算，前向相邻群组标识可以利用以下计算式(4)进行计算：

pre_page_group_index＝page_group_index-1——计算式(3)；

pre_Session ID＝hash(query+sorted_field+page_size+pre_page_group_index+page_group_size)——计算式(4)；

其中，pre_page_group_index可以表示前向相邻群组的序号，pre_Session ID可以表示前向相邻群组标识，其他参数对应的含义可以参考上述计算式(1)和计算式(2)。

经过上述计算可以得到前向相邻群组的标识，具体计算过程见前述说明，此处不再赘述。基于前向相邻群组的标识，可以在高速缓冲存储器中查询并取出对应的最后一条存储数据。利用最后一条存储数据的排序值，确定目标群组的首条存储数据的排序值。

具体来说，由于所有数据均已经按排序规则进行了排序。例如，在前向相邻群组的最后一条存储数据的排序值为1000的情况下，根据目标群组的首条存储数据的排序值对应的位置，确定第一候选数据集合的提取起点。即，对应的，目标群组的条存储数据的排序值为1001。

在高速缓冲存储器中不存在前向相邻群组对应的存储数据的情况下，服务端从存储数据的起始位置进行遍历查询，具体过程不再赘述。

通过上述过程，可以基于高速缓冲存储器中的相关数据来定位第一候选数据集合的提取起点，避免了每次查询都从存储数据的起始位置开始遍历，大大减少了系统的资源消耗。

在一种实施方式中，对于第i个第一候选数据集合，在目标群组的序号等于1的情况下，以第i个存储分片的起始位置作为第i个第一候选数据集合的提取起点。

此时由于目标群组的序号为1，无需计算第一候选数据集合的提取起点，直接将存储分片中的第一条存储数据作为第一候选数据集合的提取起点。

在一种实施方式中，如图8所示，步骤S504可以进一步包括以下子步骤：

S801：根据排序规则，对第二候选数据集合中的存储数据进行排序，得到排序后的第二候选数据集合；

S802：根据目标群组的数据容量，在排序后的第二候选数据集合中进行存储数据筛选，将筛选结果写入高速缓冲存储器；

S803：数据提取的策略被配置为，获取数据查询请求中的目标页码信息，根据目标页码信息，在高速缓冲存储器中进行对应的目标数据提取。

对于第二候选数据集合中的存储数据而言，可以再次利用前述排序规则进行二次排序，得到排序后的第二候选数据集合。

仍以前述示例说明，关于数据查询请求对应的目标群组的数据容量(page_group_size)信息，取page_group_size＝1000。则在排序后的第二候选数据集合中进行存储数据提取前1000条存储数据，并写入高速缓冲存储器以便于后续数据查询时快速调取使用。

将提取结果写入高速缓冲存储器时可以设置相应的失效时间，其中，失效时间可以根据需要进行相应的设定，例如，1小时，1天，1周等，此处不做限定。

最后，根据数据查询请求中对应的目标页码信息，在高速缓冲存储器中提取目标页码对应的目标数据，并将此作为提取策略。仍以前述示例说明，当page_size＝10，page_index＝27，此时将提取结果中第27页对应的10条数据作为目标数据。

通过上述过程，通过将满足条件的提取结果存储到高速缓冲存储器，在提升数据查询的实时性的同时，降低了所占用的系统开销，以此满足高并发实时查询的需求。

在一种实施方式中，如图9所示，一种数据查询的方法包括以下步骤：

(1)用户基于客户端发起数据查询请求，请求参数可以包括：

query＝“疫情”；

sorted_field＝time_stamp；

page_index＝201；

page_size＝10；

page_group_size＝1000；

其中，query可以是查询关键词，time_stamp可以是存储数据对应的时间戳信息，sorted_field可以是排序字段，page_index可以是目标数据对应的目标页码信息，page_size可以是页大小信息，page_group_size可以是目标群组的数据容量。

(2)服务端基于用户输入的数据查询请求，计算目标数据对应的目标群组序号(page_group_index)以及目标群组对应的标识(Session ID)。

(3)基于Session ID向高速缓冲存储器请求读取目标群组对应的数据内容，如果存在，则查询结束；如果不存在，则判断目标群组序号(page_group_index)是否为1，若page_group_index＝1，则跳转至步骤(5)；

(4)当page_group_index>1，则基于目标群组对应的Session ID计算前向相邻群组对应的pre_Session ID，同时，基于pre_Session ID判断高速缓冲存储器中是否存储有前向相邻群组对应的存储数据，若不存在，则基于用户查询请求进行全量数据查询，若存在，则取出前向相邻群组中的最后一条存储数据。

(5)在page_group_index>1的情况下，根据前向相邻群组中的最后一条存储数据的排序值，快速定位到目标群组中的第一条存储数据，以此作为提取起点，连续提取预定数量条存储数据作为第一候选数据集合返回给聚合模块；

在page_group_index＝1的情况下，将目标群组的起始位置作为提取起点，连续提取预定数量条存储数据作为第一候选数据集合返回给聚合模块；

(6)聚合模块将多个第一候选数据集合的存储数据进行合并，然后基于排序规则对其进行二次排序。同时，提取预定数量的目标群组数据写入高速缓冲存储器并设置失效时间。

(7)基于提取到的目标群组数据以及目标页码信息，提取目标页码对应的目标数据并返回给客户端，查询结束。

如图10所示，本公开涉及一种数据查询的装置，该装置可以包括：

提取位置确定模块1001，用于根据数据查询请求，确定目标数据的提取位置；

提取策略确定模块1002，用于确定与提取位置对应的数据提取策略；

结果确定模块1003，用于根据数据提取策略，在提取位置提取目标数据，将目标数据作为数据查询结果。

在一种实施方式中，提取位置确定模块1001可以进一步包括：

标识确定子模块，用于确定与查询请求对应的标识；

搜索子模块，用于基于标识，在高速缓冲存储器中搜索目标群组数据，目标群组数据包含目标数据；

提取位置确定执行子模块，用于在高速缓冲存储器存储有目标群组数据的情况下，将高速缓冲存储器作为提取位置。

在一种实施方式中，提取策略确定模块1002可以进一步包括：

页码信息获取子模块，用于获取数据查询请求中的目标页码信息；

第一提取策略执行子模块，用于将基于目标页码信息在目标群组数据中提取目标数据的策略，作为数据提取策略。

在一种实施方式中，提取位置确定模块1001可以进一步包括：

标识确定子模块，用于确定与查询请求对应的标识；

提取位置确定执行子模块，用于在高速缓冲存储器未存储目标群组数据的情况下，将主存储器作为提取位置，主存储器包括N个存储分片，N为不小于1的整数。

在一种实施方式中，在数据查询请求包括排序规则的情况下，提取策略确定模块1002，包括：

排序子模块，用于根据排序规则，对每个存储分片中的存储数据进行排序，得到排序结果；

提取子模块，用于根据目标群组的参数信息，在每个存储分片的排序结果中进行存储数据的提取，得到N个第一候选数据集合；目标群组的参数信息包括目标群组的数据容量；

合并子模块，用于合并N个第一候选数据集合中的存储数据，得到第二候选数据集合；

第二提取策略执行子模块，用于将在第二候选数据集合中进行数据提取的策略，作为数据提取策略。

在一种实施方式中，提取子模块，包括：

提取起点确定子模块，用于根据目标群组的参数信息，确定每个第一候选数据集合的数据提取起点；

第一候选数据集合确定执行子模块，用于利用数据提取起点，提取预定数量的存储数据，将提取的结果作为第一候选数据集合。

在一种实施方式中，提取起点确定子模块，包括：

序号获取子模块，用于获取参数信息中的目标群组的序号；

数据获取子模块，用于在目标群组的序号大于1的情况下，利用高速缓冲存储器获取目标群组的前向相邻群组的最后一条存储数据；

排序值确定子模块，用于利用最后一条存储数据的排序值，确定目标群组的首条存储数据的排序值；

第一提取起点确定执行子模块，用于根据目标群组的首条存储数据的排序值对应的位置，确定第一候选数据集合的提取起点。

在一种实施方式中，提取起点确定子模块，包括：

第二提取起点确定执行子模块，用于在目标群组的序号等于1的情况下，以存储分片的起始位置作为第一候选数据集合的提取起点。

在一种实施方式中，第二提取策略执行子模块，包括：

存储数据排序子模块，用于根据排序规则对第二候选数据集合中的存储数据进行排序，得到排序后的第二候选数据集合；

存储数据提取子模块，用于根据目标群组的数据容量，在排序后的第二候选数据集合中进行存储数据提取，将提取结果写入高速缓冲存储器；

策略配置子模块，用于将数据提取的策略被配置为，根据目标页码信息，在高速缓冲存储器中进行对应的目标数据提取。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图11示出了可以用来实施本公开的实施例的示例电子设备1100的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图11所示，设备1100包括计算单元1101，其可以根据存储在只读存储器(ROM)1102中的计算机程序或者从存储单元1108加载到随机访问存储器(RAM)1103中的计算机程序，来执行各种适当的动作和处理。在RAM 1103中，还可存储设备1100操作所需的各种程序和数据。计算单元1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(I/O)接口1105也连接至总线1104。

设备1100中的多个部件连接至I/O接口1105，包括：输入单元1106，例如键盘、鼠标等；输出单元1107，例如各种类型的显示器、扬声器等；存储单元1108，例如磁盘、光盘等；以及通信单元1109，例如网卡、调制解调器、无线通信收发机等。通信单元1109允许设备1100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1101的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1101执行上文所描述的各个方法和处理，例如数据查询的方法。例如，在一些实施例中，数据查询的方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1108。在一些实施例中，计算机程序的部分或者全部可以经由ROM1102和/或通信单元1109而被载入和/或安装到设备1100上。当计算机程序加载到RAM 1103并由计算单元1101执行时，可以执行上文描述的数据查询的方法的一个或多个步骤。备选地，在其他实施例中，计算单元1101可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行数据查询的方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种数据查询的方法，包括：

根据数据查询请求，确定目标数据的提取位置；

确定与所述提取位置对应的数据提取策略；

根据所述数据提取策略，在所述提取位置提取所述目标数据，将所述目标数据作为数据查询结果；

所述根据数据查询请求，确定目标数据的提取位置，包括：

确定与所述查询请求对应的标识；

基于所述标识，在高速缓冲存储器中搜索目标群组数据，所述目标群组数据包含所述目标数据；

在所述高速缓冲存储器未存储所述目标群组数据的情况下，将主存储器作为所述提取位置，所述主存储器包括N个存储分片，N为不小于1的整数；

在所述数据查询请求包括排序规则的情况下，所述确定与所述提取位置对应的数据提取策略，包括：

根据所述排序规则，对每个所述存储分片中的存储数据进行排序，得到排序结果；

根据所述目标群组的参数信息，在每个所述存储分片的排序结果中进行存储数据的提取，得到N个第一候选数据集合；所述目标群组的参数信息包括所述目标群组的数据容量；

合并所述N个第一候选数据集合中的存储数据，得到第二候选数据集合；

将在所述第二候选数据集合中进行数据提取的策略，作为所述数据提取策略。

2.根据权利要求1所述的方法，

在所述高速缓冲存储器存储有所述目标群组数据的情况下，将所述高速缓冲存储器作为所述提取位置。

3.根据权利要求2所述的方法，若将所述高速缓冲存储器作为所述提取位置，则所述确定与所述提取位置对应的数据提取策略，包括：

获取所述数据查询请求中的目标页码信息；

将基于所述目标页码信息在所述目标群组数据中提取目标数据的策略，作为所述数据提取策略。

4.根据权利要求1所述的方法，其中，所述根据所述目标群组的参数信息，在每个所述存储分片的排序结果中进行存储数据的提取，得到N个第一候选数据集合，包括：

根据所述目标群组的参数信息，确定每个所述第一候选数据集合的数据提取起点；

利用所述数据提取起点，提取预定数量的存储数据，将提取的结果作为对应的所述第一候选数据集合。

5.根据权利要求4所述的方法，其中，所述根据所述目标群组的参数信息，确定每个所述第一候选数据集合的数据提取起点，包括：

对于第i个所述第一候选数据集合，获取所述参数信息中的目标群组的序号；其中，1≤i≤N；

在所述目标群组的序号大于1的情况下，利用所述高速缓冲存储器获取查询所述目标群组的前向相邻群组；

利用所述前向相邻群组的最后一条存储数据的排序值，确定所述目标群组的首条存储数据的排序值；

根据利用所述目标群组的首条存储数据的排序值对应的位置，确定第i个所述第一候选数据集合的提取起点。

6.根据权利要求4所述的方法，其中，所述根据所述目标群组的参数信息，确定每个所述第一候选数据集合的数据提取起点，包括：

对于第i个所述第一候选数据集合，在所述目标群组的序号等于1的情况下，以第i个所述存储分片的起始位置作为第i个所述第一候选数据集合的提取起点。

7.根据权利要求1、4-6任一所述的方法，其中，所述在所述第二候选数据集合中进行数据提取的策略，包括：

根据所述排序规则，对所述第二候选数据集合中的存储数据进行排序，得到排序后的第二候选数据集合；

根据所述目标群组的数据容量，在所述排序后的第二候选数据集合中进行存储数据提取筛选，将筛选提取结果写入所述高速缓冲存储器；

所述数据提取的策略被配置为，获取所述数据查询请求中的目标页码信息，根据所述目标页码信息，在所述高速缓冲存储器中进行对应的目标数据提取。

8.一种数据查询的装置，包括：

提取策略确定模块，用于确定与所述提取位置对应的数据提取策略；

结果确定模块，用于根据所述数据提取策略，在所述提取位置提取所述目标数据，将所述目标数据作为数据查询结果；

所述提取位置确定模块，包括：

标识确定子模块，用于确定与所述查询请求对应的标识；

搜索子模块，用于基于所述标识，在高速缓冲存储器中搜索目标群组数据，所述目标群组数据包含所述目标数据；

提取位置确定执行子模块，用于在所述高速缓冲存储器未存储所述目标群组数据的情况下，将主存储器作为所述提取位置，所述主存储器包括N个存储分片，N为不小于1的整数；

在所述数据查询请求包括排序规则的情况下，所述提取策略确定模块，包括：

排序子模块，用于根据所述排序规则，对每个所述存储分片中的存储数据进行排序，得到排序结果；

提取子模块，用于根据所述目标群组的参数信息，在每个所述存储分片的排序结果中进行存储数据的提取，得到N个第一候选数据集合；所述目标群组的参数信息包括所述目标群组的数据容量；

合并子模块，用于合并所述N个第一候选数据集合中的存储数据，得到第二候选数据集合；

第二提取策略执行子模块，用于将在所述第二候选数据集合中进行数据提取的策略，作为所述数据提取策略。

9.根据权利要求8所述的装置，

所述提取位置确定执行子模块，还用于在所述高速缓冲存储器存储有所述目标群组数据的情况下，将所述高速缓冲存储器作为所述提取位置。

10.根据权利要求9所述的装置，若将所述高速缓冲存储器作为所述提取位置，则所述提取策略确定模块，包括：

页码信息获取子模块，用于获取所述数据查询请求中的目标页码信息；

第一提取策略执行子模块，用于将基于所述目标页码信息在所述目标群组数据中提取目标数据的策略，作为所述数据提取策略。

11.根据权利要求8所述的装置，其中，所述提取子模块，包括：

提取起点确定子模块，用于根据所述目标群组的参数信息，确定每个所述第一候选数据集合的数据提取起点；

第一候选数据集合确定执行子模块，用于利用所述数据提取起点，提取预定数量的存储数据，将提取的结果作为对应的所述第一候选数据集合。

12.根据权利要求11所述的装置，所述提取起点确定子模块，包括：

序号获取子模块，用于对于第i个所述第一候选数据集合，获取所述参数信息中的目标群组的序号；其中，1≤i≤N；

数据获取子模块，用于在所述目标群组的序号大于1的情况下，利用所述高速缓冲存储器查询所述目标群组的前向相邻群组；

排序值确定子模块，用于利用所述前向相邻群组的最后一条存储数据的排序值，确定所述目标群组的首条存储数据的排序值；

第一提取起点确定执行子模块，用于利用所述首条存储数据的排序值，确定第i个所述第一候选数据集合的提取起点。

13.根据权利要求12所述的装置，所述提取起点确定子模块，包括：

第二提取起点确定执行子模块，用于对于第i个所述第一候选数据集合，在所述目标群组的序号等于1的情况下，以第i个所述存储分片的起始位置作为第i个所述第一候选数据集合的提取起点。

14.根据权利要求8、11-13任一所述的装置，其中，所述第二提取策略执行子模块，包括：

存储数据排序子模块，用于根据所述排序规则，对所述第二候选数据集合中的存储数据进行排序，得到排序后的第二候选数据集合；

存储数据提取子模块，用于根据所述目标群组的数据容量，在所述排序后的第二候选数据集合中进行存储数据筛选，将筛选结果写入所述高速缓冲存储器；

策略配置子模块，用于获取所述数据查询请求中的目标页码信息，根据所述目标页码信息，在所述高速缓冲存储器中进行对应的目标数据提取。

15.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的方法。

17.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-7中任一项所述的方法。