CN116028699A

CN116028699A - 数据查询方法、装置及电子设备

Info

Publication number: CN116028699A
Application number: CN202211676121.9A
Authority: CN
Inventors: 石岩松; 陈俊
Original assignee: China Telecom Satellite Communication Branch
Current assignee: China Telecom Satellite Communication Branch
Priority date: 2022-12-26
Filing date: 2022-12-26
Publication date: 2023-04-28

Abstract

本发明公开了一种数据查询方法、装置及电子设备。其中，该方法包括：获取查询词，其中，查询词用于确定当前数据集中的待查询数据；基于查询词，在当前数据集对应的采样池中进行数据查询，得到采样查询结果，其中，采样查询结果包括采样池中与查询词匹配的至少一个目标采样文档；利用采样查询结果，从当前数据集对应的聚类结果中确定待查询主题数据段，其中，聚类结果包括多个数据分片，多个数据分片的每个数据分片包含至少一个主题数据段；基于查询词，在待查询主题数据段中进行数据查询，得到目标查询结果。本发明解决了相关技术提供的数据查询方法其资源消耗大、结果误差大、查询速度慢的技术问题。

Description

数据查询方法、装置及电子设备

技术领域

本发明涉及大数据领域，具体而言，涉及一种数据查询方法、装置及电子设备。

背景技术

搜素引擎是大数据技术的重要应用工具，其主要通过计算查询和文档之间的相似度得分来检索相关数据。由于用户通常只关注检索结果集中一定排名内的文档是否符合预期，且用户对检索速度与检索结果的误差有着较高的要求，因此，减小搜索引擎的查询响应时间、提高系统吞吐量及搜索结果的相关度对于提升用户的体验十分重要。

现有技术中，Elastic-Search(简称ES)是基于Lucene(一种开源的全文检索引擎工具包)的开源的搜索引擎，通过REST API(也称RESTful API，一种遵循表述性状态转移架构规范的应用程序编程接口)以分布式方式对海量数据执行操作。然而，该搜索引擎系统存在的问题有：

(1)由于每个索引由一个或多个分片组成，分片可以分布在不同的节点上，因此，在查询时，存在着网络带宽消耗大和系统负载开销高的问题，并且，当服务器压力剧增时，可能导致查询超时、系统稳定性差；

(2)由于搜索引擎整个数据集以索引的形式切分为分片并分配到各个数据节点，在查询时，往往查询索引的所有分片并对各分片的返回结果进行汇总和重排，再加上数据分布具有随机性，因此，当预期最优的查询结果恰好分布在没有被查询到的分片上，会导致搜索结果存在较大误差；

(3)由于ES会定期对分片进行更新，在更新分片时，需要进行跨大量分片的搜索，因此，会导致系统吞吐量低、搜索速度慢、集群不稳定。

为了解决上述问题，现有技术通常采用关闭服务、限流、策略降级等方法，显然，现有技术提供的方法大大降低了用户的使用体验。

由上可知，针对上述数据查询方法其资源消耗大、结果误差大、搜索速度慢的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种数据查询方法、装置及电子设备，以至少解决相关技术提供的数据查询方法其资源消耗大、结果误差大、查询速度慢的技术问题。

根据本发明实施例的一个方面，提供了一种数据查询方法，包括：

获取查询词，其中，查询词用于确定当前数据集中的待查询数据；基于查询词，在当前数据集对应的采样池中进行数据查询，得到采样查询结果，其中，采样查询结果包括采样池中与查询词匹配的至少一个目标采样文档；利用采样查询结果，从当前数据集对应的聚类结果中确定待查询主题数据段，其中，聚类结果包括多个数据分片，多个数据分片的每个数据分片包含至少一个主题数据段；基于查询词，在待查询主题数据段中进行数据查询，得到目标查询结果。

可选地，对当前数据集进行随机采样，得到采样池，其中，采样池包括多个候选采样文档；对当前数据集中的多个文档进行语义聚类，得到聚类结果。

可选地，基于查询词，在当前数据集对应的采样池中进行数据查询，得到采样查询结果包括：对查询词与采样池中的多个候选采样文档进行匹配度计算，得到匹配次序；基于匹配次序，从候选采样文档中选取采样查询结果中的至少一个目标采样文档。

可选地，对当前数据集中的多个文档进行语义聚类，得到聚类结果包括：利用文档语义模型，对当前数据集中多个文档的每个文档进行特征提取，得到多个文档中每个文档的特征向量，其中，文档语义模型为利用注意力机制基于当前数据集进行离线训练得到的神经网络模型；基于特征向量，对当前数据集进行语义聚类，得到聚类结果。

可选地，基于特征向量，对当前数据集进行语义聚类，得到聚类结果包括：基于多个文档中每个文档的特征向量，利用预设聚类算法对当前数据集中的多个文档进行语义聚类，得到多个主题数据段，其中，多个主题数据段中每个主题数据段的主题质心与一个语义聚类中心相对应；对多个主题数据段进行分片组合，得到聚类结果中的多个数据分片。

可选地，利用文档语义模型对当前数据集的新增文档进行特征提取，提取新增文档的特征向量；基于新增文档的特征向量与多个主题数据段中每个主题数据段的主题质心之间的特征距离，从多个主题数据段中确定待添加主题数据段；将新增文档添加至待添加主题数据段。

可选地，将新增文档添加至添加主题数据段包括：将新增文档和对应的从属信息写入当前数据集的缓冲区，其中，从属信息用于描述新增文档对应的待添加主题数据段以及待添加主题数据段所属的待添加数据分片；根据从属信息，将新增文档合并至待添加数据分片中的待添加主题数据段。

可选地，利用采样查询结果，从当前数据集对应的聚类结果中确定待查询主题数据段包括：从聚类结果中确定采样查询结果中的每个目标采样文档所属的候选主题数据段；基于采样查询结果和匹配次序，对候选主题数据段进行加权投票，得到投票结果；响应于投票结果满足预设条件，根据投票结果确定待查询主题数据段。

根据本发明实施例的另一方面，还提供了一种数据查询装置，包括：

获取模块，用于获取查询词，其中，查询词用于确定当前数据集中的待查询数据；第一查询模块，用于基于查询词，在当前数据集对应的采样池中进行数据查询，得到采样查询结果，其中，采样查询结果包括采样池中与查询词匹配的至少一个目标采样文档；确定模块，用于利用采样查询结果，从当前数据集对应的聚类结果中确定待查询主题数据段，其中，聚类结果包括多个数据分片，多个数据分片的每个数据分片包含至少一个主题数据段；第二查询模块，用于基于查询词，在待查询主题数据段中进行数据查询，得到目标查询结果。

可选地，上述数据查询方法还包括：聚类模块，用于对当前数据集进行随机采样，得到采样池，其中，采样池包括多个候选采样文档；对当前数据集中的多个文档进行语义聚类，得到聚类结果。

可选地，上述第一查询模块还用于：基于查询词，在当前数据集对应的采样池中进行数据查询，得到采样查询结果包括：对查询词与采样池中的多个候选采样文档进行匹配度计算，得到匹配次序；基于匹配次序，从候选采样文档中选取采样查询结果中的至少一个目标采样文档。

可选地，上述聚类模块还用于：对当前数据集中的多个文档进行语义聚类，得到聚类结果包括：利用文档语义模型，对当前数据集中多个文档的每个文档进行特征提取，得到多个文档中每个文档的特征向量，其中，文档语义模型为利用注意力机制基于当前数据集进行离线训练得到的神经网络模型；基于特征向量，对当前数据集进行语义聚类，得到聚类结果。

可选地，上述聚类模块还用于：基于特征向量，对当前数据集进行语义聚类，得到聚类结果包括：基于多个文档中每个文档的特征向量，利用预设聚类算法对当前数据集中的多个文档进行语义聚类，得到多个主题数据段，其中，多个主题数据段中每个主题数据段的主题质心与一个语义聚类中心相对应；对多个主题数据段进行分片组合，得到聚类结果中的多个数据分片。

可选地，上述聚类模块还用于：利用文档语义模型对当前数据集的新增文档进行特征提取，提取新增文档的特征向量；基于新增文档的特征向量与多个主题数据段中每个主题数据段的主题质心之间的特征距离，从多个主题数据段中确定待添加主题数据段；将新增文档添加至待添加主题数据段。

可选地，上述聚类模块还用于：将新增文档添加至添加主题数据段包括：将新增文档和对应的从属信息写入当前数据集的缓冲区，其中，从属信息用于描述新增文档对应的待添加主题数据段以及待添加主题数据段所属的待添加数据分片；根据从属信息，将新增文档合并至待添加数据分片中的待添加主题数据段。

可选地，上述确定模块还用于：利用采样查询结果，从当前数据集对应的聚类结果中确定待查询主题数据段包括：从聚类结果中确定采样查询结果中的每个目标采样文档所属的候选主题数据段；基于采样查询结果和匹配次序，对候选主题数据段进行加权投票，得到投票结果；响应于投票结果满足预设条件，根据投票结果确定待查询主题数据段。

根据本发明实施例的另一方面，还提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行前述任一项的数据查询方法。

在本发明实施例中，首先获取查询词，其中，查询词用于确定当前数据集中的待查询数据，接着基于查询词，在当前数据集对应的采样池中进行数据查询，得到采样查询结果，其中，采样查询结果包括采样池中与查询词匹配的至少一个目标采样文档，再利用采样查询结果，从当前数据集对应的聚类结果中确定待查询主题数据段，其中，聚类结果包括多个数据分片，多个数据分片的每个数据分片包含至少一个主题数据段，最后，基于查询词，在待查询主题数据段中进行数据查询，得到目标查询结果，通过离线聚类、组合分片、在线查询的方式，达到了降低网络和系统负载、保证检索效果的目的，从而实现了减小系统的资源消耗、减小查询结果的误差、提高查询速度的技术效果，进而解决了相关技术提供的数据查询方法其资源消耗大、结果误差大、查询速度慢技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据现有技术的一种数据查询方法的示意图；

图2是根据本发明实施例的一种数据查询方法的示意图；

图3是根据本发明实施例的一种数据查询方法的流程图；

图4是根据本发明实施例的一种可选的数据存储的示意图；

图5是根据本发明实施例的一种可选的数据查询方法的流程图；

图6是根据本发明实施例的一种可选的数据查询方法离线过程的流程图；

图7是根据本发明实施例的一种可选的数据查询方法在线过程的流程图；

图8是根据本发明实施例的一种可选的数据查询方法的系统架构的示意图；

图9是根据本发明实施例的一种可选的数据查询方法的系统层次的示意图；

图10是根据本发明实施例的一种车辆灯光控制装置的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

图1是根据现有技术的一种数据查询方法的示意图，如图1所示，现有技术中，ES的节点分为数据节点、索引节点、查询节点三类。数据节点主要负责分片数据的存储、倒排查询、求交、求并、排序，整个数据集以索引的形式切分为分片，分配到各个数据节点；索引节点接收数据的更新，做预处理并根据路由算法发往指定的分片写入；查询节点将查询语句发往该索引的所有分片并对各分片的返回结果进行汇总和重排。

依然如图1所示，现有技术中，在查询时，将查询请求发送给所有节点检索，存在着大量的网络带宽消耗和系统负载开销；在数据更新时，由于Lucene内部维护一个数据缓冲区，每隔一段时间，ES执行一次刷新操作，将缓冲区数据写入到一个新的段并清空缓冲区，并且，每个索引和分片都需要一些内存和CPU资源，每个分片在单个CPU(CentralProcessing Unit，中央处理器)线程上运行搜索，由于数据更新时存在跨大量分片的搜索，可能会耗尽节点的搜索线程池，从而导致吞吐量低、搜索速度慢及集群不稳定。

为了解决上述问题，本发明实施例提供了一种数据查询方法，图2是根据本发明实施例的一种数据查询方法的示意图，如图2所示，本发明实施例通过训练并维护一个全局的语义模型，基于语义模型对数据集进行聚类，利用ES索引的分层机制，将聚类主题划分为单独分片。在查询时，可以选择若干最相关的分片进行查询，以减少需要参与查询的分片数量，从而降低网络和系统负载。此外，在数据更新时，索引节点对增量数据进行预处理，基于语义模型，将数据路由至对应分片，而不需要对所有的分片进行查询，从而降低了搜索过程的响应时间和负载。

本发明实施例提供了一种数据查询方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图3是根据本发明实施例的一种数据查询方法的流程图，如图3所示，该方法包括如下步骤：

步骤S31，获取查询词，其中，查询词用于确定当前数据集中的待查询数据；

上述步骤S31提供的一种可选方案中，上述查询词可以包括一个或多个关键词，该关键词可以是但不限于：数据、流行词、表达式，并且，上述查询词可以用于表征用户的查询需求。可以理解的是，上述当前数据集是指搜索引擎当前包含的数据集，该数据集可以不断进行更新，以提高搜索结果的相关度。此处还需要说明的是，上述待查询数据可以是上述当前数据集中与上述查询词对应的数据。

具体地，例如，用户在搜索引擎中输入查询词“北京大学排名”，点击查询后，搜索引擎在系统当前数据集中查询并匹配关键词“北京大学”对应的排名数据，进而输出一条或多条包含查询词的待查询数据，用户可以从待查询数据中获取所需信息。

步骤S32，基于查询词，在当前数据集对应的采样池中进行数据查询，得到采样查询结果，其中，采样查询结果包括采样池中与查询词匹配的至少一个目标采样文档；

上述步骤S32提供的一种可选方案中，上述采样池可以是上述当前数据集中与上述查询词相关的数据集。此处还需要说明的是，该采样池可以是预先离线生成的采样池，具体地，在离线状态下，基于上述查询词或相关查询词的历史查询结果，可以形成上述查询词对应的数据集，从而解决了在线生成采样池导致的资源消耗大、查询速度慢的技术问题，进而提升了用户的使用体验。

上述步骤S32提供的一种可选方案中，还需要说明的是，上述至少一个目标采样文档可以是包含上述查询词中的部分或全部关键词的采样文档，也可以是未包含上述查询词但与上述查询词相关的一个或多个采样文档。容易理解的是，基于上述至少一个目标采样文档与上述查询词的相关度大小，上述采样查询结果可以为上述至少一个目标采样文档进行相关度排名，从而便于用户获取与查询词最相关的查询信息。

具体地，例如，用户在搜索引擎中输入查询词“北京大学排名”，在搜素引擎的数据集中存在与该查询词相关的采样池，该采样池中可以包括但不限于：仅包含北京大学的排名结果的采样文档、包含所有大学排名数据的采样文档、包含北京大学不同专业排名的采样文档。在点击查询后，搜索引擎可以将对应的查询结果按照相关度由高到低进行排名并呈现给用户，例如，将相关度较高的上述仅包含北京大学的排名结果的采样文档置于查询结果的首位，而将相关度较低的上述包含所有大学排名数据的采样文档置于查询结果的靠后位置，从而便于用户快速找到期望的查询结果，进而提升了用户的使用体验。

步骤S33，利用采样查询结果，从当前数据集对应的聚类结果中确定待查询主题数据段，其中，聚类结果包括多个数据分片，多个数据分片的每个数据分片包含至少一个主题数据段；

上述步骤S33提供的一种可选方案中，上述聚类结果可以是基于语义模型对上述当前数据集进行离线聚类得到的结果。此处还需要说明的是，在离线状态下，基于语义模型，对上述当前数据集进行预处理，具体地，提取每篇文档的文档向量，基于聚类算法(如kmeans算法)将文档向量划分为多个主题，并将主题作为单个或多个主题数据段，再将主题数据段组合成数据分片，写入索引，从而得到聚类结果。

上述步骤S33提供的一种可选方案中，还需要说明的是，上述多个数据分片中的每个数据分片可以由一个或多个主题数据段组合而成，该多个数据分片因聚类主题的不同而相对独立，在查询时，基于与上述查询词最相近的主题，可以查询对应的数据分片，因此，可以避免查询过多数据分片导致的调度开销大的技术问题，从而既能减小查询结果的误差，也能减小资源消耗、提高查询速度。

步骤S34，基于查询词，在待查询主题数据段中进行数据查询，得到目标查询结果。

上述步骤S34提供的一种可选方案中，上述待查询数据段可以是与上述查询词相关的一个或多个主题数据段。可以理解的是，在查询时，可以对查询词对应的主题数据段进行投票排名，选择一个或多个最优主题数据段，基于该最优主题数据段，对对应的数据分片进行查询，可以得到上述目标查询结果，该目标查询结果可以包括上述查询词对应的一条或多条数据。

以下结合图4、图5对上述数据查询方法进行进一步说明。

图4是根据本发明实施例的一种可选的数据存储的示意图，在ES数据存储中，索引文件对应的数据集以索引的形式切分为多个分片(即上述数据分片)，每个索引对应一个或多个段(即上述主题数据段)，因此，在查询时，基于索引可以确定一个或多个段，进而可以在系统中选择对应的分片，而不需要查询索引文件中的所有分片，从而既减小了查询结果的误差，又减小了系统资源消耗、提高了查询速度，进而提升了用户的使用体验。

图5是根据本发明实施例的一种可选的数据查询方法的流程图，如图5所示，为了减小系统的资源消耗，系统可以离线实现语义聚类，具体地，离线状态下，系统可以提取数据集中的语义特征，进而根据聚类策略，对数据集进行主题聚类，并将数据集划分为多个分片，以便查询时从中匹配查询结果。

依然如图5所示，用户在线查询时，输入查询词，系统对输入的查询词进行语义提取，并对查询词在抽样中的查询结果进行分片排序，接着，按照分片选择策略，确定查询词对应的最优主题数据段，进一步地，基于离线状态下生成的分片结果，数据节点从中查询与最优主题数据段对应的分片，并汇总最优主题数据段的查询结果。

下面对本发明上述实施例的上述方法进行进一步介绍。

在一种可选的实施例中，上述数据查询方法还包括：

步骤S35，可选地，对当前数据集进行随机采样，得到采样池，其中，采样池包括多个候选采样文档；

步骤S36，对当前数据集中的多个文档进行语义聚类，得到聚类结果。

本发明提供的可选方案中，在离线状态下，维护一个预训练的模型，该模型可以是但不限于：BERT模型，使用系统中的当前数据集对模型进行微调，接着，对数据集进行随机采样，将多个候选采样文档组合成采样池，其中，该多个候选采样文档可以对应当前数据集中的多个主题，基于该多个主题，可以对多个候选采样文档进行语义聚类，从而得到多个主题的聚类结果。

在一种可选的实施例中，在步骤S32中，基于查询词，在当前数据集对应的采样池中进行数据查询，得到采样查询结果包括：

步骤S321，对查询词与采样池中的多个候选采样文档进行匹配度计算，得到匹配次序；

步骤S322，基于匹配次序，从候选采样文档中选取采样查询结果中的至少一个目标采样文档。

本发明提供的可选方案中，在线查询时，基于输入的查询词，计算查询词与采样池中的多个候选采样文档的匹配度，进而基于匹配度，对采样文档进行排名，得到匹配次序，其中，该匹配次序可以是按照匹配度由高到低排序的。进一步地，基于采样文档的匹配次序，可以选取匹配度最高的采样文档作为目标采样文档。

在上述可选的实施方式中，可以达到的技术效果是：基于查询词，从系统中确定匹配的采样文档，并确定二者的匹配度，从而便于用户从中选择期望的查询结果，进而提高了查询结果与查询词的相关度、提升了用户的使用体验。

在一种可选的实施方式中，在步骤S36中，对当前数据集中的多个文档进行语义聚类，得到聚类结果包括：

步骤S361，利用文档语义模型，对当前数据集中多个文档的每个文档进行特征提取，得到多个文档中每个文档的特征向量，其中，文档语义模型为利用注意力机制基于当前数据集进行离线训练得到的神经网络模型；

步骤S362，基于特征向量，对当前数据集进行语义聚类，得到聚类结果。

上述步骤S361提供的可选方案中，上述文档语义模型可以用于对搜索引擎中的数据集进行预训练，该文档语义模型可以包括但不限于：BERT模型、TFIDF模型、RNN模型、LSTM模型。

以下结合图6对上述数据查询方法进行进一步说明。

图6是根据本发明实施例的一种可选的数据查询方法离线过程的流程图，如图6所示，基于搜索引擎中的现有文档，可以建立语义模型，该语义模型可以为基于下述公式(1)所示的注意力机制的神经网络模型：

此处还需要说明的是，该神经网络模型可以由12层Transformers编码器组成，每层隐藏大小为768。对于包含n个特征标记的文档，对文档进行特征提取后，可以得到n个维数为768的特征向量，并且，文档中所有单词的输出向量可以排列成一个大小为n×768的矩阵。基于该特征向量，可以对现有文档进行语义聚类。

在一种可选的实施方式中，在步骤S362中，基于特征向量，对当前数据集进行语义聚类，得到聚类结果包括：

步骤S3621，基于多个文档中每个文档的特征向量，利用预设聚类算法对当前数据集中的多个文档进行语义聚类，得到多个主题数据段，其中，多个主题数据段中每个主题数据段的主题质心与一个语义聚类中心相对应；

步骤S3622，对多个主题数据段进行分片组合，得到聚类结果中的多个数据分片。

上述步骤S3621提供的可选方案中，上述预设聚类算法可以包括但不限于：kmeans算法、dbscan算法。上述主题质心可以对应于上述多个主题数据段的一个语义聚类中心，可以用于划分数据分片。

依然如图6所示，假设按照kmeans算法对每个文档的特征向量进行语义聚类，首先将文档划分为k个主题，记录并存储主题质心。具体地，通过下述公式(2)所示的最小化目标函数将数据集下述公式(3)所示的数据集x＝{x₁,x₂,,x_N}分为k类：

x＝{x₁,x₂,…,x_n} 公式(3)

在上述公式(2)、公式(3)中，目标函数J是数据点x_n和质心μ_k的平方和，通过下述公式(4)、公式(5)所示的计算方法来最小化目标函数。

依然如图6所示，在对搜索引擎中的数据集进行上述语义聚类后，将主题作为单个或多个主题数据段，并将该单个或多个主题数据段组合成l个数据分片(l≤k)，写入ES索引。

在上述可选的实施方式中，可以达到的技术效果是：在离线状态下，利用语义模型与聚类算法，对搜索引擎中的现有数据集进行语义聚类，从而便于在线查询时，基于查询词，快速、准确地匹配对应的数据分片，进而提高了查询结果与查询词的相关度、提升了用户的使用体验。

在一种可选的实施方式中，上述步骤S362提供的数据查询方法还包括：

步骤S3623，利用文档语义模型对当前数据集的新增文档进行特征提取，提取新增文档的特征向量；

步骤S3624，基于新增文档的特征向量与多个主题数据段中每个主题数据段的主题质心之间的特征距离，从多个主题数据段中确定待添加主题数据段；

步骤S3625，将新增文档添加至待添加主题数据段。

上述步骤S3623提供的可选方案中，上述新增文档可以是上述查询词对应的更新文档，该更新文档中可以包括该查询词对应的增量数据。

依然如图6所示，当搜索引擎中的数据集进行更新时，基于上述文档语义模型，提取新增文档的特征向量，基于上述公式(2)，确定新增文档的特征向量与每个主题数据段的主题质心的特征距离，将特征距离最小的主题数据段确定为待添加主题数据段，进一步地，将新增文档添加至待添加主题数据段，得到更新后的数据集。

在一种可选的实施方式中，在步骤S3625中，将新增文档添加至添加主题数据段包括：

步骤S36251，将新增文档和对应的从属信息写入当前数据集的缓冲区，其中，从属信息用于描述新增文档对应的待添加主题数据段以及待添加主题数据段所属的待添加数据分片；

步骤S36252，根据从属信息，将新增文档合并至待添加数据分片中的待添加主题数据段。

依然如图6所示，当基于新增文档的特征向量，确定新增文档的最优主题数据段之后，记录并存储新增文档及对应的从属信息，基于该从属信息中包含的路由信息，将新增文档对应的待添加主题数据段添加至目标数据分片，并将新增文档的信息写入分片缓冲区，系统定期刷新分片缓冲区，创建新的主题数据段，同时，系统定期执行主题数据段合并，以将新的主题数据段并入现有主题数据段，基于更新后的主题数据段，系统可以定期重建索引。此外，基于更新后的数据集，系统可以重新进行语义聚类，以更新系统数据。

在上述可选的实施方式中，可以达到的技术效果是：在离线状态下，利用语义模型与聚类算法，对搜索引擎中的现有数据集进行语义聚类并及时进行更新，从而便于在线查询时，基于查询词，快速、准确地匹配最新的查询结果，进而提高了查询结果与查询词的相关度、提升了用户的使用体验。同时，将主题数据段组合成大的数据分片，减小了数据分片的占用资源，提高了系统的查询速度与集群的稳定性。

在一种可选的实施方式中，在步骤S33中，利用采样查询结果，从当前数据集对应的聚类结果中确定待查询主题数据段包括：

步骤S331，从聚类结果中确定采样查询结果中的每个目标采样文档所属的候选主题数据段；

步骤S332，基于采样查询结果和匹配次序，对候选主题数据段进行加权投票，得到投票结果；

步骤S333，响应于投票结果满足预设条件，根据投票结果确定待查询主题数据段。

作为本发明上述实施方式的其中一种具体实现方式，将上述实施方式应用于大数据技术领域下的新闻搜索应用场景中，以该场景为例，以图7、图8和图9所示的数据查询过程对本发明的上述可选实施方式提供的数据查询方法进行进一步说明。

图7是根据本发明实施例的一种可选的数据查询方法在线过程的流程图，如图7所示，用户在线查询时，输入查询词，系统首先对查询词进行预处理，该预处理过程可以包括但不限于：分词、去标点，接着，获取查询词在分片抽样中的查询结果。其中，该分片抽样过程用于确定查询词对应的样本文档。

具体地，基于查询的采样方法，获取各主题数据段的描述信息，从查询日志随机选取a个查询作为初始查询词，在每轮检索中，将每个集合返回的检索结果的前b个文档加入到样本集合，并从样本集文档中随机抽取1个关键词加入候选查询词。当样本集中的文档数量大于或等于所有集合总文档数的3％时停止抽样。

依然如图7所示，基于查询词，从分片抽样得到的样本文档中获取对应的采样查询结果，进一步地，基于分片选择策略，从中选择一个或多个最优主题数据段。查询节点将查询信息广播至数据节点，接着，数据节点对系统中的数据分片进行查询，在查询过程中，可以基于查询信息跳过未选的主题数据段。具体地，如图4所示，当查询词对应的查询分片为“子分片1-2”时，由于查询信息中仅包含“子分片1-2”相关的信息，因此，在查询时，可以跳过“子分片1-1”等数据分片，从而减小了查询的响应时间、提高了查询速度。

依然如图7所示，数据节点可以汇总主题数据段的查询结果，并由查询节点汇总数据分片的查询结果，从而得到查询词对应的查询结果。具体地，针对采样池，首先对查询结果集中的文档进行排名，基于排名次序，对所属的主题数据段进行投票，每个排名的投票得分过程可以如下述公式(6)所示：

S(i)＝D^-h×V_i 公式(6)

在上述公式(6)中，V_i代表样本查询结果的评分，D代表可选参数，h代表查询结果的排名，每个排名的投票权重指数呈现递减趋势。当投票得分小于预设阈值时，投票停止，基于当前的投票结果，可以确定查询词对应的目标主题数据段。

在上述可选的实施方式中，可以达到的技术效果是：在线查询时，可以基于语义聚类结果，从中匹配候选主题数据段，并基于查询结果的排名情况对查询结果进行投票，最终可以确定与查询词最相关的主题数据段，从而提高了查询结果与查询词的相关度、提升了查询速度。

图8是根据本发明实施例的一种可选的数据查询方法的系统架构的示意图，如图8所示，系统管理平台包括监控配置、分片配置、策略配置，该系统管理平台可以为ES集群提供调度服务。增量数据对应于一系列用于执行数据更新任务的任务队列，可以为ES集群提供预处理服务。当用户在线查询时，输入查询词，可以发起查询服务，ES集群可以完成查询服务并输出查询结果。此外，系统的预处理服务、调度服务、语义模型服务可以离线完成语义聚类。

图9是根据本发明实施例的一种可选的数据查询方法的系统层次的示意图，如图9所示，配置层包括监控配置、分片配置、策略配置三部分，其中，监控配置负责监控当前系统的流量负载等信息，可以根据历史负载情况判定分片的分布，使负载分布较为均匀，以及根据负载情况动态启用或停用降级策略；分片配置可以用于确定当前主题段数据的分配情况和分片情况；策略配置可以用于确定当前抽样库选择情况和算法参数配置。

依然如图9所示，服务层包括预处理服务、查询服务、语义模型服务、调度服务，用于以微服务的形式封装周边功能模块。其中，预处理服务可以用于进行文档和查询词的预处理、请求语义模型服务获得文档向量以及对模型进行微调；查询服务可以用于创建DSL(Domain-Specific Language，领域特定语言)和请求查询节点返回结果；语义模型服务可以用于深度学习模型的封装和调用；调度服务可以用于负责与配置平台的交互和定期重分配的触发操作；

依然如图9所示，语义层包括特征提取、文档聚类、分片选择三部分，便于系统对文档语义进行理解，其中，特征提取可以用于在语义聚类时提取文档的特征；文档聚类可以用于基于聚类算法将文档进行聚类；分片选择可以用于在线查询时判断查询词对应的数据分片和主题数据段。

依然如图9所示，索引层包括主题段合并、文档重分配、分片抽样三部分，其中，主题段合并可以用于在更新数据时，将新的主题数据段合并成整段；文档重分配可以用于定期重建索引；分片抽样可以用于确定查询词对应的样本文档，便于进一步确定查询词的查询结果。

在上述可选的实施方式中，可以达到的技术效果是：(1)在应急场景下，可以采用分布式搜索系统对负载进行优化，通过离线聚类使同类数据呈现空间局部性分布，从而减小搜索结果的误差；(2)利用分段结构，将主题数据段组合成大的数据分片，减小了数据分片的占用资源，保证了数据分片的正常调度与集群的稳定性；(3)通过离线抽样对主题分布进行建模，动态确定查询数据分片的内容和数量，从而解决了分片选择的问题；(4)通过模型微调和重新聚类，实现了自适应更新语义模型，保证了数据集的实时性。

在本实施例中，还提供了一种数据查询装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，属于“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图10是根据本发明实施例的一种车辆灯光控制装置的结构框图，如图10所示，该装置包括：

获取模块1001，用于获取查询词，其中，查询词用于确定当前数据集中的待查询数据；

第一查询模块1002，用于基于查询词，在当前数据集对应的采样池中进行数据查询，得到采样查询结果，其中，采样查询结果包括采样池中与查询词匹配的至少一个目标采样文档；

确定模块1003，用于利用采样查询结果，从当前数据集对应的聚类结果中确定待查询主题数据段，其中，聚类结果包括多个数据分片，多个数据分片的每个数据分片包含至少一个主题数据段；

第二查询模块1004，用于基于查询词，在待查询主题数据段中进行数据查询，得到目标查询结果。

可选地，上述数据查询方法还包括：聚类模块1005，用于对当前数据集进行随机采样，得到采样池，其中，采样池包括多个候选采样文档；对当前数据集中的多个文档进行语义聚类，得到聚类结果。

可选地，上述第一查询模块1002还用于：基于查询词，在当前数据集对应的采样池中进行数据查询，得到采样查询结果包括：对查询词与采样池中的多个候选采样文档进行匹配度计算，得到匹配次序；基于匹配次序，从候选采样文档中选取采样查询结果中的至少一个目标采样文档。

可选地，上述聚类模块1005还用于：对当前数据集中的多个文档进行语义聚类，得到聚类结果包括：利用文档语义模型，对当前数据集中多个文档的每个文档进行特征提取，得到多个文档中每个文档的特征向量，其中，文档语义模型为利用注意力机制基于当前数据集进行离线训练得到的神经网络模型；基于特征向量，对当前数据集进行语义聚类，得到聚类结果。

可选地，上述聚类模块1005还用于：基于特征向量，对当前数据集进行语义聚类，得到聚类结果包括：基于多个文档中每个文档的特征向量，利用预设聚类算法对当前数据集中的多个文档进行语义聚类，得到多个主题数据段，其中，多个主题数据段中每个主题数据段的主题质心与一个语义聚类中心相对应；对多个主题数据段进行分片组合，得到聚类结果中的多个数据分片。

可选地，上述聚类模块1005还用于：利用文档语义模型对当前数据集的新增文档进行特征提取，提取新增文档的特征向量；基于新增文档的特征向量与多个主题数据段中每个主题数据段的主题质心之间的特征距离，从多个主题数据段中确定待添加主题数据段；将新增文档添加至待添加主题数据段。

可选地，上述聚类模块1005还用于：将新增文档添加至添加主题数据段包括：将新增文档和对应的从属信息写入当前数据集的缓冲区，其中，从属信息用于描述新增文档对应的待添加主题数据段以及待添加主题数据段所属的待添加数据分片；根据从属信息，将新增文档合并至待添加数据分片中的待添加主题数据段。

可选地，上述确定模块1003还用于：利用采样查询结果，从当前数据集对应的聚类结果中确定待查询主题数据段包括：从聚类结果中确定采样查询结果中的每个目标采样文档所属的候选主题数据段；基于采样查询结果和匹配次序，对候选主题数据段进行加权投票，得到投票结果；响应于投票结果满足预设条件，根据投票结果确定待查询主题数据段。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

可选地，在本实施例中，上述存储器可以被设置为用于执行以下步骤的程序：

步骤S1，获取查询词，其中，查询词用于确定当前数据集中的待查询数据；

步骤S2，基于查询词，在当前数据集对应的采样池中进行数据查询，得到采样查询结果，其中，采样查询结果包括采样池中与查询词匹配的至少一个目标采样文档；

步骤S3，利用采样查询结果，从当前数据集对应的聚类结果中确定待查询主题数据段，其中，聚类结果包括多个数据分片，多个数据分片的每个数据分片包含至少一个主题数据段；

步骤S4，基于查询词，在待查询主题数据段中进行数据查询，得到目标查询结果。

可选地，在本实施例中，上述存储器可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

可选地，在本实施例中，上述处理器可以被设置为用于执行以下步骤的程序：

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本发明所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种数据查询方法，其特征在于，包括：

获取查询词，其中，所述查询词用于确定当前数据集中的待查询数据；

基于所述查询词，在所述当前数据集对应的采样池中进行数据查询，得到采样查询结果，其中，所述采样查询结果包括所述采样池中与所述查询词匹配的至少一个目标采样文档；

利用所述采样查询结果，从所述当前数据集对应的聚类结果中确定待查询主题数据段，其中，所述聚类结果包括多个数据分片，所述多个数据分片的每个数据分片包含至少一个主题数据段；

基于所述查询词，在所述待查询主题数据段中进行数据查询，得到目标查询结果。

2.根据权利要求1所述的数据查询方法，其特征在于，所述方法还包括：

对所述当前数据集进行随机采样，得到所述采样池，其中，所述采样池包括多个候选采样文档；

对所述当前数据集中的多个文档进行语义聚类，得到所述聚类结果。

3.根据权利要求2所述的数据查询方法，其特征在于，基于所述查询词，在所述当前数据集对应的所述采样池中进行数据查询，得到采样查询结果包括：

对所述查询词与所述采样池中的所述多个候选采样文档进行匹配度计算，得到匹配次序；

基于所述匹配次序，从所述候选采样文档中选取所述采样查询结果中的至少一个目标采样文档。

4.根据权利要求2所述的数据查询方法，其特征在于，对所述当前数据集中的多个文档进行语义聚类，得到所述聚类结果包括：

利用文档语义模型，对所述当前数据集中多个文档的每个文档进行特征提取，得到所述多个文档中每个文档的特征向量，其中，所述文档语义模型为利用注意力机制基于所述当前数据集进行离线训练得到的神经网络模型；

基于所述特征向量，对所述当前数据集进行语义聚类，得到所述聚类结果。

5.根据权利要求4所述的数据查询方法，其特征在于，基于所述特征向量，对所述当前数据集进行语义聚类，得到所述聚类结果包括：

基于所述多个文档中每个文档的特征向量，利用预设聚类算法对所述当前数据集中的所述多个文档进行语义聚类，得到多个主题数据段，其中，所述多个主题数据段中每个主题数据段的主题质心与一个语义聚类中心相对应；

对所述多个主题数据段进行分片组合，得到所述聚类结果中的所述多个数据分片。

6.根据权利要求5所述的数据查询方法，其特征在于，所述方法还包括：

利用所述文档语义模型对所述当前数据集的新增文档进行特征提取，提取所述新增文档的特征向量；

基于所述新增文档的特征向量与所述多个主题数据段中每个主题数据段的主题质心之间的特征距离，从所述多个主题数据段中确定待添加主题数据段；

将所述新增文档添加至所述待添加主题数据段。

7.根据权利要求6所述的数据查询方法，其特征在于，将所述新增文档添加至所述添加主题数据段包括：

将所述新增文档和对应的从属信息写入所述当前数据集的缓冲区，其中，所述从属信息用于描述所述新增文档对应的所述待添加主题数据段以及所述待添加主题数据段所属的待添加数据分片；

根据所述从属信息，将所述新增文档合并至所述待添加数据分片中的所述待添加主题数据段。

8.根据权利要求3所述的数据查询方法，其特征在于，利用所述采样查询结果，从所述当前数据集对应的聚类结果中确定待查询主题数据段包括：

从所述聚类结果中确定所述采样查询结果中的每个目标采样文档所属的候选主题数据段；

基于所述采样查询结果和所述匹配次序，对所述候选主题数据段进行加权投票，得到投票结果；

响应于所述投票结果满足预设条件，根据所述投票结果确定所述待查询主题数据段。

9.一种数据查询装置，其特征在于，包括：

获取模块，用于获取查询词，其中，所述查询词用于确定当前数据集中的待查询数据；

第一查询模块，用于基于所述查询词，在所述当前数据集对应的采样池中进行数据查询，得到采样查询结果，其中，所述采样查询结果包括所述采样池中与所述查询词匹配的至少一个目标采样文档；

确定模块，用于利用所述采样查询结果，从所述当前数据集对应的聚类结果中确定待查询主题数据段，其中，所述聚类结果包括多个数据分片，所述多个数据分片的每个数据分片包含至少一个主题数据段；

第二查询模块，用于基于所述查询词，在所述待查询主题数据段中进行数据查询，得到目标查询结果。

10.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的数据查询方法。