CN114064740A

CN114064740A - 用于查询数据的方法、设备和介质

Info

Publication number: CN114064740A
Application number: CN202210046055.0A
Authority: CN
Inventors: 周凯; 邓丽敏; 李颖; 柳蒙蒙; 仝凯元
Original assignee: All In Pay Network Services Co ltd
Current assignee: All In Pay Network Services Co ltd
Priority date: 2022-01-17
Filing date: 2022-01-17
Publication date: 2022-02-18
Anticipated expiration: 2042-01-17
Also published as: CN114064740B

Abstract

本公开的实施例涉及用于查询数据的方法、设备和介质，所述方法包括：将所接收的关于待查询数据的语句转换为数据查询服务所使用的语句；解析所转换的语句，以便获取所述待查询数据的数据特征，所述数据特征包括所述待查询数据的数据索引、数据类型中的至少一项；基于所获取的数据特征，根据数据特征算法确定应用于所述待查询数据的数据查询服务以及数据服务集群；以不同的消息通信机制采用所述数据查询服务在所述数据服务集群中查询所述待查询数据，以便获取所述待查询数据的查询反馈以及查询结果；以及根据所获取的查询反馈，动态提供待查询数据的查询结果。

Description

用于查询数据的方法、设备和介质

技术领域

本公开的实施例总体涉及数据处理领域，并且更具体地涉及一种用于查询数据的方法、计算设备和计算机可读存储介质。

背景技术

随着互联网的快速发展，信息量的不断增加，每天产生的数据以 TB （TeraByte）级的规模增长。随着数据的不断增长，单一的查询索引或缓存已不能满足快速变化的用户请求。需要针对复杂的业务提供优化的组合查询技术,以提高数据查询性能。

目前，现有技术中存在快速查询数据的搜索引擎，例如ElasticSearch、Solr等查询工具。这些工具可以实现数据（GB级）的快速查询，例如，在1秒响应时间内查询GB级的数据。然而这样的搜索引擎对数据存储的要求比较高。如果需要快速反馈查询结果，数据需要存储在高速读取的存储集群设备（例如，固态硬盘SSD）中。

大数据存储集群可以应用于TB级以上的数据存储。现有的大数据存储集群（例如，Hadoop集群）一般采用单一的机械硬盘作存储。在大数据存储集群中执行查询可能查询时间较长。随着数据不断积累，数据存量可能达到一个惊人的高度。这种情况下，直接使用查询工具查询这些数据并且在较短的时间内返回结果几乎是不可能的。

综上，传统的用于查询数据的方法的方案所存在的不足之处在于：对于不同类型的数据，其所适用的存储架构中的存储方式相差较大，导致查询时所消耗的性能和时间也相差较大。对于同一用户来说，可能需要查询不同类型或活跃度的数据。此时则需要跨越不同的服务器进行查询，响应时间长，查询时间较长。

发明内容

针对上述问题，本公开提供了一种用于查询数据的方法、计算设备和计算机可读存储介质，能够根据所查询数据的不同特征组合不同类型的数据查询服务和数据存储集群，从而缩短查询时间。

根据本公开的第一方面，提供了一种用于查询数据的方法，包括：接收查询数据的语句；将所接收的关于待查询数据的语句转换为数据查询服务所使用的语句；解析所转换的语句，以便获取所述待查询数据的数据特征，所述数据特征包括所述待查询数据的数据索引、数据类型中的至少一项；基于所获取的数据特征，根据数据特征算法确定应用于所述待查询数据的数据查询服务以及数据服务集群；以不同的消息通信机制采用所述数据查询服务在所述数据服务集群中查询所述待查询数据，以便获取所述待查询数据的查询反馈以及查询结果；以及根据所获取的查询反馈，动态提供待查询数据的查询结果。

根据本公开的第二方面，提供了一种计算设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开的第一方面的方法。

在本公开的第三方面中，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中计算机指令用于使计算机执行本公开的第一方面的方法。

在一些实施例中，根据数据特征算法确定应用于所述待查询数据的数据查询服务以及数据服务集群包括：响应于所获取的数据特征是数据索引，根据所述待查询数据的活跃度阈值将所述待查询数据确定为第一活跃型数据或者第二活跃型数据，其中第一活跃型数据的活跃度大于第二活跃型数据的活跃度；响应于所获取的数据特征是数据类型，根据待查询数据的对象类型将待查询数据确定为结构型数据或者非结构型数据；以及响应于所获取的数据特征是数据索引和数据类型，根据所述数据的活跃度阈值以及对象类型将所述数据确定为以下数据中的一类：结构第一活跃型数据、结构第二活跃型数据、非结构第一活跃型数据以及非结构第二活跃型数据。

在一些实施例中，响应于所获取的数据特征是数据索引还包括基于待查询数据的时间维度、大小、所属文件类型采用活跃度计算公式计算所述待查询数据的活跃度。

在一些实施例中，响应于所获取的数据特征是数据类型还包括基于所确定的结构型数据和非结构型数据的模型采用学习算法判断待查询数据的对象类型。

在一些实施例中，根据数据特征算法确定应用于所述待查询数据的数据查询服务以及数据服务集群包括：响应于待查询数据被确定为第一活跃型数据或者结构型数据，确定第一数据查询服务以及实时数据服务集群应用于所述数据；响应于待查询数据被确定为第二活跃型数据或者非结构性型数据，确定第一数据查询服务或第二数据查询服务以及大数据服务集群应用于所述数据；响应于待查询数据被确定为结构第一活跃型数据、结构第二活跃型数据以及非结构第一活跃型数据，确定第一数据查询服务以及实时数据服务集群应用于所述数据；以及响应于待查询数据被确定为非结构第二活跃型数据，确定第一数据查询服务或第二数据查询服务以及大数据服务集群应用于所述数据。

在一些实施例中，以不同的消息通信机制采用所述数据查询服务在所述数据服务集群中查询所述待查询数据包括：以同步消息通信机制查询应用实时数据服务集群的所述待查询数据，以便在期望时间内获取所述待查询数据的第一查询反馈以及第一查询结果；以及以异步消息通信机制查询应用大数据服务集群的所述待查询数据，以便在大数据查询任务完成后获取所述待查询数据的第二查询反馈以及第二查询结果。

在一些实施例中，动态提供待查询数据的查询结果包括：在获取第一查询反馈后，由所述第一数据查询服务提供待查询数据的第一查询结果；以及在获取第二查询反馈后，由所述第二数据查询服务提供待查询数据的第二查询结果。

在一些实施例中，动态提供待查询数据的查询结果包括：在获取第一查询反馈后，由所述第一数据查询服务提供待查询数据的第一查询结果；在获取第二查询反馈后，由所述第二数据查询服务将所述数据的第二查询结果传送到所述第一数据查询服务；以及由所述第一数据查询服务提供待查询数据的第二查询结果。

在一些实施例中，动态提供待查询数据的查询结果包括：在获取第一查询反馈后，由所述第一数据查询服务记录应用实时数据服务集群的数据的第一查询结果；在获取第二查询反馈后，由所述第二数据查询服务将应用大数据服务集群的数据的第二查询结果传送到所述第一数据查询服务；由所述第一数据查询服务将第一查询结果和第二查询进行组合；以及提供所组合的查询结果。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

结合附图并参考以下详细说明，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标注表示相同或相似的元素。

图1示出了用于实现根据本发明的实施例的用于查询数据的方法的系统100的示意图。

图2示出了根据本公开的实施例的用于查询数据的方法200的流程图。

图3示出了根据本公开的实施例的确定应用于数据的数据查询服务以及数据服务集群的方法300的流程图。

图4示出了根据本公开的实施例的确定应用于数据的数据查询服务以及数据服务集群的方法400的流程图。

图5示出了根据本公开的实施例的在数据服务集群中查询数据的方法500的流程图。

图6示出了根据本公开的实施例的动态提供待查询数据的查询结果的方法600的流程图。

图7示出了根据本公开的实施例的动态提供待查询数据的查询结果的方法700的流程图。

图8示出了根据本公开的实施例的动态提供多项数据的查询结果的方法800的流程图。

图9示出了根据本公开的实施例的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在本文中使用的术语“包括”及其变形表示开放性包括，即“包括但不限于”。除非特别申明，术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

如前文所描述，不同类型的数据适用的存储架构中的存储方式往往相差较大，在传统的用于查询数据的方案中，由于缺少解析数据的数据特征，往往无法精确确定数据的查找方式以及查找位置，导致查询过程所消耗的性能和时间过大。同时，在查询不同类型数据时，由于阻塞式的查询，需要查询不同类型或活跃度数据的用户可能由于一个较长时间的查询需要较长的响应时间和查询时间，用户体验并不友好。

为了至少部分地解决上述问题以及其他潜在问题中的一个或者多个，本公开的示例实施例提出了一种用于查询数据的方案，在本公开方案中，通过对查询数据的语句进行解析，获取所查询数据的数据特征。数据特征可以包括数据类型、数据索引、数据类型与数据索引的组合等。基于所获取的数据特征，根据数据特征算法确定应用于数据的数据查询服务以及数据服务集群。数据特征算法包括根据数据类型、数据索引、数据类型与数据索引的组合确定数据对应的数据查询服务以及数据服务集群。以不同的消息通信机制（例如，同步/异步极值）采用不同的数据查询服务在不同的数据服务集群中查询数据，以便获取数据的查询反馈以及查询结果。最后，根据所获取的查询反馈，动态提供待查询数据的查询结果，从而尽快向用户反馈查询结果。由此，能够更为准确地分配数据查询时间和计算机查询性能。

图1示出了用于实现根据本发明的实施例的用于查询数据的方法的系统100的示意图。如图1中所示，系统100包括计算设备110、网络130、网络140、实时数据服务集群122、大数据服务集群124。计算设备110、实时数据服务集群122、大数据服务集群124、查询用户150可以通过包括有网关的网络130、网络140（例如，因特网）进行数据交互。

实时数据服务群集122可以是运行在一个或多个计算机节点上用于实现高并发、高吞吐量的查询服务的一站式存储计算结构。实时数据服务群集122提供缓存功能。在查询目标数据时，将从目标地址查询出来的数据缓存在系统中，缓存数据通过Key-Value的数据对形式保存，并且设置了有效期，对于超过有效期的数据系统会及时清除，通过数据缓存技术，减少目标系统的查询次数，减少响应时间，提闻查询系统的吞吐率。实时数据服务群集122可以基于短平快、烟囱式开发的方式的存储结构，其可以响应于不大的数据总量（例如，GB级）在毫秒级或者秒级的响应时间内反馈查询数据。为了加快实时数据服务群集122的查询速度，可以为实时数据服务群集122配置高速存取的存储设备，例如固态硬盘等。然而，实时数据服务群集122没有良好的存算分离，数据存储容量存在瓶颈，无法满足随业务而快速增长的数据量存储需求，无法实现对大数据的快速查询。

大数据服务群集124可以配置有控制模块、计算模块、数据模块、存储模块、应用模块等多个模块，从而完成大数据的控制、运算和管理等操作。大数据服务群集124可以包含控制服务、配置存储和其他适配的群集级服务（例如 Kibana、Grafana 和 Spark等）。大数据服务群集124可以由一个或多个计算机节点组成，每个计算机节点分配有用于特定处理任务的工作实例。数据服务群集124可以通过SQL查询或在Spark作业中提取数据。大数据服务群集124可以根据用户业务需要处理GB级到PB级甚至以上存储量的数据并且可以为大数据服务群集124配置一般类型的存储设备，例如机械硬盘等。然而，实时数据服务群集124受限于存储设备成本以及计算架构，查询时间较长，往往需要长时间（例如，数十分钟、数小时）的搜索才能查询到目标数据。

计算设备110可以配置成例如通过网络130从用户150处用于接收查询数据的请求并且通过网络140运用相应查询数据的方法在实时数据服务集群122和大数据服务集群124中查询相应的数据。计算设备110可以具有一个或多个处理单元，包括诸如GPU、FPGA和ASIC等的专用处理单元以及诸如CPU的通用处理单元。另外，在每个计算设备110上也可以运行着一个或多个虚拟机。在一些实施例中，计算设备110与实时数据服务集群122和大数据服务集群124可以集成在一起，也可以是彼此分立设置。在一些实施例中，计算设备110例如包括接收模块112、解析模块114、确定模块116、查询模块118以及结果提供模块120。

接收模块112配置成将所接收的关于待查询数据的语句转换为数据查询服务所使用的语句；

解析模块114配置成解析所转换的语句，以便获取所述待查询数据的数据特征，所述数据特征包括所述待查询数据的数据索引、数据类型中的至少一项；

确定模块116配置成基于所获取的数据特征，根据数据特征算法确定应用于所述待查询数据的数据查询服务以及数据服务集群；

查询模块118配置成以不同的消息通信机制采用所述数据查询服务在所述数据服务集群中查询所述待查询数据，以便获取所述待查询数据的查询反馈以及查询结果；以及

结果提供模块120根据所获取的查询反馈，动态提供待查询数据的查询结果。

图2示出了根据本公开的实施例的用于查询数据的方法200的流程图。方法200可由如图1所示的计算设备110执行，也可以在图9所示的电子设备900处执行。应当理解的是，方法200还可以包括未示出的附加框和/或可以省略所示出的框，本公开的范围在此方面不受限制。

在步骤202，计算设备110将所接收的关于待查询数据的语句转换为数据查询服务所使用的语句。

在一些实施例中，计算设备110可以接收来自用户的关于待查询数据的语句或请求。所接收的待查询数据的语句可以取决于待查询数据的类型和为查询所使用的数据查询服务而不同。

所接收的查询语句可能是本领域常用的数据描述语句或者数据查询语句，例如用于查询数据的SQL语句或者描述数据对象的Json语句。然而，在一些实施例中，描述数据对象的语句可能无法直接应用于数据查询服务。因此需要将这些语句进行解析并转换为数据查询服务可读取的查询语句。

因此，可以将关于待查询数据的语句（例如，对象描述语句）解析并将其转换为查询数据对象的查询语言语句。所转换的语句和转换方式根据所采用的数据查询服务而不同。例如，可以将Json语句转换为SQL语句。

在步骤204，计算设备110解析所转换的语句，以便获取所述待查询数据的数据特征，所述数据特征包括所述待查询数据的数据索引、数据类型中的至少一项。

在一些实施例中，如果所接收的是例如SQL语句的数据查询语句，计算设备110可以直接解析查询数据的语句。如果所接收的是描述数据对象的其他语言语句（例如，Json语句），则计算设备110可以先将其他语句转换为统一的查询数据库的语言，例如SQL语句。

在解析过程中，计算设备110可以获取待查询的数据特征。数据特征可以包括以下中的任意一项或其组合：数据的数据索引、数据的数据类型。

在一些实施例中，计算设备110解析所转换的语句，以便获取待查询数据的数据特征。如上所描述的，所接收的各类语句被统一转换为数据查询服务可读取的语句（例如，SQL语句）。以SQL语句为例，计算设备110根据本领域常用的SQL语句解析工具解析所转换的SQL语句，以便从其中获取待查询数据。

在获取语句中待查询数据后，计算设备110可以确定待查询数据的数据索引。数据索引可以确定待查询数据的活跃度。活跃度可以通过例如数据距当前时间的时间维度来计算。在下面的步骤中，依据数据特征算法可以根据数据的活跃度对数据分类，从而确定数据所存储的数据服务集群和应采用的数据查询服务。

计算设备110可以确定数据的数据类型。数据类型可以包括数据中对象的结构。数据类型可以用于确定数据的类型。例如数据可以被分类为结构类数据和非结构类数据。在下面的步骤中，依据数据特征算法可以根据数据的类型对数据分类，从而确定数据所存储的数据服务集群和应采用的数据查询服务。

计算设备110还可以组合数据索引与数据类型，从而依据这两种标签对数据分类。例如，可以组合数据的活跃度和类型将数据分类为四类。

利用以上技术手段，可以实现对所查询数据的初步分类，从而在后续步骤中更快定位到数据所处的数据服务集群和应采用的数据查询服务。

在步骤206，计算设备110基于所获取的数据特征，根据数据特征算法确定应用于待查询数据的数据查询服务以及数据服务集群。

在一些实施例中，计算设备110可以基于在步骤204中所获取的数据特征应用本公开提供的不同的数据特征算法。数据特征算法是本公开中根据数据特征判断数据应用不同的数据查询服务和数据服务集群的算法。

计算设备110根据数据特征算法确定应用于数据的数据查询服务以及数据服务集群。通过数据特征算法，计算设备110可以确定应用于数据的数据查询服务和数据服务集群，例如，应使用实时数据服务集群和与该实时数据服务集群对应的例如ElasticSearch的第一数据查询服务应用于该数据。或者，应使用大数据服务集群和与该大数据服务集群对应的例如Spark SQL的第二数据查询服务应用于该数据。

在下文中将具体描述本公开所确定的数据查询服务和数据服务集群。

在步骤208，计算设备110以不同的消息通信机制采用数据查询服务在数据服务集群中查询待查询数据，以便获取待查询数据的查询反馈以及查询结果。

在一些实施例中，计算设备110可以以例如同步或者异步的消息通信机制采用在步骤206中所确定的数据查询服务在对应数据服务集群中查询数据，以便获取数据的查询反馈以及查询结果。

在下文中将具体描述本公开中消息通信机制与数据查询服务和数据服务集群的对应关系。

通过使用适当的消息通信机制由数据查询服务在对应数据服务集群中完成查询，从而获取所查询数据的查询反馈，例如是否查询到数据。查询反馈可以是反映是否查询到结果的布尔函数（True/False）。如果查询到结果，则获取查询结果。如果未查询到结果，则直接反馈未查询到结果。

在步骤210，计算设备110根据所获取的查询反馈，动态提供待查询数据的查询结果。

在一些实施例中，计算设备110根据所获取的查询反馈（是否查询到结果），动态提供待查询数据的查询结果。例如，可以由第一数据查询服务或第二数据查询服务直接提供待查询数据的查询结果。也可以由第二数据查询服务将查询结果反馈到第一数据查询服务，由第一查询服务提供查询结果或者多个查询结果的组合。

利用以上技术手段，可以初步实现分类查询数据，从而根据数据的标签适当地分配计算机性能，从而有利于用户安排查询时间。在下文中将具体描述本公开的方法查询数据的具体细节。

图3示出了根据本公开的实施例的确定应用于数据的数据查询服务以及数据服务集群的方法300的流程图。方法300可对应于方法200中的步骤206。

如上所示，可以为数据打上包括数据索引和数据类型的相应数据标签（标签）从而定位数据的位置。

在步骤302，计算设备110响应于所获取的数据特征是数据索引，根据所述待查询数据的活跃度阈值将所述待查询数据确定为第一活跃型数据或者第二活跃型数据，其中第一活跃型数据的活跃度大于第二活跃型数据的活跃度。

在一些实施例中，如上所描述的，数据的数据索引可以基于数据距当前时间的时间维度来确定。因此，可以将一个时间值设置为数据的活跃度阈值。例如可以将距当前时间达2年的时间维度设置为活跃度阈值，即，距当前2年内的数据可以被认为第一活跃型数据而距当前2年外的数据可以被认为是第二活跃型数据，其中第一活跃型数据的活跃度大于第二活跃型数据的活跃度。

活跃度阈值可以由用户根据数据存储系统的能力和数据存储的位置灵活设置。例如，如果3年内的数据被存储在实时数据服务群集而3年外的数据被存储在大数据服务群集的话，则活跃度阈值可以被修改为3年。

活跃度以及活跃度阈值可以根据数据索引的不同而不同。下面还将具体介绍其他活跃度计算方法。

在步骤304，计算设备110响应于所获取的数据特征是数据类型，根据待查询数据的对象类型将待查询数据确定为结构型数据或者非结构型数据。

在一些实施例中，如上所描述的，数据的数据类型可以包括数据中对象的结构。因此，可以将数据中对象的结构进行分类。例如，在查询一个商家的经营数据时，可以将所查询的商家的名称设置为结构型数据，而将商家的销售额等值设置为非结构型数据。结构型数据通常为静态数据，其存储在数据服务集群中后一般不会改变。非结构型数据通常为动态数据，其一般会随着时间增加、减少或变更。

数据中对象的结构可以根据用户的需求而自行定义或修改。下面还将具体介绍其他数据类型的确定方法。

在步骤306，计算设备110响应于所获取的数据特征是数据索引和数据类型，根据所述数据的活跃度阈值以及对象类型将所述数据确定为以下数据中的一类：结构第一活跃型数据、结构第二活跃型数据、非结构第一活跃型数据以及非结构第二活跃型数据。

在一些实施例中，计算设备110可以组合如上所描述的数据索引以及数据类型，根据数据是否属于结构型数据或非结构型数据以及是否属于第一活跃型数据和第二活跃型数据将数据分为结构第一活跃型数据、结构第二活跃型数据、非结构第一活跃型数据以及非结构第二活跃型数据。

例如，在2年外添加的商家交易数据可以被归类为非结构第二活跃型数据。在2年内添加的商家交易数据可以被归类为非结构第一活跃型数据。

基于数据索引以及数据类型的修改和定义，组合型的数据标签也可以不同。

利用以上技术手段，可以实现将所查询数据的分类到合适的标签。通过这些标签可以将数据直接定位到数据所处的数据服务集群和应采用的数据查询服务。

如上所述，基于待查询数据的时间维度可以简易判断待查询数据的活跃度，数据的活跃度会与数据服务集群有关。然而，在更复杂的情形中，待查询数据的时间维度、大小、所属文件类型都会影响数据所应用的数据服务集群。例如，在有些应用场景中，图片文件（jpg）文件存储在大数据服务集群，或者小于一定数据大小阈值（例如，50mb）的数据存储在实时数据服务集群。因此，在接收到待查询数据时，还可以根据待查询数据的时间维度、大小、所属文件类型确定其活跃度，从而确定待查询数据的活跃度。

在一些实施例，计算设备110可以确定待查询数据的时间维度t、大小s、所属文件类型f。对应于时间维度t，存在时间维度的权重参数p。对应于数据大小s，存在数据大小的权重参数q。对应于数据所属文件类型f，存在文件类型的权重参数m。

基于以上数据，可以根据公式（1）计算数据的活跃度y。

（1）

基于所适用的数据服务集群，可以为数据的活跃度y设定相应的阈值。大于该阈值的活跃度可以被确定为第一活跃度，从而在后续步骤中将待查询数据关联到实时数据服务集群。小于该阈值的活跃度可以被确定为第二活跃度，从而在后续步骤中将待查询数据关联到大数据服务集群。

通过以上手段，当计算设备110可以根据多个不同的数据维度正确地确定与待查询数据相关联的数据服务群集。

在一些实施例中，确定结构型数据和非结构型数据可以由用户根据历史处理经验来设置，例如商家名称为结构型数据，而将商家的销售额为非结构型数据。然而在遇到未确定或未定义的新型数据时，方法可能受到局限。

因此，在一些实施例中，可以基于所确定的结构型数据和非结构型数据的模型运用语义学习方法来判断待查询数据的对象类型。具体来说，输入足够的结构型数据，例如，商户名称、经营年度、商户地址等结构型数据，从而运用语义学习方法来判断待查询数据的对象类型是否属于结构型数据。

同时，输入足够的非结构型数据，例如，销售额、流动资产、流动负债等非结构型数据，从而运用语义学习方法来判断待查询数据的对象类型是否属于非结构型数据。

通过以上手段，当计算设备110接收和解析到未处理过的数据时仍然可以将其分类为结构型数据及非结构型数据，从而正确地确定与待查询数据相关联的数据服务群集。

图4示出了根据本公开的实施例的确定应用于数据的数据查询服务以及数据服务集群的方法400的流程图。方法400可对应于方法200中的步骤206。

如上所描述的，在对数据打上相应标签后，可以根据标签（数据索引以及数据类型）确定数据所应用的数据查询服务以及数据服务集群。

在步骤402，计算设备110响应于待查询数据被确定为第一活跃型数据或者结构型数据，确定第一数据查询服务以及实时数据服务集群应用于所述数据。

在一些实施例中，如果数据在先前步骤中被确定为第一活跃型数据，则确定待查询数据被存储在实时数据服务集群中，并且使用例如ElasticSearch的第一数据查询服务来查询数据。

在一些实施例中，如果数据在先前步骤中被确定为结构型数据，则确定待查询数据被存储在实时数据服务集群中，并且使用例如ElasticSearch的第一数据查询服务来查询数据。

在步骤404，计算设备110响应于待查询数据被确定为第二活跃型数据或者非结构性型数据，确定第一数据查询服务或第二数据查询服务以及大数据服务集群应用于所述数据。

在一些实施例中，如果数据在先前步骤中被确定为第二活跃型数据，则确定待查询数据被存储在例如Hadoop集群的大数据服务集群中，并且使用大数据服务集群专用的第二数据查询服务来查询数据。第二数据查询服务例如包括Spark SQL等。

在一些实施例中，如果数据在先前步骤中被确定为非结构性型数据，则确定待查询数据被存储在例如Hadoop集群的大数据服务集群中，并且使用大数据服务集群专用的第二数据查询服务来查询数据。第二数据查询服务例如包括Spark SQL等。

在一些实施例中，也可以使用例如ElasticSearch的第一数据查询服务来查询大数据服务集群。

在步骤406，计算设备110响应于待查询数据被确定为结构第一活跃型数据、结构第二活跃型数据以及非结构第一活跃型数据，确定第一数据查询服务以及实时数据服务集群应用于所述数据。

在一些实施例中，如果数据在先前步骤中被确定为结构第一活跃型数据、结构第二活跃型数据以及非结构第一活跃型数据中的任何一种，则确定待查询数据被存储在实时数据服务集群中，并且使用例如ElasticSearch的第一数据查询服务来查询数据。

在步骤408，计算设备110响应于待查询数据被确定为非结构第二活跃型数据，确定第一数据查询服务或第二数据查询服务以及大数据服务集群应用于所述数据。

在一些实施例中，如果数据在先前步骤中被确定为非结构第二活跃型数据，则确定待查询数据被存储在例如Hadoop集群的大数据服务集群中，并且使用大数据服务集群专用的第二数据查询服务来查询数据。第二数据查询服务例如包括Spark SQL等。

在上述的实施例中，也可以使用例如ElasticSearch的第一数据查询服务来查询大数据服务集群。

利用以上技术手段，可以实现将不同类型的数据对应到相应的数据查询服务和数据服务集群，从而更快使用适当的数据查询服务将数据定位到相应的存储位置。

图5示出了根据本公开的实施例的在数据服务集群中查询数据的方法500的流程图。方法500可对应于方法200中的步骤208。

在步骤502，计算设备110以同步消息通信机制查询应用实时数据服务集群的数据，以便在期望时间内获取待查询数据的第一查询反馈以及第一查询结果。

在一些实施例中，如果确定使用例如ElasticSearch的第一数据查询服务来查询实时数据服务集群，则可以以同步消息通信机制完成查询，即，由于查询速度较快，可以实时查询实时等待结果。

由于查询速度较快，因此计算设备110可以在期望的响应时间（例如，1秒）内获取数据的第一查询反馈以及第一查询结果

在步骤504，计算设备110以异步消息通信机制查询应用大数据服务集群的数据，以便在大数据查询任务完成后获取待查询数据的第二查询反馈以及第二查询结果。

在一些实施例中，如果确定使用例如Spark SQL的第二数据查询服务来查询例如Hadoop的大数据服务集群，则可以以异步消息通信机制完成查询，即，由于在大数据服务群集中查询速度较慢，可以将实时查询转为预约查询。在这种情况下，查询的线程返回并执行其他任务，当第二数据查询服务在大数据服务集群中查询到数据时，再反馈第二查询反馈以及第二查询结果。

由于查询速度较慢，因此计算设备110可以在大数据查询完成后再获取数据的第二查询反馈以及第二查询结果。第二查询的等待时间期间计算机可以执行其他任务。

利用以上技术手段，可以实现以不同的消息通信机制将查询到的数据反馈返回。在较快时间的实时查询中，采用了阻塞式的同步技术，而在需要较长时间的大数据查询中，采用了非阻塞式的异步技术。这样的安排可以更大效率的运用计算机性能。

图6示出了根据本公开的实施例的动态提供待查询数据的查询结果的方法600的流程图。方法600可对应于方法200中的步骤210。

在步骤602，计算设备110在获取第一查询反馈后，由第一数据查询服务提供待查询数据的第一查询结果。

在一些实施例中，计算设备110在获取由例如ElasticSearch的第一数据查询服务查询的第一查询反馈后，由例如ElasticSearch的第一数据查询服务同步提供待查询数据的第一查询结果。

在步骤604，计算设备110在获取第二查询反馈后，由第二数据查询服务提供待查询数据的第二查询结果。

在一些实施例中，计算设备110在获取由例如Spark SQL的第二数据查询服务查询的第二查询反馈后，由例如Spark SQL的第二数据查询服务异步提供待查询数据的第二查询结果。

利用以上技术手段，可以实现由不同的数据查询服务以不同的消息通信机制提供到查询用户，从而加快用户的查询速度。

图7示出了根据本公开的实施例的动态提供待查询数据的查询结果的方法700的流程图。方法700可对应于方法200中的步骤210。数据的查询结果包括：

在步骤702，计算设备110在获取第一查询反馈后，由第一数据查询服务提供待查询数据的第一查询结果。

在一些实施例中，计算设备110在获取由例如ElasticSearch的第一数据查询服务查询的第一查询反馈后，由例如ElasticSearch的第一数据查询服务同步直接提供待查询数据的第一查询结果。

在步骤704，计算设备110在获取第二查询反馈后，由第二数据查询服务将数据的第二查询结果传送到第一数据查询服务。

在一些实施例中，计算设备110在获取由例如Spark SQL的第二数据查询服务查询的第二查询反馈后，由例如Spark SQL的第二数据查询服务异步将数据传送到例如ElasticSearch的第一数据查询服务中。

在步骤706，计算设备110由第一数据查询服务提供待查询数据的第二查询结果。

在一些实施例中，计算设备110使用例如ElasticSearch的第一数据查询服务反馈由第二查询服务获取的第二查询结果。

利用以上技术手段，可以实现将由第二数据查询服务获取的查询结构发送到第一数据查询服务，从而以统一的方式将数据通过统一的查询窗口提供到查询用户。

在可选的实施例中，方法200-方法700还可以应用于多项不同待查询数据。多项不同待查询数据可以分别应用如上所描述的针对单项数据的方法200-方法700，并且在最后进行组合，统一为数据的查询结果进行反馈。例如，在查询某商家的历史交易查询时，商家的工商注册信息等结构型数据可以应用第一数据查询服务在实时数据服务集群中查询。同时，活跃度在时间阈值内（例如，2年内）商家的历史交易可以应用第一数据查询服务在实时数据服务集群中查询，而在时间阈值外（例如，2年外）商家的历史交易可以应用第二数据查询服务在大数据服务集群中查询。最后所查询的多项数据的查询结果可以组合在一起作为完整的查询结果反馈。具体查询方法如上所述，在此不再赘述，仅对最后组合的查询结果具体描述。

图8示出了根据本公开的实施例的动态提供多项数据的查询结果的方法800的流程图。方法800可以应用于查询多项不同数据。

在步骤802，计算设备110在获取第一查询反馈后，由第一数据查询服务记录应用实时数据服务集群的待查询数据的第一查询结果。

在一些实施例中，针对包括不同的待查询数据，计算设备110在获取例如ElasticSearch的第一查询服务对应用实时数据服务集群的待查询数据（例如，活跃型数据）的反馈后，可以由第一数据查询服务暂时记录应用实时数据服务集群的待查询数据的第一查询结果，从而在应用于后续与第二数据查询服务的组合。

在步骤804，计算设备110在获取第二查询反馈后，由第二数据查询服务将应用大数据服务集群的待查询数据的第二查询结果传送到第一数据查询服务。

在一些实施例中，计算设备110在获取例如Spark SQL的第二查询服务对应用大数据服务集群的待查询数据（例如，非活跃型数据）反馈后，可以由第二数据查询服务将应用大数据服务集群的待查询数据的第二查询结果传送到例如ElasticSearch的第一数据查询服务中。

在步骤806，计算设备110由第一数据查询服务将待查询数据的第一查询结果和待查询数据的第二查询结果组合为多项待查询数据的查询结果。

在一些实施例中，计算设备110可以使用第一数据查询服务将待查询数据（活跃型数据）的第一查询结果和待查询数据的第二查询结果（非活跃型数据）组合为多项待查询数据的查询结果。

在步骤808，计算设备110提供所组合的查询结果。

在一些实施例中，计算设备110可以将在上述步骤中所组合的多项待查询数据的查询结果提供给查询用户。

利用以上技术手段，可以实现将由多项不同待查询数据组成的数据通过分类查询的方式获取其完整的查询结果。最后以统一的方式将多项不同待查询数据的查询结果组合成完整的查询结果并通过统一的查询窗口提供到查询用户。

图9示出了可以用来实施本公开内容的实施例的示例电子设备900的示意性框图。例如，如图1所示的计算设备19可以由电子设备900来实施。如图所示，电子设备900包括中央处理单元（CPU）901，其可以根据存储在只读存储器（ROM）902中的计算机程序指令或者从存储单元908加载到随机存取存储器（RAM）903中的计算机程序指令，来执行各种适当的动作和处理。在随机存取存储器903中，还可存储电子设备900操作所需的各种程序和数据。中央处理单元901、只读存储器902以及随机存取存储器903通过总线904彼此相连。输入/输出（I/O）接口905也连接至总线904。

电子设备900中的多个部件连接至输入/输出接口905，包括：输入单元906，例如键盘、鼠标、麦克风等；输出单元907，例如各种类型的显示器、扬声器等；存储单元908，例如磁盘、光盘等；以及通信单元909，例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

上文所描述的各个过程和处理，例如方法200、300、400、500、600、700、800，可由中央处理单元901执行。例如，在一些实施例中，方法200、300、400、500、600、700、800可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元908。在一些实施例中，计算机程序的部分或者全部可以经由只读存储器902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序被加载到随机存取存储器903并由中央处理单元901执行时，可以执行上文描述的方法200、300、400、500、600、700、800的一个或多个动作。

本公开涉及方法、装置、系统、电子设备、计算机可读存储介质和/或计算机程序产品。计算机程序产品可以包括用于执行本公开的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子（非穷举的列表）包括：便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、静态随机存取存储器（SRAM）、便携式压缩盘只读存储器（CD-ROM）、数字多功能盘（DVD）、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波（例如，通过光纤电缆的光脉冲）、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘计算设备。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构（ISA）指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列（FPGA）或可编程逻辑阵列（PLA），该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这里参照根据本公开实施例的方法、装置（系统）和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理单元，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种用于查询数据的方法，包括：

将所接收的关于待查询数据的语句转换为数据查询服务所使用的语句；

解析所转换的语句，以便获取所述待查询数据的数据特征，所述数据特征包括所述待查询数据的数据索引、数据类型中的至少一项；

基于所获取的数据特征，根据数据特征算法确定应用于所述待查询数据的数据查询服务以及数据服务集群；

以不同的消息通信机制采用所述数据查询服务在所述数据服务集群中查询所述待查询数据，以便获取所述待查询数据的查询反馈以及查询结果；以及

根据所获取的查询反馈，动态提供待查询数据的查询结果。

2.根据权利要求1所述的方法，其中根据数据特征算法确定应用于所述待查询数据的数据查询服务以及数据服务集群包括：

响应于所获取的数据特征是数据索引，根据所述待查询数据的活跃度阈值将所述待查询数据确定为第一活跃型数据或者第二活跃型数据，其中第一活跃型数据的活跃度大于第二活跃型数据的活跃度；

响应于所获取的数据特征是数据类型，根据待查询数据的对象类型将待查询数据确定为结构型数据或者非结构型数据；以及

响应于所获取的数据特征是数据索引和数据类型，根据所述数据的活跃度阈值以及对象类型将所述数据确定为以下数据中的一类：结构第一活跃型数据、结构第二活跃型数据、非结构第一活跃型数据以及非结构第二活跃型数据。

3.根据权利要求2所述的方法，响应于所获取的数据特征是数据索引还包括基于待查询数据的时间维度、大小、所属文件类型采用活跃度计算公式计算所述待查询数据的活跃度。

4.根据权利要求2所述的方法，响应于所获取的数据特征是数据类型还包括基于所确定的结构型数据和非结构型数据的模型采用学习算法判断待查询数据的对象类型。

5.根据权利要求2-4中任一项所述的方法，其中根据数据特征算法确定应用于所述待查询数据的数据查询服务以及数据服务集群包括：

响应于待查询数据被确定为第一活跃型数据或者结构型数据，确定第一数据查询服务以及实时数据服务集群应用于所述数据；

响应于待查询数据被确定为第二活跃型数据或者非结构性型数据，确定第一数据查询服务或第二数据查询服务以及大数据服务集群应用于所述数据；

响应于待查询数据被确定为结构第一活跃型数据、结构第二活跃型数据以及非结构第一活跃型数据，确定第一数据查询服务以及实时数据服务集群应用于所述数据；以及

响应于待查询数据被确定为非结构第二活跃型数据，确定第一数据查询服务或第二数据查询服务以及大数据服务集群应用于所述数据。

6.根据权利要求5所述的方法，其中以不同的消息通信机制采用所述数据查询服务在所述数据服务集群中查询所述待查询数据包括：

以同步消息通信机制查询应用实时数据服务集群的所述待查询数据，以便在期望时间内获取所述待查询数据的第一查询反馈以及第一查询结果；以及

以异步消息通信机制查询应用大数据服务集群的所述待查询数据，以便在大数据查询任务完成后获取所述待查询数据的第二查询反馈以及第二查询结果。

7.根据权利要求6所述的方法，其中动态提供待查询数据的查询结果包括：

在获取第一查询反馈后，由所述第一数据查询服务提供待查询数据的第一查询结果；以及

在获取第二查询反馈后，由所述第二数据查询服务提供待查询数据的第二查询结果。

8.根据权利要求6所述的方法，其中动态提供待查询数据的查询结果包括：

在获取第一查询反馈后，由所述第一数据查询服务提供待查询数据的第一查询结果；

在获取第二查询反馈后，由所述第二数据查询服务将所述数据的第二查询结果传送到所述第一数据查询服务；以及

由所述第一数据查询服务提供待查询数据的第二查询结果。

9.根据权利要求6所述的用于查询数据的方法，其中动态提供待查询数据的查询结果包括：

在获取第一查询反馈后，由所述第一数据查询服务记录应用实时数据服务集群的数据的第一查询结果；

在获取第二查询反馈后，由所述第二数据查询服务将应用大数据服务集群的数据的第二查询结果传送到所述第一数据查询服务；

由所述第一数据查询服务将第一查询结果和第二查询进行组合；以及

提供所组合的查询结果。

10.一种计算设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-9中任一项所述的方法。

11.一种存储有计算机指令的非瞬时计算机可读存储介质，其中所述计算机指令用于使所述计算机执行权利要求1-9中任一项所述的方法。