CN117149817A

CN117149817A - Hbase数据库数据查询的方法、装置、电子设备及存储介质

Info

Publication number: CN117149817A
Application number: CN202311000700.6A
Authority: CN
Inventors: 李春梅; 李波; 董发志; 林辉; 李艳
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Group Yunnan Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Group Yunnan Co Ltd
Priority date: 2023-08-09
Filing date: 2023-08-09
Publication date: 2023-12-01

Abstract

本申请公开了一种Hbase数据库数据查询的方法、装置、电子设备及存储介质。方法包括：接收用于查询Hbase数据库中数据的查询语句，查询语句中包括第一待查询字段，第一待查询字段为限定查询范围的字段；根据目标字段限定的查询范围和目标字段对应的Hbase数据库中的存储字段的设定粒度单位，对查询语句进行拆分，目标字段为第一待查询字段，或，基于用户需求信息从多个第一待查询字段中确定的一个第一待查询字段；根据拆分后的查询语句，确定拆分后的查询语句对应的多个查询任务；基于ZooKeeper节点和任务执行程序，分布式处理拆分后的查询语句对应的多个查询任务，得到从Hbase库中获取的多个查询任务对应的多个查询数据；对多个查询数据进行合并，得到查询结果并返回。

Description

Hbase数据库数据查询的方法、装置、电子设备及存储介质

技术领域

本申请属于移动通信技术领域，具体涉及一种Hbase数据库数据查询的方法、装置、电子设备及存储介质。

背景技术

Hbase数据库是大数据项目中支持毫秒级实时查询的数据库，应用广泛。在HBase数据库中，行键Rowkey是用来检索记录的主键。

相关技术中，根据查询语句中的待查询字段对应查询Rowkey值以在Hbase数据库中获取需要的数据。但当该待查询字段给定的是一个范围，例如一条查询语句需要查询“2022年8月某用户的话费信息”，由于待查询字段“2022年8月”给定的是一个时间范围，查询出的rowkey值对应的也是一个范围，且查询之前无法得知该范围内有多少条数据，有的用户多，有的用户少，因此，当该范围内数据量越大，查询耗时越长。

即相关技术在Hbase数据库中进行大数据量的查询时，存在查询效率低的问题。

发明内容

本申请实施例提供一种Hbase数据库数据查询的方法、装置、电子设备及存储介质，能够解决相关技术在Hbase数据库中进行大数据量的查询时，查询效率低的问题。

第一方面，本申请实施例提供了一种Hbase数据库数据查询的方法，该方法包括：接收用于查询Hbase数据库中数据的查询语句，所述查询语句中包括第一待查询字段，所述第一待查询字段为限定查询范围的字段；根据目标字段限定的查询范围和所述目标字段对应的所述Hbase数据库中的存储字段的设定粒度单位，对所述查询语句进行拆分，所述目标字段为第一待查询字段，或，基于用户需求信息从多个第一待查询字段中确定的一个第一待查询字段；根据拆分后的查询语句，确定所述拆分后的查询语句对应的多个查询任务；基于分布式应用程序协调服务软件ZooKeeper节点和任务执行程序，分布式处理所述拆分后的查询语句对应的多个查询任务，得到从所述Hbase库中获取的所述多个查询任务对应的多个查询数据；对所述多个查询数据进行合并，得到查询结果并返回。

第二方面，本申请实施例提供了一种Hbase数据库数据查询的装置，包括：接收模块，用于接收用于查询Hbase数据库中数据的查询语句，所述查询语句中包括第一待查询字段，所述第一待查询字段为限定查询范围的字段；确定模块，用于根据目标字段限定的查询范围和所述目标字段对应的所述Hbase数据库中的存储字段的设定粒度单位，对所述查询语句进行拆分，所述目标字段为第一待查询字段，或，基于用户需求信息从多个第一待查询字段中确定的一个第一待查询字段；拆分模块，用于根据拆分后的查询语句，确定所述拆分后的查询语句对应的多个查询任务；获取模块，用于基于ZooKeeper节点和任务执行程序，分布式处理所述拆分后的查询语句对应的多个查询任务，得到从所述Hbase库中获取的所述多个查询任务对应的多个查询数据；返回模块，用于对所述多个查询数据进行合并，得到查询结果并返回。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括处理器、以及被安排成存储计算机可执行指令的存储器，所述可执行指令被配置由所述处理器执行，所述可执行指令被所述处理器执行时实现如第一方面所述的方法的步骤。

第四方面，本申请实施例提供了一种存储介质，所述存储介质用于存储计算机可执行指令，所述计算机可执行指令使得计算机执行时实现如第一方面所述的方法的步骤。

第五方面，本申请实施例提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行可执行指令，实现如第一方面所述的方法。

在本申请实施例中，通过接收用于查询Hbase数据库中数据的查询语句(查询语句中包括第一待查询字段，第一待查询字段为限定查询范围的字段)，根据目标字段(目标字段为第一待查询字段，或，基于用户需求信息从多个第一待查询字段中确定的一个第一待查询字段)限定的查询范围和目标字段对应的Hbase数据库中的存储字段的设定粒度单位，对查询语句进行拆分，根据拆分后的查询语句，确定拆分后的查询语句对应的多个查询任务，将查询语句对应的一个查询任务拆分成多个查询任务；再基于ZooKeeper节点和任务执行程序，分布式处理拆分后的查询语句对应的多个查询任务，得到从Hbase库中获取的多个查询任务对应的多个查询数据，相比于相关技术中，根据查询语句对应的一个查询任务进行较大范围的大数据取出，本方案中将一个查询任务拆分成多个查询任务，再分布式执行多个查询任务，每个查询任务处理的数据量相对较少且同时进行，得到查询数据的速度更快，从而提高了返回查询结果的速度，最终提高了查询效率，解决了相关技术在Hbase数据库中进行大数据量的查询时，查询效率低的问题。

附图说明

图1是本申请实施例提供的一种Hbase数据库数据查询的方法的流程示意图；

图2是本申请实施例提供的另一种Hbase数据库数据查询的方法的流程示意图；

图3是本申请实施例提供的Hbase数据库数据查询装置的结构示意图；

图4是本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的Hbase数据库数据查询的方法、装置、电子设备及存储介质进行详细地说明。

图1示出本发明的一个实施例提供的一种Hbase数据库数据查询的方法，该方法可以由电子设备执行，该电子设备可以包括：服务器和/或终端设备，其中终端设备可以例如车载终端或手机终端等。换言之，该方法可以由安装在电子设备的软件或硬件来执行，该方法包括如下步骤：

步骤102：接收用于查询Hbase数据库中数据的查询语句，查询语句中包括第一待查询字段，第一待查询字段为限定查询范围的字段。

实际应用中，电子设备接收用户根据业务需求输入的查询语句，该查询语句用于查询Hbase数据库中数据。其中，在同一业务中，根据不同的业务需求，相应的查询语句不同。此外，在不同的业务中，根据业务的不同，目标字段可能不同。

需要说明的是，下述说明，均以通信业务为例，但本实施例的方案不仅限应用于通信业务。

查询语句中包括第一待查询字段，该第一待查询字段为限定查询范围的字段。例如，查询语句为“2022年8月的用户话费信息”，是想要查询在“2022年8月”这个时间范围内的“用户话费信息”数据，即“2022年8月”字段限定了查询的时间范围，是第一待查询字段。在上述示例中，第一待查询字段属于时间字段，此外，第一待查询字段还可以为属于地理字段、费用字段或数据流量字段等字段。

查询语句中可以包括一个或多个第一待查询字段。在上述示例中，查询语句中包括了一个第一待查询字段。查询语句中还可以包括多个第一待查询字段，例如，查询语句为“2022年8月用户话费少于50元的用户信息”，是想要查询在“2022年8月”这个时间范围内，且，处于“用户话费少于50元”这个费用范围内的“用户信息”数据，即“2022年8月”字段和“用户话费少于50元”字段分别限定了要查询的时间范围、要查询的费用范围，均是第一待查询字段。

步骤104：根据目标字段限定的查询范围和目标字段对应的Hbase数据库中的存储字段的设定粒度单位，对查询语句进行拆分，目标字段为第一待查询字段，或，基于用户需求信息从多个第一待查询字段中确定的一个第一待查询字段。

Hbase数据库中的存储字段，为Hbase数据库中存储的数据所属的字段，见下表1所示，该存储字段可以为时间字段、地理字段、费用字段或数据流量字段。

表1

设定粒度单位，具体的，可以设定Hbase数据库中存储每种字段的最小粒度单位为设定粒度单位，例如，下表2所示，Hbase数据库中时间字段的设定粒度单位可以为1天，Hbase数据库中地理字段的设定粒度单位可以为地级市或自治州，Hbase数据库中费用字段的设定粒度单位可以为10元，Hbase数据库中数据流量字段的设定粒度单位可以为5G。

表2Hbase数据库中存储每种字段的最小粒度单位

目标字段对应的Hbase数据库中的存储字段的设定粒度单位，例如，目标字段为“2022年8月”字段，Hbase数据库中存储每种字段的最小粒度单位如表2所示，那么，对应的Hbase数据库中的存储字段的设定粒度单位为1天。

用户需求信息，例如，在业务客户的某段时间且数据流量处于某段时的费用信息存在问题时，用户需要重新计算该费用信息，则查询并返回历史版本的数据，为用户需求信息。

实际应用中，根据查询语句中存在的第一待查询字段的数量，分为两种情况：

第一种情况，查询语句中存在一个第一待查询字段，则直接将该第一待查询字段作为目标字段，根据该目标字段限定的查询范围和该目标字段对应的Hbase数据库中的存储字段的设定粒度单位，对该查询语句进行拆分。示例性地，查询语句为“用户话费少于50元的用户信息”，费用字段的设定粒度单位为10元，该查询语句中存在一个第一待查询字段“用户话费少于50元”，即第一待查询字段“用户话费少于50元”为目标字段，目标字段限定的查询范围为：用户话费0元-50元，费用字段对应的Hbase数据库中的存储字段的设定粒度单位为10元，即该目标字段对应的Hbase数据库中的存储字段的设定粒度单位为10元，根据该目标字段限定的查询范围和该目标字段对应的Hbase数据库中的存储字段的设定粒度单位，目标字段可以被拆分成5个，则将该查询语句拆分成5个：“用户话费0元-10元的用户信息”、“用户话费11元-20元的用户信息”……“用户话费41元-50元的用户信息”。

第二种情况，查询语句中存在多个第一待查询字段，则在多个第一待查询字段中基于用户需求信息从多个第一待查询字段中确定的一个第一待查询字段作为目标字段，再根据该目标字段限定的查询范围和该目标字段对应的Hbase数据库中的存储字段的设定粒度单位，对目标字段进行拆分。

示例性地，查询语句为“2022年8月用户话费少于50元的用户信息”，其中包括了2个第一待查询字段：“2022年8月”第一待查询字段和“用户话费少于50元”第一待查询字段，基于用户需求信息，确定“2022年8月”第一待查询字段为目标字段。该目标字段限定的查询范围为：8月1日-8月31日，Hbase数据库中时间字段的设定粒度单位为1天，即该目标字段对应的Hbase数据库中的存储字段的设定粒度单位为1天，根据该目标字段限定的查询范围和该目标字段对应的Hbase数据库中的存储字段的设定粒度单位，目标字段可以被拆分成31个，则将该查询语句拆分成31个：“2022年8月1日用户话费少于50元的用户信息”，“2022年8月2日用户话费少于50元的用户信息”，……，“2022年8月31日用户话费少于50元的用户信息”。

步骤106：根据拆分后的查询语句，确定拆分后的查询语句对应的多个查询任务。

具体的，每个拆分后的查询语句对应的一个查询任务。接上述示例，“2022年8月1日用户话费少于50元的用户信息”对应一个查询任务，“2022年8月2日用户话费少于50元的用户信息”对应一个查询任务，……，“2022年8月31日用户话费少于50元的用户信息”对应一个查询任务，分别对应31个查询任务。

步骤108：基于分布式应用程序协调服务软件ZooKeeper节点和任务执行程序，分布式处理拆分后的查询语句对应的多个查询任务，得到从Hbase库中获取的多个查询任务对应的多个查询数据。

步骤110：对多个查询数据进行合并，得到查询结果并返回。

上述步骤102～步骤106的步骤中拆分程序将查询语句对应的一个查询任务拆分成多个查询任务，然后，ZooKeeper节点和任务执行程序对一个查询语句对应的多个查询任务进行分发和分布式处理，分布式处理完的数据返回给该拆分程序或者一个单独的程序，由该拆分程序或者该单独的程序对返回的多个查询数据进行合并，得到查询结果并返回。

本发明实施例提供的Hbase数据库数据查询的方法，通过接收用于查询Hbase数据库中数据的查询语句(查询语句中包括第一待查询字段，第一待查询字段为限定查询范围的字段)，根据目标字段(目标字段为第一待查询字段，或，基于用户需求信息从多个第一待查询字段中确定的一个第一待查询字段)限定的查询范围和目标字段对应的Hbase数据库中的存储字段的设定粒度单位，对查询语句进行拆分，根据拆分后的查询语句，确定拆分后的查询语句对应的多个查询任务，将查询语句对应的一个查询任务拆分成多个查询任务；再基于ZooKeeper节点和任务执行程序，分布式处理拆分后的查询语句对应的多个查询任务，得到从Hbase库中获取的多个查询任务对应的多个查询数据，相比于相关技术中，根据查询语句对应的一个查询任务进行较大范围的大数据取出，本方案中将一个查询任务拆分成多个查询任务，再分布式执行多个查询任务，每个查询任务处理的数据量相对较少且同时进行，得到查询数据的速度更快，从而提高了返回查询结果的速度，最终提高了查询效率，解决了相关技术在Hbase数据库中进行大数据量的查询时，查询效率低的问题。

在上述实施例中，查询语句中存在的第一待查询字段的数量有两种情况，在第二种情况中，即在查询语句中包括至少两个第一待查询字段的情况下，需要基于用户需求信息确定一个第一待查询字段作为目标字段，在下述实施例中，还提供了基于用户需求需求更快速的确定一个第一待查询字段作为目标字段的方案。

在一种实现方式中，若目标字段为基于用户需求信息从多个第一待查询字段中确定的一个第一待查询字段，在根据目标字段限定的查询范围和目标字段对应的Hbase数据库中的存储字段的设定粒度单位，对查询语句进行拆分(即步骤104)之前，还可执行以下步骤A1-A3：

步骤A1：基于查询语句和Hbase数据库中的存储字段的设定粒度单位、存储字段对应数据的修改次数，确定包括多个存储字段的信息的融合特征；

Hbase数据库中多个存储字段，具体的，多个存储字段可以包括时间字段、地理字段、费用字段和数据流量字段等。

由于Hbase数据库中，每个存储字段的数据进行修改或更新时，都会生成对应的版本标识(时间戳)，该版本标识(时间戳)为精确到毫秒后的一个日期，通过这个版本标识能够获得该版本的数据，也能统计该存储字段的数据进行修改或更新的次数，即该存储字段对应数据的修改次数信息。其中，为了清理历史版本，减少数据库的内存占用，存储字段对应数据的修改次数是自从上一次清理数据库碎片后存储字段对应数据的修改次数。

Hbase数据库中的存储字段的设定粒度单位，在上述步骤104部分已经进行说明，此处不再赘述。

融合特征，包括多个存储字段的信息，例如，融合特征可以包括时间字段的信息、地理字段的信息、费用字段的信息和数量流量字段的信息等。其中，每个存储字段的信息，都是基于查询语句和Hbase数据库中数据确定的。通过融合特征，能够得知每个存储字段对应的Hbase数据库中的历史版本数据量的情况。

步骤A2：将融合特征输入预先训练的神经网络模型，预先训练的神经网络模型输出多个存储字段中每个存储字段对应的拆分概率。

其中，拆分概率用于表示根据业务需求，对该存储字段对应的第一待查询字段进行拆分的推荐程度。

步骤A3：确定多个存储字段中拆分概率最高的存储字段对应的第一待查询字段为目标字段。

示例性地，多个存储字段为时间字段、地理字段、费用字段和数据流量字段，预先训练的神经网络模型分布输出时间字段的拆分概率、地理字段的拆分概率、费用字段的拆分概率、数据流量字段的拆分概率，其中，该时间字段的拆分概率最高，则将该时间字段对应的第一待查询字段确定为目标字段。

在实际应用中，一般查询Hbase数据库中的数据时，仅会处理并返回每个存储字段的最新版本的数据，不会处理并返回历史版本的数据，但在一些情况中，需要查询并返回历史版本的数据，例如，在业务客户的某段时间且数据流量处于某段时的费用信息存在问题时，需要重新计算该费用信息，查询并返回历史版本的数据时，通过引入Hbase数据库中的存储字段对应数据的修改次数，能够得知使用每个第一待查询字段进行拆分后，拆分后的范围内要处理的数据量的均匀程度，避免了相关技术中不清楚要处理的范围内数据量的问题，通过选择对应存储字段对应数据的修改次数较多的第一待查询字段作为目标字段，进行拆分，能够达到每个查询任务分配的要处理的数据量更均匀，分布式处理的效率更高。此外，本实施例还通过预先训练的神经网络模型输出每个存储字段对应的拆分概率，该拆分概率表示根据用户需求信息，对该存储字段对应的第一待查询字段进行拆分推荐的程度，从而进一步地提高了确定目标字段的速度，进而提高了查询效率。

在一种实现方式中，基于查询语句和Hbase数据库中的存储字段的设定粒度单位、存储字段对应数据的修改次数，确定包括多个存储字段的信息的融合特征(即步骤A1)，具体为以下步骤：

确定查询语句中是否存在目标存储字段对应的第一待查询字段，若存在，则根据目标存储字段对应的第一待查询字段限定的查询范围和目标存储字段的设定粒度单位，确定目标存储字段的拆分比，其中，目标存储字段为Hbase数据库中多个存储字段中的一个存储字段；

若不存在，则确定目标存储字段的拆分比为0；

根据目标存储字段对应数据的修改次数和多个存储字段对应数据的修改次数，确定目标存储字段对应数据的修改次数占比；

确定包括多个存储字段中每个存储字段的信息的融合特征，每个存储字段的信息为目标存储字段的拆分比和目标存储字段对应数据的修改次数占比。

接上述示例，以查询语句为“2022年8月用户话费少于50元的用户信息”，Hbase数据库中多个存储字段为时间字段、地理字段、费用字段和数据流量字段，时间字段的修改次数为35次，时间字段的设定粒度单位为1天，地理字段的修改次数为12次，地理字段的设定粒度单位为地级市或自治州，费用字段的修改次数为8次，费用字段的设定粒度单位为10元，数据流量字段的修改次数为45次，数据流量字段的设定粒度单位为5G为例。查询语句中包括两个第一待查询字段：“2022年8月”、“用户话费少于50元”，即存在时间字段对应的第一待查询字段，根据“2022年8月”限定的查询范围和时间字段的设定粒度单位1天，确定该时间字段的拆分比为31，根据时间字段对应的修改次数35次和多个存储字段总的修改次数100次，确定该时间字段的修改次数占比为0.35，即时间字段的信息为(31，0.35)。查询语句中不存在地理字段对应的第一待查询字段，确定地理字段的拆分比为0，根据地理字段对应的修改次数12次和多个存储字段总的修改次数100次，确定该地理字段的修改次数占比为0.12，即地理字段的信息为(0，0.12)。同理可知，费用字段的信息为(5，0.08)，数据流量字段的信息为(0，0.45)。即融合特征为包括：时间字段的信息(31，0.35)、地理字段的信息(0，0.12)、费用字段的信息(5，0.08)和数据流量字段的信息(0，0.45)。

在一种实现方式中，上述步骤A2中的预先训练的神经网络模型为深度前馈(deepfeed forward，DFF)网络模型，DFF网络模型包括输入层、多个隐藏层及输出层。

在一种实现方式中，在将融合特征输入预先训练的神经网络模型，预先训练的神经网络模型输出多个存储字段中每个存储字段对应的拆分概率(即步骤A2)之前，还可执行以下步骤：

将样本中查询语句对应的包括多个存储字段的信息的融合特征输入DFF网络模型，DFF网络模型输出多个存储字段中的每个存储字段对应的拆分概率；

设定基于需要设定的目标字段对应的存储字段的拆分概率为1，将DFF网络模型输出的目标字段对应的存储字段的拆分概率与1的差值作为损失值，根据损失值更新DFF网络模型。

示例性地，样本中查询语句为“2022年8月用户话费少于50元的用户信息”，基于需要设定的目标字段为“2022年8月”，其对应的存储字段为时间字段，设定时间字段的拆分概率为1，当DFF网络模型输出的时间字段的拆分概率不为1时，根据1与DFF网络模型输出的时间字段的拆分概率之间的差值作为损失值，根据该损失值更新该DFF网络模型。

在一种实现方式中，Hbase数据库中的存储字段包括：时间字段、地理字段、费用字段和数据流量字段。

具体的，在通信业务中，在Hbase数据库中存储的数据属于时间字段、地理字段、费用字段或数据流量字段，故在Hbase数据库中存储的数据所属的字段包括时间字段、地理字段、费用字段和数据流量字段。

在一种实现方式中，基于ZooKeeper节点和任务执行程序，分布式处理拆分后的查询语句对应的多个查询任务，得到从Hbase数据库中获取的多个查询任务对应的多个查询数据(即步骤108)，具体为以下步骤B1-B2：

步骤B1：将拆分后的查询语句对应的多个查询任务的任务信息，存入根据多个查询任务的任务数创建的多个ZooKeeper节点。

实际应用中，为了存储单个任务的状态信息，所以需要每个任务创建一个ZooKeeper节点。

步骤B2：任务执行程序检测到ZooKeeper节点中存入的任务信息，根据每个查询任务对应的任务信息执行查询任务，从Hbase数据库中得到查询数据并返回。

具体的，任务执行程序通过检听ZooKeeper节点中是否有数据更新或者有子节点产生，确定是否有新的查询任务需要执行，如果存在新的查询任务需要执行，任务执行程序则根据该查询任务对应的任务信息，调用Hbase数据库查询数据。

此外，为了减少对内存的占用，不影响下次查询任务的效率，上述创建的ZooKeeper节点可以为临时节点，在该ZooKeeper节点中任务执行完成，返回数据后，任务执行程序将该ZooKeeper节点删除。

图2是本申请实施例提供的另一种Hbase数据库数据查询的方法的流程示意图，如图2所示，方法包括：

步骤202，接收用于查询Hbase数据库中数据的查询语句，查询语句中包括第一待查询字段，第一待查询字段为限定查询范围的字段。

步骤204，基于查询语句和Hbase数据库中的存储字段的设定粒度单位、存储字段对应数据的修改次数，确定包括多个存储字段的信息的融合特征。

具体的，确定查询语句中是否存在目标存储字段对应的第一待查询字段，若存在，则根据目标存储字段对应的第一待查询字段限定的查询范围和目标存储字段的设定粒度单位，确定目标存储字段的拆分比，其中，目标存储字段为Hbase数据库中多个存储字段中的一个存储字段；

若不存在，则确定目标存储字段的拆分比为0；根据目标存储字段对应数据的修改次数和多个存储字段对应数据的修改次数，确定目标存储字段对应数据的修改次数占比；确定包括多个存储字段中每个存储字段的信息的融合特征，每个存储字段的信息为目标存储字段的拆分比和目标存储字段对应数据的修改次数占比。

步骤206，将融合特征输入预先训练的神经网络模型，预先训练的神经网络模型输出多个存储字段中每个存储字段对应的拆分概率。

其中，预先训练的神经网络模型为深度前馈DFF神经网络模型，DFF神经网络模型包括输入层、多个隐藏层及输出层。拆分概率用于表示根据用户需求信息，对该存储字段对应的第一待查询字段进行拆分的推荐程度。

步骤208，确定多个存储字段中拆分概率最高的存储字段对应的第一待查询字段为目标字段。

步骤210，根据目标字段限定的查询范围和目标字段对应的Hbase数据库中的存储字段的设定粒度单位，对查询语句进行拆分，目标字段为基于用户需求信息从多个第一待查询字段中确定的一个第一待查询字段。

步骤212，根据拆分后的查询语句，确定拆分后的查询语句对应的多个查询任务。

步骤214，基于ZooKeeper节点和任务执行程序，分布式处理拆分后的查询语句对应的多个查询任务，得到从Hbase库中获取的多个查询任务对应的多个查询数据。

将拆分后的查询语句对应的多个查询任务的任务信息，存入根据多个查询任务的任务数创建的多个ZooKeeper节点。任务执行程序检测到ZooKeeper节点中存入的任务信息，根据每个查询任务对应的任务信息执行查询任务，从Hbase数据库中得到查询数据并返回。

步骤216，对多个查询数据进行合并，得到查询结果并返回。

上述步骤202到至步骤216的具体过程在上述实施例中已进行详细说明，此处不再赘述。

本实施例通过接收用于查询Hbase数据库中数据的查询语句(查询语句中包括第一待查询字段，第一待查询字段为限定查询范围的字段)，根据目标字段(目标字段为第一待查询字段，或，基于用户需求信息从多个第一待查询字段中确定的一个第一待查询字段)限定的查询范围和目标字段对应的Hbase数据库中的存储字段的设定粒度单位，对查询语句进行拆分，根据拆分后的查询语句，确定拆分后的查询语句对应的多个查询任务，将查询语句对应的一个查询任务拆分成多个查询任务；再基于ZooKeeper节点和任务执行程序，分布式处理拆分后的查询语句对应的多个查询任务，得到从Hbase库中获取的多个查询任务对应的多个查询数据，相比于相关技术中，根据查询语句对应的一个查询任务进行较大范围的大数据取出，本方案中将一个查询任务拆分成多个查询任务，再分布式执行多个查询任务，每个查询任务处理的数据量相对较少且同时进行，得到查询数据的速度更快，从而提高了返回查询结果的速度，最终提高了查询效率，解决了相关技术在Hbase数据库中进行大数据量的查询时，查询效率低的问题。

需要说明的是，本申请实施例提供的Hbase数据库数据查询的方法，执行主体可以为Hbase数据库数据查询装置，或者该Hbase数据库数据查询装置中的用于执行Hbase数据库数据查询的方法的控制模块。本申请实施例中以Hbase数据库数据查询装置执行Hbase数据库数据查询的方法为例，说明本申请实施例提供的Hbase数据库数据查询装置。

图3是根据本发明实施例的Hbase数据库数据查询装置的结构示意图。如图3所示，Hbase数据库数据查询的装置包括：接收模块310、确定模块320、拆分模块330、获取模块340和返回模块350。

接收模块310，用于接收用于查询Hbase数据库中数据的查询语句，查询语句中包括第一待查询字段，第一待查询字段为限定查询范围的字段；确定模块320，用于根据目标字段限定的查询范围和目标字段对应的Hbase数据库中的存储字段的设定粒度单位，对查询语句进行拆分，目标字段为第一待查询字段，或，基于用户需求信息从多个第一待查询字段中确定的一个第一待查询字段；拆分模块330，用于根据拆分后的查询语句，确定拆分后的查询语句对应的多个查询任务；获取模块340，用于基于ZooKeeper节点和任务执行程序，分布式处理拆分后的查询语句对应的多个查询任务，得到从Hbase库中获取的多个查询任务对应的多个查询数据；返回模块350，用于对多个查询数据进行合并，得到查询结果并返回。

在一种实现方式中，Hbase数据库数据查询的装置，还包括目标字段确定模块350，用于基于查询语句和Hbase数据库中的存储字段的设定粒度单位、存储字段对应数据的修改次数，确定包括多个存储字段的信息的融合特征；将融合特征输入预先训练的神经网络模型，预先训练的神经网络模型输出多个存储字段中每个存储字段对应的拆分概率；确定多个存储字段中拆分概率最高的存储字段对应的第一待查询字段为目标字段。

在一种实现方式中，目标字段确定模块350，具体用于：确定查询语句中是否存在目标存储字段对应的第一待查询字段，若存在，则根据目标存储字段对应的第一待查询字段限定的查询范围和目标存储字段的设定粒度单位，确定目标存储字段的拆分比，其中，目标存储字段为Hbase数据库中多个存储字段中的一个存储字段；若不存在，则确定目标存储字段的拆分比为0；根据目标存储字段对应数据的修改次数和多个存储字段对应数据的修改次数，确定目标存储字段对应数据的修改次数占比；确定包括多个存储字段中每个存储字段的信息的融合特征，每个存储字段的信息为目标存储字段的拆分比和目标存储字段对应数据的修改次数占比。

在一种实现方式中，目标字段确定模块350中的预先训练的神经网络模型为深度前馈DFF神经网络模型，DFF神经网络模型包括输入层、多个隐藏层及输出层。

在一种实现方式中，Hbase数据库数据查询的装置中的Hbase数据库中的存储字段包括：时间字段、地理字段、费用字段和数据流量字段。

在一种实现方式中，目标字段确定模块350，还用于：将样本中查询语句对应的包括多个存储字段的信息的融合特征输入DFF网络模型，DFF网络模型输出多个存储字段中的每个存储字段对应的拆分概率；

在一种实现方式中，获取模块340，具体用于：将拆分后的查询语句对应的多个查询任务的任务信息，存入根据多个查询任务的任务数创建的多个ZooKeeper节点；

任务执行程序检测到ZooKeeper节点中存入的任务信息，根据每个查询任务对应的任务信息执行查询任务，从Hbase数据库中得到查询数据并返回。

采用本发明实施例提供的Hbase数据库数据查询装置，通过接收用于查询Hbase数据库中数据的查询语句(查询语句中包括第一待查询字段，第一待查询字段为限定查询范围的字段)，根据目标字段(目标字段为第一待查询字段，或，基于用户需求信息从多个第一待查询字段中确定的一个第一待查询字段)限定的查询范围和目标字段对应的Hbase数据库中的存储字段的设定粒度单位，对查询语句进行拆分，根据拆分后的查询语句，确定拆分后的查询语句对应的多个查询任务，将查询语句对应的一个查询任务拆分成多个查询任务；再基于ZooKeeper节点和任务执行程序，分布式处理拆分后的查询语句对应的多个查询任务，得到从Hbase库中获取的多个查询任务对应的多个查询数据，相比于相关技术中，根据查询语句对应的一个查询任务进行较大范围的大数据取出，本方案中将一个查询任务拆分成多个查询任务，再分布式执行多个查询任务，每个查询任务处理的数据量相对较少且同时进行，得到查询数据的速度更快，从而提高了返回查询结果的速度，最终提高了查询效率，解决了相关技术在Hbase数据库中进行大数据量的查询时，查询效率低的问题。

本申请实施例中的Hbase数据库数据查询装置可以是装置，也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备，也可以为非移动电子设备。示例性的，移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本或者个人数字助理(personal digital assistant，PDA)等，非移动电子设备可以为服务器、网络附属存储器(Network Attached Storage，NAS)、个人计算机(personal computer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的Hbase数据库数据查询装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统，可以为ios操作系统，还可以为其他可能的操作系统，本申请实施例不作具体限定。

本申请实施例提供的Hbase数据库数据查询装置能够实现图1至图2的方法实施例中实现的各个过程，为避免重复，这里不再赘述。

基于相同的技术构思，本申请实施例还提供了一种电子设备，该电子设备用于执行上述的Hbase数据库数据查询方法，图4为实现本申请各个实施例的一种电子设备的结构示意图。电子设备可因配置或性能不同而产生比较大的差异，可以包括处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440，其中，处理器410，通信接口420，存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储在存储器430上并可在处理器410上运行的计算机程序，以执行下述步骤：

接收用于查询Hbase数据库中数据的查询语句，查询语句中包括第一待查询字段，第一待查询字段为限定查询范围的字段；根据目标字段限定的查询范围和目标字段对应的Hbase数据库中的存储字段的设定粒度单位，对查询语句进行拆分，目标字段为第一待查询字段，或，基于用户需求信息从多个第一待查询字段中确定的一个第一待查询字段；根据拆分后的查询语句，确定拆分后的查询语句对应的多个查询任务；基于分布式应用程序协调服务软件ZooKeeper节点和任务执行程序，分布式处理拆分后的查询语句对应的多个查询任务，得到从Hbase库中获取的多个查询任务对应的多个查询数据；对多个查询数据进行合并，得到查询结果并返回。

采用本发明实施例提供的电子设备，通过接收用于查询Hbase数据库中数据的查询语句(查询语句中包括第一待查询字段，第一待查询字段为限定查询范围的字段)，根据目标字段(目标字段为第一待查询字段，或，基于用户需求信息从多个第一待查询字段中确定的一个第一待查询字段)限定的查询范围和目标字段对应的Hbase数据库中的存储字段的设定粒度单位，对查询语句进行拆分，根据拆分后的查询语句，确定拆分后的查询语句对应的多个查询任务，将查询语句对应的一个查询任务拆分成多个查询任务；再基于ZooKeeper节点和任务执行程序，分布式处理拆分后的查询语句对应的多个查询任务，得到从Hbase库中获取的多个查询任务对应的多个查询数据，相比于相关技术中，根据查询语句对应的一个查询任务进行较大范围的大数据取出，本方案中将一个查询任务拆分成多个查询任务，再分布式执行多个查询任务，每个查询任务处理的数据量相对较少且同时进行，得到查询数据的速度更快，从而提高了返回查询结果的速度，最终提高了查询效率，解决了相关技术在Hbase数据库中进行大数据量的查询时，查询效率低的问题。

具体执行步骤可以参见上述Hbase数据库数据查询的方法实施例的各个步骤，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，本申请实施例中的电子设备包括：服务器、终端或除终端之外的其他设备。

以上电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，例如，输入单元，可以包括图形处理器(Graphics Processing Unit，GPU)和麦克风，显示单元可以采用液晶显示器、有机发光二极管等形式来配置显示面板。用户输入单元包括触控面板以及其他输入设备中的至少一种。触控面板也称为触摸屏。其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

存储器可用于存储软件程序以及各种数据。存储器可主要包括存储程序或指令的第一存储区和存储数据的第二存储区，其中，第一存储区可存储操作系统、至少一个功能所需的应用程序或指令(比如声音播放功能、图像播放功能等)等。此外，存储器可以包括易失性存储器或非易失性存储器，或者，存储器可以包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DRRAM)。

处理器可包括一个或多个处理单元；可选的，处理器集成应用处理器和调制解调处理器，其中，应用处理器主要处理涉及操作系统、用户界面和应用程序等的操作，调制解调处理器主要处理无线通信信号，如基带处理器。可以理解的是，上述调制解调处理器也可以不集成到处理器中。

本申请实施例还提供一种可读存储介质，所述可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述Hbase数据库数据查询的方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质，包括计算机可读存储介质，如计算机只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等。

本申请实施例另提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现上述Hbase数据库数据查询的方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种Hbase数据库数据查询的方法，其特征在于，包括：

接收用于查询Hbase数据库中数据的查询语句，所述查询语句中包括第一待查询字段，所述第一待查询字段为限定查询范围的字段；

根据目标字段限定的查询范围和所述目标字段对应的所述Hbase数据库中的存储字段的设定粒度单位，对所述查询语句进行拆分，所述目标字段为第一待查询字段，或，基于用户需求信息从多个第一待查询字段中确定的一个第一待查询字段；

根据拆分后的查询语句，确定所述拆分后的查询语句对应的多个查询任务；

基于分布式应用程序协调服务软件ZooKeeper节点和任务执行程序，分布式处理所述拆分后的查询语句对应的多个查询任务，得到从所述Hbase库中获取的所述多个查询任务对应的多个查询数据；

对所述多个查询数据进行合并，得到查询结果并返回。

2.根据权利要求1所述的方法，其特征在于，若所述目标字段为基于用户需求信息从多个第一待查询字段中确定的一个第一待查询字段，在所述根据目标字段限定的查询范围和所述目标字段对应的所述Hbase数据库中的存储字段的设定粒度单位，对所述查询语句进行拆分之前，还包括：

基于所述查询语句和所述Hbase数据库中的存储字段的设定粒度单位、存储字段对应数据的修改次数，确定包括多个存储字段的信息的融合特征；

将所述融合特征输入预先训练的神经网络模型，所述预先训练的神经网络模型输出所述多个存储字段中每个存储字段对应的拆分概率；

确定所述多个存储字段中拆分概率最高的存储字段对应的第一待查询字段为目标字段。

3.根据权利要求2所述的方法，其特征在于，所述基于所述查询语句和所述Hbase数据库中的存储字段的设定粒度单位、存储字段对应数据的修改次数，确定包括多个存储字段的信息的融合特征，包括：

确定所述查询语句中是否存在目标存储字段对应的第一待查询字段，若存在，则根据所述目标存储字段对应的第一待查询字段限定的查询范围和所述目标存储字段的设定粒度单位，确定所述目标存储字段的拆分比，其中，所述目标存储字段为所述Hbase数据库中多个存储字段中的一个存储字段；

若不存在，则确定所述目标存储字段的拆分比为0；

根据所述目标存储字段对应数据的修改次数和所述多个存储字段对应数据的修改次数，确定所述目标存储字段对应数据的修改次数占比；

确定包括所述多个存储字段中每个存储字段的信息的融合特征，所述每个存储字段的信息为所述目标存储字段的拆分比和所述目标存储字段对应数据的修改次数占比。

4.根据权利要求2所述的方法，其特征在于，所述预先训练的神经网络模型为深度前馈DFF神经网络模型，所述DFF神经网络模型包括输入层、多个隐藏层及输出层。

5.根据权利要求1至3中任一项所述的方法，其特征在于，所述Hbase数据库中的存储字段包括：时间字段、地理字段、费用字段和数据流量字段。

6.根据权利要求4所述的方法，其特征在于，在所述将所述融合特征输入预先训练的神经网络模型，所述预先训练的神经网络模型输出所述多个存储字段中每个存储字段对应的拆分概率之前，还包括：

将样本中查询语句对应的包括多个存储字段的信息的融合特征输入所述DFF网络模型，所述DFF网络模型输出所述多个存储字段中的每个存储字段对应的拆分概率；

设定基于需要设定的目标字段对应的存储字段的拆分概率为1，将所述DFF网络模型输出的所述目标字段对应的存储字段的拆分概率与1的差值作为损失值，根据所述损失值更新所述DFF网络模型。

7.根据权利要求1所述的方法，其特征在于，所述基于ZooKeeper节点和任务执行程序分布式处理所述拆分后的查询语句对应的多个查询任务，得到从所述Hbase数据库中获取的所述多个查询任务对应的多个查询数据，包括：

将所述拆分后的查询语句对应的多个查询任务的任务信息，存入根据所述多个查询任务的任务数创建的多个ZooKeeper节点；

任务执行程序检测到ZooKeeper节点中存入的任务信息，根据每个查询任务对应的任务信息执行查询任务，从所述Hbase数据库中得到查询数据并返回。

8.一种Hbase数据库数据查询装置，其特征在于，包括：

接收模块，用于接收用于查询Hbase数据库中数据的查询语句，所述查询语句中包括第一待查询字段，所述第一待查询字段为限定查询范围的字段；

确定模块，用于根据目标字段限定的查询范围和所述目标字段对应的所述Hbase数据库中的存储字段的设定粒度单位，对所述查询语句进行拆分，所述目标字段为第一待查询字段，或，基于用户需求信息从多个第一待查询字段中确定的一个第一待查询字段；

拆分模块，用于根据拆分后的查询语句，确定所述拆分后的查询语句对应的多个查询任务；

获取模块，用于基于ZooKeeper节点和任务执行程序，分布式处理所述拆分后的查询语句对应的多个查询任务，得到从所述Hbase库中获取的所述多个查询任务对应的多个查询数据；

返回模块，用于对所述多个查询数据进行合并，得到查询结果并返回。

9.一种Hbase数据库数据查询电子设备，其特征在于，所述设备包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述可执行指令被配置由所述处理器执行，所述可执行指令包括用于执行如权利要求1-7任一项所述的Hbase数据库数据查询方法。

10.一种存储介质，其特征在于，所述存储介质用于存储计算机可执行指令，所述计算机可执行指令使得计算机执行如权利要求1-7任一项所述的Hbase数据库数据查询方法。