CN114138830A

CN114138830A - 一种大数据海量数据秒级查询方法、装置及计算机介质

Info

Publication number: CN114138830A
Application number: CN202111351597.0A
Authority: CN
Inventors: 王锦胤; 马绍桐
Original assignee: Zijincheng Credit Investigation Co ltd
Current assignee: Zijincheng Credit Investigation Co ltd
Priority date: 2021-11-15
Filing date: 2021-11-15
Publication date: 2022-03-04

Abstract

本发明提供一种大数据海量数据秒级查询方法、装置及计算机介质，涉及计算机技术领域，所述方法包括：识别待查询目标文本的字段中数据量大的字段；排除所述的识别出的数据量大的字段，将剩余字段的字段信息存入ES中；将待查询目标文本的所有字段都存入Hbase；在hive中创建hive与ES、hive与Hbase的映射外表；通过向hive映射外表加载数据实现将hive数仓数据写入ES和Hbase；根据条件检索数据ID，ES返回数据ID；根据ID查询Hbase中响应的记录；返回查询结果,解决了当目标查询文件字段的信息量较大，对前端应用服务器的查询响应造成影响；ES查询数据较慢，做不到秒级的查询，影响用户的使用感受并且数据都存在ES上，增加了ES集群的压力，提高了ES集群的维护成本的问题。

Description

一种大数据海量数据秒级查询方法、装置及计算机介质

技术领域

本发明涉及计算机技术领域，具体为一种大数据海量数据秒级查询方法、装置及计算机介质。

背景技术

hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转变成MapReduce任务来执行；

在实际的应用中，Hive数仓的数据为了提供数据给前端应用服务器使用，是将数据上传到ElasticSearch(简称ES)中，开发接口的方式为前端应用服务器提供数据；

但是当遇到目标查询文件字段的信息量很大的时候，就会对前端应用服务器的查询响应造成影响；容易出现对海量数据时，ES查询数据较慢，做不到秒级的查询，影响用户的使用感受并且数据都存在ES上，增加了ES集群的压力，提高了ES集群的维护成本。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种大数据海量数据秒级查询方法、装置及计算机介质，解决了上述背景技术中提出的当遇到目标查询文件字段的信息量很大的时候，就会对前端应用服务器的查询响应造成影响；容易出现对海量数据查询时，ES查询数据速度较慢，做不到秒级的查询，影响用户的使用感受并且数据都存在ES上，增加了ES集群的压力，提高了ES集群的维护成本的问题。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：一种大数据海量数据秒级查询方法，所述方法包括：

识别待查询目标文本的字段中数据量大的字段；

排除所述的识别出的数据量大的字段，将剩余字段的字段信息存入ES中；

将待查询目标文本的所有字段都存入Hbase；

在hive中创建hive与ES、hive与Hbase的映射外表；

通过向hive映射外表加载数据实现将hive数仓数据写入ES和Hbase；

根据条件检索数据ID，ES返回数据ID；

根据ID查询Hbase中响应的记录；

返回查询结果。

优选地，所述存入ES的字段同时支持被查询。

优选地，所述将待查询目标文本的所有字段都存入Hbase，同时还需要存储字段中的原始数据信息。

优选地，所述根据条件检索数据ID，ES返回数据ID；包括：前端应用服务器调用接口进行查询时，先通过ES的倒排索引列表检索到查询关键词所述的数据ID。

优选地，所述根据ID查询Hbase中响应的记录；包括：

获取SearchHits中的ID列表，遍历ID列表；

将ID作为Hbase的rowkey通过Hbase的get方法基于rowkey查询出具体的数据信息，获取查询结果的列名和列值，供接口调用。

本发明还提供一种大数据海量数据秒级查询装置，包括：

字段识别模块：用于识别待查询目标文本的字段中数据量大的字段；

字段信息存储模块：用于排除所述的识别出的数据量大的字段，将剩余字段的字段信息存入ES中；

将待查询目标文本的所有字段都存入Hbase；

映射创建模块：用于在hive中创建hive与ES、hive与Hbase的映射外表；

数据查询模块：用于通过向hive映射外表加载数据实现将hive数仓数据写入ES和Hbase；

根据条件检索数据ID，ES返回数据ID；

根据ID查询Hbase中响应的记录；

返回查询结果。

本发明还提供一种大数据海量数据秒级查询终端，所述终端包括处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如前任一项所述的一种大数据海量数据秒级查询方法。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被一个或多个处理器执行时实现如前任一项所述的一种大数据海量数据秒级查询方法的步骤。

有益效果

本发明提供了一种大数据海量数据秒级查询方法、装置及计算机介质。具备以下有益效果：

本发明实施例提供的技术方案使用ES作为中间存储，在秒级查询的基础上还实现了数据的检索；通过hive映射外表的方式将离线数仓hive和实时数仓Hbase进行了整合，扩展了业务；使用rowkey作为Hbase的查询方式，避免了全表扫描，提高了查询效率；提高了数据查询的速度，即使海量数据也可以达到秒级，减轻了ES集群的压力。

附图说明

图1为本发明提供的一种大数据海量数据秒级查询方法流程图；

图2为本发明提供的一种大数据海量数据秒级查询装置结构示意图；

图3为本发明提供的又一种大数据海量数据秒级查询终端结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

为清楚说明本发明技术方案，对相关名词进行如下解释：

hive：hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本低，可以通过类似SQL语句实现快速MapReduce统计，使MapReduce变得更加简单，而不必开发专门的MapReduce应用程序。hive十分适合对数据仓库进行统计分析；

ES(Elasticsearch):是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基于RESTful web接口。Elasticsearch是用Java语言开发的，并作为Apache许可条款下的开放源码发布，是一种流行的企业级搜索引擎；

Hbase:是一种构建在HDFS之上的分布式、面向列的存储系统,在需要实时读写、随机访问超大规模数据集时，可以使用Hbase。

Rowkey：是用来检索记录的主键，访问Hbase table中的行。

如图1所示，一种大数据海量数据秒级查询方法，所述方法包括：

S1.识别待查询目标文本的字段中数据量大的字段；

S2.排除所述的识别出的数据量大的字段，将剩余字段的字段信息存入ES中；

S3.将待查询目标文本的所有字段都存入Hbase；

S4.在hive中创建hive与ES、hive与Hbase的映射外表；

S5.通过向hive映射外表加载数据实现将hive数仓数据写入ES和Hbase；

S6.根据条件检索数据ID，ES返回数据ID；

S7.根据ID查询Hbase中响应的记录；

S8.返回查询结果。

优选地，所述存入ES的字段同时支持被查询。

优选地，所述根据ID查询Hbase中响应的记录；包括：

获取SearchHits中的ID列表，遍历ID列表；

以实现基于招标公告文本中的大数据量字段的秒级查询为例，采用ES整合Hbase实现二级索引的方式进行查询；

招标公告的主要字段如下：

其中，招标产品概述、招标概要信息、招标文本等字段的数据量是很大的，所以我们排除这些字段将剩下的字段信息存入ES中，具体的存储设计如下：

在hive中创建hive和ES、hive和Hbase的映射外表，然后通过向hive映射外表加载数据来实现hive数仓数据存入ES、Hbase中；

前端应用服务器调用接口进行查询时，先通过ES的倒排索引列表检索到查询关键词所述的数据ID；

获取SearchHits中的ID列表，遍历ID列表；

整个实现方式通过Java代码实现，包括数据检索ES、数据查询Hbase、数据查询接口开发。

如图2所示，本发明还提供一种大数据海量数据秒级查询装置，包括：

将待查询目标文本的所有字段都存入Hbase；

根据条件检索数据ID，ES返回数据ID；

根据ID查询Hbase中响应的记录；

返回查询结果。

如图3所示，本发明还提供一种大数据海量数据秒级查询终端，所述终端包括处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如前任一项所述的一种大数据海量数据秒级查询方法。

综上所述，本发明实施例提供的技术方案使用ES作为中间存储，在秒级查询的基础上还实现了数据的检索；通过hive映射外表的方式将离线数仓hive和实时数仓Hbase进行了整合，扩展了业务；使用rowkey作为Hbase的查询方式，避免了全表扫描，提高了查询效率；提高了数据查询的速度，即使海量数据也可以达到秒级，减轻了ES集群的压力。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种大数据海量数据秒级查询方法，其特征在于，所述方法包括：

识别待查询目标文本的字段中数据量大的字段；

将待查询目标文本的所有字段都存入Hbase；

在hive中创建hive与ES、hive与Hbase的映射外表；

根据条件检索数据ID，ES返回数据ID；

根据ID查询Hbase中响应的记录；

返回查询结果。

2.根据权利要求1所述的一种大数据海量数据秒级查询方法，其特征在于，所述存入ES的字段同时支持被查询。

3.根据权利要求2所述的一种大数据海量数据秒级查询方法，其特征在于，所述将待查询目标文本的所有字段都存入Hbase，同时还需要存储字段中的原始数据信息。

4.根据权利要求3所述的一种大数据海量数据秒级查询方法，其特征在于，所述根据条件检索数据ID，ES返回数据ID；包括：前端应用服务器调用接口进行查询时，先通过ES的倒排索引列表检索到查询关键词所述的数据ID。

5.根据权利要求4所述的一种大数据海量数据秒级查询方法，其特征在于，所述根据ID查询Hbase中响应的记录；包括：

获取SearchHits中的ID列表，遍历ID列表；

6.一种大数据海量数据秒级查询装置，其特征在于，包括：

将待查询目标文本的所有字段都存入Hbase；

根据条件检索数据ID，ES返回数据ID；

根据ID查询Hbase中响应的记录；

返回查询结果。

7.一种大数据海量数据秒级查询终端，其特征在于，所述终端包括处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如权利要求1至5任一项所述的一种大数据海量数据秒级查询方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被一个或多个处理器执行时实现如权利要求1至5任一项所述的一种大数据海量数据秒级查询方法的步骤。