CN114138830A - 一种大数据海量数据秒级查询方法、装置及计算机介质 - Google Patents

一种大数据海量数据秒级查询方法、装置及计算机介质 Download PDF

Info

Publication number
CN114138830A
CN114138830A CN202111351597.0A CN202111351597A CN114138830A CN 114138830 A CN114138830 A CN 114138830A CN 202111351597 A CN202111351597 A CN 202111351597A CN 114138830 A CN114138830 A CN 114138830A
Authority
CN
China
Prior art keywords
data
hbase
hive
fields
query
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111351597.0A
Other languages
English (en)
Inventor
王锦胤
马绍桐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zijincheng Credit Investigation Co ltd
Original Assignee
Zijincheng Credit Investigation Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zijincheng Credit Investigation Co ltd filed Critical Zijincheng Credit Investigation Co ltd
Priority to CN202111351597.0A priority Critical patent/CN114138830A/zh
Publication of CN114138830A publication Critical patent/CN114138830A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种大数据海量数据秒级查询方法、装置及计算机介质,涉及计算机技术领域,所述方法包括:识别待查询目标文本的字段中数据量大的字段;排除所述的识别出的数据量大的字段,将剩余字段的字段信息存入ES中;将待查询目标文本的所有字段都存入Hbase;在hive中创建hive与ES、hive与Hbase的映射外表;通过向hive映射外表加载数据实现将hive数仓数据写入ES和Hbase;根据条件检索数据ID,ES返回数据ID;根据ID查询Hbase中响应的记录;返回查询结果,解决了当目标查询文件字段的信息量较大,对前端应用服务器的查询响应造成影响;ES查询数据较慢,做不到秒级的查询,影响用户的使用感受并且数据都存在ES上,增加了ES集群的压力,提高了ES集群的维护成本的问题。

Description

一种大数据海量数据秒级查询方法、装置及计算机介质
技术领域
本发明涉及计算机技术领域,具体为一种大数据海量数据秒级查询方法、装置及计算机介质。
背景技术
hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行;
在实际的应用中,Hive数仓的数据为了提供数据给前端应用服务器使用,是将数据上传到ElasticSearch(简称ES)中,开发接口的方式为前端应用服务器提供数据;
但是当遇到目标查询文件字段的信息量很大的时候,就会对前端应用服务器的查询响应造成影响;容易出现对海量数据时,ES查询数据较慢,做不到秒级的查询,影响用户的使用感受并且数据都存在ES上,增加了ES集群的压力,提高了ES集群的维护成本。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种大数据海量数据秒级查询方法、装置及计算机介质,解决了上述背景技术中提出的当遇到目标查询文件字段的信息量很大的时候,就会对前端应用服务器的查询响应造成影响;容易出现对海量数据查询时,ES查询数据速度较慢,做不到秒级的查询,影响用户的使用感受并且数据都存在ES上,增加了ES集群的压力,提高了ES集群的维护成本的问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:一种大数据海量数据秒级查询方法,所述方法包括:
识别待查询目标文本的字段中数据量大的字段;
排除所述的识别出的数据量大的字段,将剩余字段的字段信息存入ES中;
将待查询目标文本的所有字段都存入Hbase;
在hive中创建hive与ES、hive与Hbase的映射外表;
通过向hive映射外表加载数据实现将hive数仓数据写入ES和Hbase;
根据条件检索数据ID,ES返回数据ID;
根据ID查询Hbase中响应的记录;
返回查询结果。
优选地,所述存入ES的字段同时支持被查询。
优选地,所述将待查询目标文本的所有字段都存入Hbase,同时还需要存储字段中的原始数据信息。
优选地,所述根据条件检索数据ID,ES返回数据ID;包括:前端应用服务器调用接口进行查询时,先通过ES的倒排索引列表检索到查询关键词所述的数据ID。
优选地,所述根据ID查询Hbase中响应的记录;包括:
获取SearchHits中的ID列表,遍历ID列表;
将ID作为Hbase的rowkey通过Hbase的get方法基于rowkey查询出具体的数据信息,获取查询结果的列名和列值,供接口调用。
本发明还提供一种大数据海量数据秒级查询装置,包括:
字段识别模块:用于识别待查询目标文本的字段中数据量大的字段;
字段信息存储模块:用于排除所述的识别出的数据量大的字段,将剩余字段的字段信息存入ES中;
将待查询目标文本的所有字段都存入Hbase;
映射创建模块:用于在hive中创建hive与ES、hive与Hbase的映射外表;
数据查询模块:用于通过向hive映射外表加载数据实现将hive数仓数据写入ES和Hbase;
根据条件检索数据ID,ES返回数据ID;
根据ID查询Hbase中响应的记录;
返回查询结果。
本发明还提供一种大数据海量数据秒级查询终端,所述终端包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如前任一项所述的一种大数据海量数据秒级查询方法。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被一个或多个处理器执行时实现如前任一项所述的一种大数据海量数据秒级查询方法的步骤。
有益效果
本发明提供了一种大数据海量数据秒级查询方法、装置及计算机介质。具备以下有益效果:
本发明实施例提供的技术方案使用ES作为中间存储,在秒级查询的基础上还实现了数据的检索;通过hive映射外表的方式将离线数仓hive和实时数仓Hbase进行了整合,扩展了业务;使用rowkey作为Hbase的查询方式,避免了全表扫描,提高了查询效率;提高了数据查询的速度,即使海量数据也可以达到秒级,减轻了ES集群的压力。
附图说明
图1为本发明提供的一种大数据海量数据秒级查询方法流程图;
图2为本发明提供的一种大数据海量数据秒级查询装置结构示意图;
图3为本发明提供的又一种大数据海量数据秒级查询终端结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
为清楚说明本发明技术方案,对相关名词进行如下解释:
hive:hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本低,可以通过类似SQL语句实现快速MapReduce统计,使MapReduce变得更加简单,而不必开发专门的MapReduce应用程序。hive十分适合对数据仓库进行统计分析;
ES(Elasticsearch):是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java语言开发的,并作为Apache许可条款下的开放源码发布,是一种流行的企业级搜索引擎;
Hbase:是一种构建在HDFS之上的分布式、面向列的存储系统,在需要实时读写、随机访问超大规模数据集时,可以使用Hbase。
Rowkey:是用来检索记录的主键,访问Hbase table中的行。
如图1所示,一种大数据海量数据秒级查询方法,所述方法包括:
S1.识别待查询目标文本的字段中数据量大的字段;
S2.排除所述的识别出的数据量大的字段,将剩余字段的字段信息存入ES中;
S3.将待查询目标文本的所有字段都存入Hbase;
S4.在hive中创建hive与ES、hive与Hbase的映射外表;
S5.通过向hive映射外表加载数据实现将hive数仓数据写入ES和Hbase;
S6.根据条件检索数据ID,ES返回数据ID;
S7.根据ID查询Hbase中响应的记录;
S8.返回查询结果。
优选地,所述存入ES的字段同时支持被查询。
优选地,所述将待查询目标文本的所有字段都存入Hbase,同时还需要存储字段中的原始数据信息。
优选地,所述根据条件检索数据ID,ES返回数据ID;包括:前端应用服务器调用接口进行查询时,先通过ES的倒排索引列表检索到查询关键词所述的数据ID。
优选地,所述根据ID查询Hbase中响应的记录;包括:
获取SearchHits中的ID列表,遍历ID列表;
将ID作为Hbase的rowkey通过Hbase的get方法基于rowkey查询出具体的数据信息,获取查询结果的列名和列值,供接口调用。
以实现基于招标公告文本中的大数据量字段的秒级查询为例,采用ES整合Hbase实现二级索引的方式进行查询;
招标公告的主要字段如下:
Figure BDA0003355607710000051
Figure BDA0003355607710000061
其中,招标产品概述、招标概要信息、招标文本等字段的数据量是很大的,所以我们排除这些字段将剩下的字段信息存入ES中,具体的存储设计如下:
Figure BDA0003355607710000062
Figure BDA0003355607710000071
在hive中创建hive和ES、hive和Hbase的映射外表,然后通过向hive映射外表加载数据来实现hive数仓数据存入ES、Hbase中;
前端应用服务器调用接口进行查询时,先通过ES的倒排索引列表检索到查询关键词所述的数据ID;
获取SearchHits中的ID列表,遍历ID列表;
将ID作为Hbase的rowkey通过Hbase的get方法基于rowkey查询出具体的数据信息,获取查询结果的列名和列值,供接口调用。
整个实现方式通过Java代码实现,包括数据检索ES、数据查询Hbase、数据查询接口开发。
如图2所示,本发明还提供一种大数据海量数据秒级查询装置,包括:
字段识别模块:用于识别待查询目标文本的字段中数据量大的字段;
字段信息存储模块:用于排除所述的识别出的数据量大的字段,将剩余字段的字段信息存入ES中;
将待查询目标文本的所有字段都存入Hbase;
映射创建模块:用于在hive中创建hive与ES、hive与Hbase的映射外表;
数据查询模块:用于通过向hive映射外表加载数据实现将hive数仓数据写入ES和Hbase;
根据条件检索数据ID,ES返回数据ID;
根据ID查询Hbase中响应的记录;
返回查询结果。
如图3所示,本发明还提供一种大数据海量数据秒级查询终端,所述终端包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如前任一项所述的一种大数据海量数据秒级查询方法。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被一个或多个处理器执行时实现如前任一项所述的一种大数据海量数据秒级查询方法的步骤。
综上所述,本发明实施例提供的技术方案使用ES作为中间存储,在秒级查询的基础上还实现了数据的检索;通过hive映射外表的方式将离线数仓hive和实时数仓Hbase进行了整合,扩展了业务;使用rowkey作为Hbase的查询方式,避免了全表扫描,提高了查询效率;提高了数据查询的速度,即使海量数据也可以达到秒级,减轻了ES集群的压力。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (8)

1.一种大数据海量数据秒级查询方法,其特征在于,所述方法包括:
识别待查询目标文本的字段中数据量大的字段;
排除所述的识别出的数据量大的字段,将剩余字段的字段信息存入ES中;
将待查询目标文本的所有字段都存入Hbase;
在hive中创建hive与ES、hive与Hbase的映射外表;
通过向hive映射外表加载数据实现将hive数仓数据写入ES和Hbase;
根据条件检索数据ID,ES返回数据ID;
根据ID查询Hbase中响应的记录;
返回查询结果。
2.根据权利要求1所述的一种大数据海量数据秒级查询方法,其特征在于,所述存入ES的字段同时支持被查询。
3.根据权利要求2所述的一种大数据海量数据秒级查询方法,其特征在于,所述将待查询目标文本的所有字段都存入Hbase,同时还需要存储字段中的原始数据信息。
4.根据权利要求3所述的一种大数据海量数据秒级查询方法,其特征在于,所述根据条件检索数据ID,ES返回数据ID;包括:前端应用服务器调用接口进行查询时,先通过ES的倒排索引列表检索到查询关键词所述的数据ID。
5.根据权利要求4所述的一种大数据海量数据秒级查询方法,其特征在于,所述根据ID查询Hbase中响应的记录;包括:
获取SearchHits中的ID列表,遍历ID列表;
将ID作为Hbase的rowkey通过Hbase的get方法基于rowkey查询出具体的数据信息,获取查询结果的列名和列值,供接口调用。
6.一种大数据海量数据秒级查询装置,其特征在于,包括:
字段识别模块:用于识别待查询目标文本的字段中数据量大的字段;
字段信息存储模块:用于排除所述的识别出的数据量大的字段,将剩余字段的字段信息存入ES中;
将待查询目标文本的所有字段都存入Hbase;
映射创建模块:用于在hive中创建hive与ES、hive与Hbase的映射外表;
数据查询模块:用于通过向hive映射外表加载数据实现将hive数仓数据写入ES和Hbase;
根据条件检索数据ID,ES返回数据ID;
根据ID查询Hbase中响应的记录;
返回查询结果。
7.一种大数据海量数据秒级查询终端,其特征在于,所述终端包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如权利要求1至5任一项所述的一种大数据海量数据秒级查询方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被一个或多个处理器执行时实现如权利要求1至5任一项所述的一种大数据海量数据秒级查询方法的步骤。
CN202111351597.0A 2021-11-15 2021-11-15 一种大数据海量数据秒级查询方法、装置及计算机介质 Pending CN114138830A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111351597.0A CN114138830A (zh) 2021-11-15 2021-11-15 一种大数据海量数据秒级查询方法、装置及计算机介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111351597.0A CN114138830A (zh) 2021-11-15 2021-11-15 一种大数据海量数据秒级查询方法、装置及计算机介质

Publications (1)

Publication Number Publication Date
CN114138830A true CN114138830A (zh) 2022-03-04

Family

ID=80393202

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111351597.0A Pending CN114138830A (zh) 2021-11-15 2021-11-15 一种大数据海量数据秒级查询方法、装置及计算机介质

Country Status (1)

Country Link
CN (1) CN114138830A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116028598A (zh) * 2023-03-30 2023-04-28 紫金诚征信有限公司 一种基于es的文件生成方法、装置及计算机可读介质
CN116719839A (zh) * 2023-08-10 2023-09-08 北京合思信息技术有限公司 会计档案的数据查询方法、装置和电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108416620A (zh) * 2018-02-08 2018-08-17 杭州浮云网络科技有限公司 一种基于大数据的画像数据的智能社交广告投放平台
CN108509437A (zh) * 2017-02-24 2018-09-07 南京烽火星空通信发展有限公司 一种ElasticSearch查询加速方法
CN112307061A (zh) * 2019-10-31 2021-02-02 北京京东尚科信息技术有限公司 用于查询数据的方法和装置
CN112632068A (zh) * 2020-12-22 2021-04-09 银盛支付服务股份有限公司 一种快速提供海量数据查询服务的解决方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108509437A (zh) * 2017-02-24 2018-09-07 南京烽火星空通信发展有限公司 一种ElasticSearch查询加速方法
CN108416620A (zh) * 2018-02-08 2018-08-17 杭州浮云网络科技有限公司 一种基于大数据的画像数据的智能社交广告投放平台
CN112307061A (zh) * 2019-10-31 2021-02-02 北京京东尚科信息技术有限公司 用于查询数据的方法和装置
CN112632068A (zh) * 2020-12-22 2021-04-09 银盛支付服务股份有限公司 一种快速提供海量数据查询服务的解决方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李奇峰: "Hbase+Elasticsearch构建海量数据检索平台", pages 1 - 8, Retrieved from the Internet <URL:https://blog.csdn.net/mrligifeng/article/details/111771109> *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116028598A (zh) * 2023-03-30 2023-04-28 紫金诚征信有限公司 一种基于es的文件生成方法、装置及计算机可读介质
CN116028598B (zh) * 2023-03-30 2023-05-30 紫金诚征信有限公司 一种基于es的文件生成方法、装置及计算机可读介质
CN116719839A (zh) * 2023-08-10 2023-09-08 北京合思信息技术有限公司 会计档案的数据查询方法、装置和电子设备
CN116719839B (zh) * 2023-08-10 2024-01-26 北京合思信息技术有限公司 会计档案的数据查询方法、装置和电子设备

Similar Documents

Publication Publication Date Title
CN107291948B (zh) 一种分布式newSQL数据库的访问方法
CN110321344B (zh) 关联数据的信息查询方法、装置、计算机设备及存储介质
CN104536959B (zh) 一种Hadoop存取海量小文件的优化方法
US8862566B2 (en) Systems and methods for intelligent parallel searching
CN104133858B (zh) 基于列存储的智能双引擎分析系统及方法
CN114138830A (zh) 一种大数据海量数据秒级查询方法、装置及计算机介质
WO2017170459A1 (ja) 異種データソース混在環境におけるフィールド間の関係性の自動的発見のための方法、プログラム、および、システム
US9747349B2 (en) System and method for distributing queries to a group of databases and expediting data access
CN111680063B (zh) Elasticsearch分页查询数据的方法及装置
CN105279213A (zh) 一种日志数据库检索装置及检索方法
Fraczek et al. Comparative analysis of relational and non-relational databases in the context of performance in web applications
US11487729B2 (en) Data management device, data management method, and non-transitory computer readable storage medium
CN107329987A (zh) 一种基于mongo数据库的搜索系统
CN102760165B (zh) 一种使用位图索引的全文检索方法和装置
Hedjazi et al. A comparison of Hadoop, Spark and Storm for the task of large scale image classification
CN104571946A (zh) 一种支持逻辑电路快速查询的存储器装置及其访问方法
CN110781210A (zh) 一种应对大规模数据多维聚合实时查询的数据处理平台
CN102521383A (zh) 一种分布式系统中的海量文件存储和访问方法
CN104834663A (zh) 面向光盘库的全文检索系统
Chung et al. Multiple k nearest neighbor search
CN112395387A (zh) 全文检索方法及装置、计算机存储介质、电子设备
WO2008055202A2 (en) System and method for distributing queries to a group of databases and expediting data access
US20190087440A1 (en) Hierarchical virtual file systems for accessing data sets
JP2004192657A (ja) 情報検索システム、情報検索方法および情報検索用プログラムを記録した記録媒体
Ragavan Efficient key hash indexing scheme with page rank for category based search engine big data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination