CN111563095A - 一种基于HBase的数据检索装置 - Google Patents

一种基于HBase的数据检索装置 Download PDF

Info

Publication number
CN111563095A
CN111563095A CN202010363122.2A CN202010363122A CN111563095A CN 111563095 A CN111563095 A CN 111563095A CN 202010363122 A CN202010363122 A CN 202010363122A CN 111563095 A CN111563095 A CN 111563095A
Authority
CN
China
Prior art keywords
retrieval
hbase
data
module
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010363122.2A
Other languages
English (en)
Other versions
CN111563095B (zh
Inventor
程永新
孙玉颖
章传军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai New Torch Network Information Technology Ltd By Share Ltd
Original Assignee
Shanghai New Torch Network Information Technology Ltd By Share Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai New Torch Network Information Technology Ltd By Share Ltd filed Critical Shanghai New Torch Network Information Technology Ltd By Share Ltd
Priority to CN202010363122.2A priority Critical patent/CN111563095B/zh
Publication of CN111563095A publication Critical patent/CN111563095A/zh
Application granted granted Critical
Publication of CN111563095B publication Critical patent/CN111563095B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/243Natural language query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • G06F16/275Synchronous replication
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于HBase的数据检索装置,包括前端交互模块、检索处理模块和数据库同步模块,所述数据库同步模块对HBase数据库中的数据进行数据同步,同时在ElastieSearch搜索引擎中建立索引,并将同步后的数据保存索引中;所述前端交互模块在接收到检索请求后,将检索信息和筛选信息发送到检索处理模块;所述检索处理模块使用检索信息和筛选信息在索引中进行检索,并经由前端交互模块返回检索结果。本发明将HBase中变动的数据实时同步到ElasticSearch索引中进行存储,利用索引实现数据的灵活检索;通过对关键字匹配、语意检索、逻辑关系等检索策略,快速、准确的进行海量数据的检索。

Description

一种基于HBase的数据检索装置
技术领域
本发明涉及一种数据检索装置,尤其涉及一种基于HBase的数据检索装置。
背景技术
随着移动互联网技术的高速发展,尤其是智能移动终端的广泛普及,互联网相关企业的业务数据量呈现爆发式的增长。如何快速有效地处理这些数据,将其转化为有价值的信息,是亟需解决的问题。HBase(Hadoop Database)作为一个构建在HDFS(HadoopDistributed File System,Hadoop分布式文件系统)上,具有高可靠性、高性能、面向列、可伸缩等优秀特性的分布式存储系统,为数据的存储和处理提供了经济、高效、安全和可靠的保障,逐渐成为饱受海量数据困扰的企业存储数据首选的解决方案。
随着信息数据量的几何增长,HBase表数据量越来越大,对数据进行各个维度的统计的难度也随之变大。目前是通过写MapReduce或者使用Hive、Pig等工具的方法,这些方法均是对全表进行扫描,对集群性能消耗与网络带宽的占用较大,灵活性不够强,实时性不够强,在超大规模数据量的场景下不适用。仅仅靠升级物理硬件或者优化代码,已经不能适应信息的增长速度和信息处理效率的需求。
分布式数据的高效存储和查询显得越来越重要,Elasticsearch则是分布式系统中高效引擎系统,能实现数据存储和高效查询,现有的基于HBase和Elasticsearch的存储和查询已经具有较为成熟的方法,但各自存在一些优缺点:
1、MapReduce方案
MapReduce是一种可用于数据处理的编程框架。MapReduce可以通过分布式的原理,将HBase的数据批量、离线同步到elasticsearch中,Mapreduce需要通过对HBase表的扫描才能将数据同步到Elasticsearch中,因此HBase的每一次增删改查都需要运行Mapreduce来进行同步,。
2、HBase二级索引方案
在HBase创建表的时候,需要在同一个region server上创建索引表,且一一对应。在主表中插入某条数据后,用Coprocessor将索引列写到索引表中去。为了使主表和索引表在同一个region server上,要禁用索引表的自动和手动split(分裂),只能由主表split的时候触发,当主表split的时候,对索引表按其对应数据进行划分,同时,对索引表的第二个daughter split的row key的前面部分修改为对应的主键的row key。HBase的二级索引需要深入理解HBase的后台机制原理,进行二次开发,不利于功能解耦。
发明内容
本发明要解决的技术问题是提供一种基于HBase的数据检索装置,解决上述问题。
本发明为解决上述技术问题而采用的技术方案是提供一种基于HBase的数据检索装置,包括前端交互模块、检索处理模块和数据库同步模块,所述数据库同步模块对HBase数据库中的数据进行数据同步,同时在ElastieSearch搜索引擎中建立索引,并将同步后的数据保存ElastieSearch索引中;所述前端交互模块在接收到检索请求后,将检索信息和筛选信息发送到检索处理模块;所述检索处理模块使用检索信息和筛选信息在ElastieSearch索引中进行检索,并经由前端交互模块返回检索结果。
进一步的,所述HBase数据库的表由多个column构成,每个column有一个rowkey,将组成rowkey的字段,分别以column的形式存放于表中,所述数据库同步模块进行数据同步具体包括:S1:在ElastieSearch搜索引擎中建立索引;S2:将HBase数据库中的rowkey对应于ElastieSearch中document的ID;S3:将HBase数据库中的column对应于ElasticSearch的field;S4:将HBases数据库中的表名对应于ElasticSearch中的type;S5:根据步骤S2-S4的对应关系,将HBase数据库中的数据存储到ElastieSearch索引中。
进一步的,所述HBase数据库包含协处理器Observer,所述数据库同步模块通过重载Region Observer提供的表数据操作钩子函数,利用Region server完成对ElasticSearch索引的同步更新;具体包括:当消息队列的Consumer产生新的Put操作对HBase数据库进行数据插入时,利用Observer将Put数据转化为Json格式,同步到ElasticSearch索引中,并把行键设置为索引属性用于后续查询;当有新的Delete操作,删除HBase数据库中的数据时,通过Observer获取指定删除数据的行键,然后同步删除ElasticSearch索引中的对应数据。
进一步的,所述数据库同步模块通过ElasticSearch搜索引擎的Bulk API实现ElasticSearch索引同步更新的缓冲,当HBase数据库的逐条插入或删除操作达到设定的数据阈值或时间阈值时,进行批量操作触发ElasticSearch索引同步更新。
进一步的,在ElasticSearch索引中对数据进行分类,并建立对应的index和type;在创建索引type表时根据每个字段的类型、实际含义和业务逻辑并结合检索方式以及分词器的选择进行分类。
进一步的,所述检索处理模块包括分词子模块和检索子模块,所述分词子模块进行分词处理,所述分词子模块调用ElastieSearch的应用程序接口连接ElastieSearch的中的MMSeg4j分词器和IKAnalyzer分词器进行分词处理,并分词结果传入检索子模块和前段交互模块。
进一步的,所述检索子模块包括逻辑检索子模块、关键词检索子模块和语义检索子模块,所述检索子模块通过分词子模块传来的分词结果和前端交互模块传来的筛选信息对ElastieSearch索引分别进行逻辑检索、关键词检索和语义检索,并对检索结果按照相关性进行排序,返回到前端交互模块;所述关键词检索子模块将匹配完整关键词的检索结果优先排序,将匹配到分词结果词语较少的检索结果推后排序;去掉检索结果中相关性低于设定相关度的检索结果。
进一步的,所述前端交互模块接收分词子模块返回的分词结果,所述前端交互模块将返回的分词结果作为检索的推荐关键词呈现;所述前端交互模块接收检索子模块返回的检索结果,并按照相关性由高到低进行排序,点击相应的检索结果则返回该检索结果的全文信息。
进一步的,所述前端交互模块设有检索信息输入的检索框和筛选信息的选择标签。
进一步的,所述检索处理模块部署在Elasticsearch集群上,所述数据库同步模块部署在HBase集群的服务器上,所述前端交互模块部署于可同时访问Elasticsearch集群和HBase集群的服务器上。
本发明对比现有技术有如下的有益效果:本发明提供的基于HBase的数据检索装置,实现数据库HBase和搜索引擎ElasticSearch的结合,将HBase中变动的数据实时同步到ElasticSearch中进行存储,利用ElasticSearch实现数据的灵活检索;通过对关键字匹配、语意检索、逻辑关系等检索策略进行测试和分析,快速、准确的进行海量数据的检索。
附图说明
图1为本发明实施例中基于HBase的数据检索装置结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的描述。
图1为本发明实施例中基于HBase的数据检索装置结构示意图。
请参见图1,本发明实施例的基于HBase的数据检索装置,包括前端交互模块、检索处理模块和数据库同步模块,所述数据库同步模块对HBase数据库中的数据进行数据同步,同时在ElastieSearch搜索引擎中建立索引,并将同步后的数据保存ElastieSearch索引中;所述前端交互模块在接收到检索请求后,将检索信息和筛选信息发送到检索处理模块;所述检索处理模块使用检索信息和筛选信息在ElastieSearch索引中进行检索,并经由前端交互模块返回检索结果。
本发明实施例的HBase数据库的表由多个column构成,每个column有一个rowkey,以及多个column family,每个column family包含多个列。rowkey:rowkey类似RDBMS的主键,唯一标识该行,是定位该行的索引;column family:同一column family中的数据物理上存储在一个文件中;column qualifier:列标识,表的每列数据可通过family:qualifier唯一标识;cell:通过rowkey、family和qualifier可唯一定位一个cell,一个cell内部根据时间戳保存多个版本;timestamp:cell内部数据是多版本的,时间戳作为版本号,默认最大保留三个版本,如果读取数据时未指定版本号,只会返回最新版本的值。
本发明基于HBase数据库的表结构,组成rowkey的字段,分别以column的形式存放于表中,数据库同步模块进行数据同步具体包括:
S1:在ElastieSearch搜索引擎中建立索引;
S2:将HBase数据库中的rowkey对应于ElastieSearch中document的ID;
S3:将HBase数据库中的column对应于ElasticSearch的field;
S4:将HBases数据库中的表名对应于ElasticSearch中的type;
S5:根据步骤S2-S4的对应关系,将HBase数据库中的数据存储到ElastieSearch索引中。
本发明实施例的HBase数据库包含两种协处理器Endpoint和Observer,其中Endpoint类似于关系型数据库的存储过程,用于加快特定查询;Observer类似于触发器,通过重载Region Observer提供的表数据操作钩子函数,利用Region Server完成对ElasticSearch索引的同步更新。
当消息队列的Consumer产生新的Put操作对HBase数据库进行数据插入时,利用Observer将Put操作的数据转化为Json格式,同步到ElasticSearch索引中,并把行键设置为索引属性用于后续查询;当有新的Delete操作,删除HBase数据库中数据时,通过Observer取指定删除数据的行键,然后同步删除ElasticSearch索引中对应数据。Observer的具体实现需要继承BaseRegionObserver基类,通过重载postPut和postDelete函数完成更新和删除索引的同步操作。
由于消息队列上报数据操作频率非常高,单条频繁操作会降低系统性能,采用ElasticSearch的Bulk API实现缓冲池功能,HBase数据库的逐条插入删除操作不再触发ElasticSearch索引同步,而是达到一定的数据阈值或时间阈值进行批量操作,以此降低RegionServer的网络IO压力,增加吞吐量。
在ElasticSearch索引中对数据进行分类,并建立对应的index和type;在创建索引type表时根据每个字段的类型、实际含义和业务逻辑并结合检索方式以及分词器的选择进行分类。
具体的,本发明实施例的基于HBase的数据检索装置,前端交互模块设有检索信息输入的检索框和筛选信息的选择标签。检索处理模块包括分词子模块和检索子模块,所述分词子模块进行分词处理,所述分词子模块调用ElastieSearch的应用程序接口连接ElastieSearch的中的MMSeg4j分词器和IKAnalyzer分词器进行分词处理,并分词结果传入检索子模块和前段交互模块。检索子模块包括逻辑检索子模块、关键词检索子模块和语义检索子模块,所述检索子模块通过分词子模块传来的分词结果和前端交互模块传来的筛选信息对ElastieSearch索引分别进行逻辑检索、关键词检索和语义检索,并对检索结果按照相关性进行排序,返回到前端交互模块。
具体的,本发明实施例的基于HBase的数据检索装置,关键词检索子模块将匹配完整关键词的检索结果优先排序,将匹配到分词结果词语较少的检索结果推后排序;去掉检索结果中相关性低于设定相关度的检索结果。所述前端交互模块接收分词子模块返回的分词结果,所述前端交互模块将返回的分词结果作为检索的推荐关键词呈现;所述前端交互模块接收检索子模块返回的检索结果,并按照相关性由高到低进行排序,点击相应的检索结果则返回该检索结果的全文信息。
本发明实施例的基于HBase的数据检索装置,检索处理模块部署在Elasticsearch集群上,所述数据库同步模块部署在HBase集群的服务器上,所述前端交互模块部署于可同时访问Elasticsearch集群和HBase集群的服务器上。
综上所述,本发明提供的基于HBase的数据检索装置,实现数据库HBase和搜索引擎ElasticSearch的结合,将HBase中变动的数据实时同步到ElasticSearch中进行存储,利用ElasticSearch实现数据的灵活检索;通过对关键字匹配、语意检索、逻辑关系等检索策略进行测试和分析,快速、准确的进行海量数据的检索。
虽然本发明已以较佳实施例揭示如上,然其并非用以限定本发明,任何本领域技术人员,在不脱离本发明的精神和范围内,当可作些许的修改和完善,因此本发明的保护范围当以权利要求书所界定的为准。

Claims (10)

1.一种基于HBase的数据检索装置,其特征在于,包括前端交互模块、检索处理模块和数据库同步模块,所述数据库同步模块对HBase数据库中的数据进行数据同步,同时在ElastieSearch搜索引擎中建立索引,并将同步后的数据保存ElastieSearch索引中;所述前端交互模块在接收到检索请求后,将检索信息和筛选信息发送到检索处理模块;所述检索处理模块使用检索信息和筛选信息在ElastieSearch索引中进行检索,并经由前端交互模块返回检索结果。
2.如权利要求1所述的基于HBase的数据检索装置,其特征在于,所述HBase数据库的表由多个column构成,每个column有一个rowkey,将组成rowkey的字段,分别以column的形式存放于表中,所述数据库同步模块进行数据同步具体包括:
S1:在ElastieSearch搜索引擎中建立索引;
S2:将HBase数据库中的rowkey对应于ElastieSearch中document的ID;
S3:将HBase数据库中的column对应于ElasticSearch的field;
S4:将HBases数据库中的表名对应于ElasticSearch中的type;
S5:根据步骤S2-S4的对应关系,将HBase数据库中的数据存储到ElastieSearch索引中。
3.如权利要求1所述的基于HBase的数据检索装置,其特征在于,所述HBase数据库包含协处理器Observer,所述数据库同步模块通过重载Region Observer提供的表数据操作钩子函数,利用Region server完成对ElasticSearch索引的同步更新;具体包括:当消息队列的Consumer产生新的Put操作对HBase数据库进行数据插入时,利用Observer将Put数据转化为Json格式,同步到ElasticSearch索引中,并把行键设置为索引属性用于后续查询;当有新的Delete操作,删除HBase数据库中的数据时,通过Observer获取指定删除数据的行键,然后同步删除ElasticSearch索引中的对应数据。
4.如权利要求3所述的基于HBase的数据检索装置,其特征在于,所述数据库同步模块通过ElasticSearch搜索引擎的Bulk API实现ElasticSearch索引同步更新的缓冲,当HBase数据库的逐条插入或删除操作达到设定的数据阈值或时间阈值时,进行批量操作触发ElasticSearch索引同步更新。
5.如权利要求1所述的基于HBase的数据检索装置,其特征在于,在ElasticSearch索引中对数据进行分类,并建立对应的index和type;在创建索引type表时根据每个字段的类型、实际含义和业务逻辑并结合检索方式以及分词器的选择进行分类。
6.如权利要求1所述的基于HBase的数据检索装置,其特征在于,所述检索处理模块包括分词子模块和检索子模块,所述分词子模块进行分词处理,所述分词子模块调用ElastieSearch的应用程序接口连接ElastieSearch的中的MMSeg4j分词器和IKAnalyzer分词器进行分词处理,并分词结果传入检索子模块和前段交互模块。
7.如权利要求4所述的基于HBase的数据检索装置,其特征在于,所述检索子模块包括逻辑检索子模块、关键词检索子模块和语义检索子模块,所述检索子模块通过分词子模块传来的分词结果和前端交互模块传来的筛选信息对ElastieSearch索引分别进行逻辑检索、关键词检索和语义检索,并对检索结果按照相关性进行排序,返回到前端交互模块;所述关键词检索子模块将匹配完整关键词的检索结果优先排序,将匹配到分词结果词语较少的检索结果推后排序;去掉检索结果中相关性低于设定相关度的检索结果。
8.如权利要求5所述的基于HBase的数据检索装置,其特征在于,所述前端交互模块接收分词子模块返回的分词结果,所述前端交互模块将返回的分词结果作为检索的推荐关键词呈现;所述前端交互模块接收检索子模块返回的检索结果,并按照相关性由高到低进行排序,点击相应的检索结果则返回该检索结果的全文信息。
9.如权利要求1所述的基于HBase的数据检索装置,其特征在于,所述前端交互模块设有检索信息输入的检索框和筛选信息的选择标签。
10.如权利要求1所述的基于HBase的数据检索装置,其特征在于,所述检索处理模块部署在Elasticsearch集群上,所述数据库同步模块部署在HBase集群的服务器上,所述前端交互模块部署于可同时访问Elasticsearch集群和HBase集群的服务器上。
CN202010363122.2A 2020-04-30 2020-04-30 一种基于HBase的数据检索装置 Active CN111563095B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010363122.2A CN111563095B (zh) 2020-04-30 2020-04-30 一种基于HBase的数据检索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010363122.2A CN111563095B (zh) 2020-04-30 2020-04-30 一种基于HBase的数据检索装置

Publications (2)

Publication Number Publication Date
CN111563095A true CN111563095A (zh) 2020-08-21
CN111563095B CN111563095B (zh) 2023-05-26

Family

ID=72073206

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010363122.2A Active CN111563095B (zh) 2020-04-30 2020-04-30 一种基于HBase的数据检索装置

Country Status (1)

Country Link
CN (1) CN111563095B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112463886A (zh) * 2020-11-30 2021-03-09 浙江大华技术股份有限公司 一种数据处理方法、装置、电子设备及存储介质
CN112800058A (zh) * 2021-01-27 2021-05-14 浪潮云信息技术股份公司 一种HBase二级索引的实现方法
CN113051460A (zh) * 2021-03-29 2021-06-29 北京智慧星光信息技术有限公司 基于Elasticsearch的数据检索方法、系统、电子设备及存储介质
CN113190548A (zh) * 2020-12-24 2021-07-30 武汉烽火众智数字技术有限责任公司 一种基于hbase的档案库的设计方法
CN114706625A (zh) * 2022-03-29 2022-07-05 智业软件股份有限公司 构建患者信息全局查询插件的方法、装置及存储介质
CN116383311A (zh) * 2023-06-05 2023-07-04 云筑信息科技(成都)有限公司 一种建筑行业供应商画像数据实时融合搜索的方法
CN116561434A (zh) * 2023-06-28 2023-08-08 平安银行股份有限公司 一种数据检索推荐方法、装置、存储介质及设备
CN112463886B (zh) * 2020-11-30 2024-06-04 浙江大华技术股份有限公司 一种数据处理方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018028443A1 (zh) * 2016-08-11 2018-02-15 阿里巴巴集团控股有限公司 数据处理方法、设备及系统
CN109299102A (zh) * 2018-10-23 2019-02-01 中国电子科技集团公司第二十八研究所 一种基于Elastcisearch的HBase二级索引系统及方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018028443A1 (zh) * 2016-08-11 2018-02-15 阿里巴巴集团控股有限公司 数据处理方法、设备及系统
CN109299102A (zh) * 2018-10-23 2019-02-01 中国电子科技集团公司第二十八研究所 一种基于Elastcisearch的HBase二级索引系统及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
孙牧;: "云端的小飞象―Hadoop" *
陈栋波;高跃明;: "基于HBase的海量文件的检索方案研究" *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112463886A (zh) * 2020-11-30 2021-03-09 浙江大华技术股份有限公司 一种数据处理方法、装置、电子设备及存储介质
CN112463886B (zh) * 2020-11-30 2024-06-04 浙江大华技术股份有限公司 一种数据处理方法、装置、电子设备及存储介质
CN113190548A (zh) * 2020-12-24 2021-07-30 武汉烽火众智数字技术有限责任公司 一种基于hbase的档案库的设计方法
CN112800058A (zh) * 2021-01-27 2021-05-14 浪潮云信息技术股份公司 一种HBase二级索引的实现方法
CN113051460A (zh) * 2021-03-29 2021-06-29 北京智慧星光信息技术有限公司 基于Elasticsearch的数据检索方法、系统、电子设备及存储介质
CN114706625A (zh) * 2022-03-29 2022-07-05 智业软件股份有限公司 构建患者信息全局查询插件的方法、装置及存储介质
CN116383311A (zh) * 2023-06-05 2023-07-04 云筑信息科技(成都)有限公司 一种建筑行业供应商画像数据实时融合搜索的方法
CN116383311B (zh) * 2023-06-05 2023-08-18 云筑信息科技(成都)有限公司 一种建筑行业供应商画像数据实时融合搜索的方法
CN116561434A (zh) * 2023-06-28 2023-08-08 平安银行股份有限公司 一种数据检索推荐方法、装置、存储介质及设备

Also Published As

Publication number Publication date
CN111563095B (zh) 2023-05-26

Similar Documents

Publication Publication Date Title
CN111563095B (zh) 一种基于HBase的数据检索装置
US8332389B2 (en) Join order for a database query
US7603339B2 (en) Merging synopses to determine number of distinct values in large databases
US7343367B2 (en) Optimizing a database query that returns a predetermined number of rows using a generated optimized access plan
US8924373B2 (en) Query plans with parameter markers in place of object identifiers
US11449564B2 (en) System and method for searching based on text blocks and associated search operators
Herschel et al. Scalable iterative graph duplicate detection
CN102955792A (zh) 一种实时全文搜索引擎事务处理的实现方法
CN107491487A (zh) 一种全文数据库架构及位图索引创建、数据查询方法、服务器及介质
CN112988863A (zh) 一种基于Elasticsearch的异构多数据源的高效搜索引擎方法
CN103678694A (zh) 视频资源的倒排索引文件建立方法及其系统
US20050076018A1 (en) Sorting result buffer
CN116186082A (zh) 基于分布式的数据汇总方法、第一服务器和电子设备
CN113672556A (zh) 一种批量文件的迁移方法及装置
US8706769B1 (en) Processing insert with normalize statements
CN106776772B (zh) 一种数据检索的方法及装置
US11734282B1 (en) Methods and systems for performing a vectorized delete in a distributed database system
CN114238241B (zh) 财务数据的元数据处理方法和计算机系统
CN115952200B (zh) 一种基于mpp架构的多源异构数据聚合查询方法及装置
CN116719821B (zh) 一种并发数据插入Elasticsearch的排重方法、装置及存储介质
WO2024119980A1 (zh) 一种数据分析方法及相关设备
US20240095246A1 (en) Data query method and apparatus based on doris, storage medium and device
CN114201488A (zh) 一种支持结构化数据和非结构数据混合查询系统及方法
CN117056427A (zh) 混合事务分析系统中的数据处理方法、装置及电子设备
CN114691709A (zh) 一种电力业务数据处理的快速响应方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant