CN107402987A - 一种全文检索的方法和分布式NewSQL数据库系统 - Google Patents

一种全文检索的方法和分布式NewSQL数据库系统 Download PDF

Info

Publication number
CN107402987A
CN107402987A CN201710580423.9A CN201710580423A CN107402987A CN 107402987 A CN107402987 A CN 107402987A CN 201710580423 A CN201710580423 A CN 201710580423A CN 107402987 A CN107402987 A CN 107402987A
Authority
CN
China
Prior art keywords
user
units
data
full
request
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710580423.9A
Other languages
English (en)
Other versions
CN107402987B (zh
Inventor
晋彤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yunrun Da Data Service Co ltd
Original Assignee
Guangzhou Special Road Mdt Infotech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Special Road Mdt Infotech Ltd filed Critical Guangzhou Special Road Mdt Infotech Ltd
Publication of CN107402987A publication Critical patent/CN107402987A/zh
Application granted granted Critical
Publication of CN107402987B publication Critical patent/CN107402987B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9017Indexing; Data structures therefor; Storage structures using directory or table look-up
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2379Updates performed during online database operations; commit processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2219Large Object storage; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2272Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • G06F16/24534Query rewriting; Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • G06F16/24534Query rewriting; Transformation
    • G06F16/24542Plan optimisation
    • G06F16/24545Selectivity estimation or determination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2471Distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/252Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/319Inverted lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/466Transaction processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system
    • G06F9/5088Techniques for rebalancing the load in a distributed system involving task migration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/5022Workload threshold

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Library & Information Science (AREA)
  • Fuzzy Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Operations Research (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Computer And Data Communications (AREA)
  • Devices For Executing Special Programs (AREA)

Abstract

本发明公开了一种全文检索的方法,适用于分布式NewSQL数据库系统,所述分布式NewSQL数据库系统包括Solr单元,所述全文检索的方法包括:以JDCB/ODBC的接口方式接入用户请求,其中,用户请求包括全文检索的查询条件;解析用户请求,编译以及生成对应的执行计划;根据执行计划,将查询条件从SQL条件语句转换成SOLR的查询表达式,然后根据SOLR的查询表达式查询索引表,获取对应的索引数据;并,根据获取的索引数据查询数据表,从而获得对应的查询结果;其中,数据表中存有全文检索的数据字段,索引表中存有根据全文检索的数据字段的描述所生成的倒排索引形式的索引数据。本发明还提供一种分布式NewSQL数据库系统。本发明支持分布式全文检索,满足用户创建全文索引的需求。

Description

一种全文检索的方法和分布式NewSQL数据库系统
技术领域
本发明涉及大数据技术领域,尤其涉及一种全文检索的方法和分布式NewSQL数据库系统。
背景技术
目前Hbase单元是Hadoop生态体系中最著名的分布式NoSQL数据库之一。其设计理念来源于Google的Bigtable。Hbase单元主要组件包括HMaster和HRegionsever,为用户提供表格类型的数据模型,按主键范围划分为多个region,HMaster负责管理和分配region,HRegionserver负责region数据的读写。Hbase单元的优点使其成为目前应用最广泛的分布式NoSQL数据库之一,随着越来越多的应用尝试迁移到Hbase单元上,但Hbase单元只支持基于主键的查询,并不支持全文检索,给很多应用带来了不便。
发明内容
本发明实施例的目的是提供一种全文检索的方法和分布式NewSQL数据库系统,通过Solr支持分布式全文检索,支持非主键的查询,满足用户全文检索的需求。
为实现上述目的,本发明实施例提供了一种全文检索的方法,适用于分布式NewSQL数据库系统,所述分布式NewSQL数据库系统包括Solr单元,所述全文检索的方法包括:
以JDCB/ODBC的接口方式接入用户请求,其中,所述用户请求包括全文检索的查询条件;所述查询结果为根据所述查询条件所获得的查询结果;
解析所述用户请求,编译以及生成对应的执行计划;
根据执行计划,将所述查询条件从SQL条件语句转换成SOLR的查询表达式,然后根据所述SOLR的查询表达式查询Solr单元的索引表,获取对应的索引数据;并,
根据获取的所述索引数据查询数据表,从而获得对应的所述查询结果;其中,所述数据表中存有全文检索的数据字段,所述索引表中存有根据所述全文检索的数据字段的描述所生成的倒排索引形式的索引数据;
返回所述查询结果给用户。
进一步的,还包括:将所述用户请求转化SQL语句形式的SQL请求。
进一步的,所述解析所述用户请求,编译以及生成对应的执行计划包括:
判断共享缓存池中是否存在与所述SQL请求相对应的预存SQL语句,若是,则输出相对应的所述预存SQL语句对应的执行计划,若否,则,
对所述SQL请求进行语法检查,若语法错误返回错误信息给用户,否则,
对所述SQL请求进行语义检查,若语义错误返回错误信息给用户,否则,
对所述SQL请求进行视图以及表达式转换,获得对应的转化结果;
根据所述转换结果选择优化器,获得对应的优化器选择结果;
根据所述优化器选择结果选择对应的数据连接方式以及连接顺序;
根据连接方式和连接顺序选择搜索的路径;
根据搜索路径生成执行计划,并输出执行计划。
相应,本发明还提供一种分布式NewSQL数据库系统,包括:
JDCB/ODBC接口单元,用于与用户进行交互操作,包括接收用户请求,返回查询结果给用户;其中,所述用户请求包括全文检索的查询条件,所述查询结果为根据所述查询条件所获得的查询结果;
master单元,用于接入JDCB/ODBC接口单元所接入的用户请求,并协调多个处理器之间的数据通讯以及管理整体流程,并将所述用户请求优先发送给SQLPlaner单元;master单元还用于所述查询结果返回JDCB/ODBC接口单元;
SQLPlaner单元,用于解析所述用户请求,根据所述用户请求编译以及定制执行计划;
worker单元,用于并行地执行所述计划,包括:将所述查询条件从SQL条件语句转换成SOLR的查询表达式,然后根据所述SOLR的查询表达式查询索引表,获取对应的索引数据;并根据获取的所述索引数据查询数据表,从而获得对应的所述查询结果;并返回查询结果至所述master单元;
Hbase单元,用于储存所述数据表;其中,所述数据表中存有全文检索的数据字段;
Solr单元,用于储存所述索引表;其中,所述索引表中存有由根据所述全文检索的数据字段的描述所生成的倒排索引形式的索引数据;
分布式事务管理器,用于当所述worker单元执行计划涉及事务时,协调多方完成分布式事务管理。
进一步的,JDCB/ODBC接口单元还用于将所述用户请求转化SQL语句形式的SQL请求。
进一步的,所述SQLPlaner单元用于:
判断共享缓存池中是否存在与所述SQL请求相对应的预存SQL语句,若是,则输出相对应的所述预存SQL语句对应的执行计划,若否,则,
对所述SQL请求进行语法检查,若语法错误返回错误信息给用户,否则,
对所述SQL请求进行语义检查,若语义错误返回错误信息给用户,否则,
对所述SQL请求进行视图以及表达式转换,获得对应的转化结果;
根据所述转换结果选择优化器,获得对应的优化器选择结果;
根据所述优化器选择结果选择对应的数据连接方式以及连接顺序;
根据连接方式和连接顺序选择搜索的路径;
根据搜索路径生成执行计划,并输出执行计划。
进一步的,还包括:
监视器,用于负责元数据管理,监控所述Hbase单元的Region的负载,以及通过所述Hbase单元的coprocessor模块重新分配Region;所述监视器与所述master单元连接。
进一步的,所述监控所述Hbase单元的Region的负载,以及通过所述Hbase单元的coprocessor模块重新分配Region包括:
接收所述Hbase单元的数据分布信息,接收所述master单元中的所述worker单元的负载信息,其中,所述负载信息包括所述worker单元的负载偏差值;
将所述worker单元的负载偏差值与预设负载偏差阈值进行比较,若判定所述负载偏差值超过阀值,触发所述Hbase单元将命中率较高服务器上的Region和命中率较低服务器上的Region进行从新分配;
获取每一Region的数据量,将每一所述Region的数据量与预设数据量阈值进行判断,若判定所述Region的数据量超过阀值,触发所述Hbase单元将超过预设数据量阈值的所述Region切分成两个。
进一步的,所述JDCB/ODBC接口单元包括:
JDBC应用程序模块,用于接收用户请求,以及调用JDBC对象方法以给出SQL语句,并用于提取结果返回用户;
JDBC驱动程序管理器模块,用于为所述JDBC应用程序模块加载和调用JDBC驱动程序模块;
JDBC驱动程序模块,用于执行所述JDBC对象方法的调用,发送用户请求所对应的SQL语句给底层的数据库,并将从所述底层的数据库获得的结果返回给JDBC应用程序模块。
与现有技术相比,本发明公开的一种全文检索的方法和分布式NewSQL数据库系统,以JDCB/ODBC的接口方式接入用户请求,其中,所述用户请求包括全文检索的查询条件;所述查询结果为根据所述查询条件所获得的查询结果;解析所述用户请求,编译以及生成对应的执行计划;根据执行计划,将所述查询条件从SQL条件语句转换成SOLR的查询表达式,然后根据所述SOLR的查询表达式查询Solr单元的索引表,获取对应的索引数据;并,根据获取的所述索引数据查询数据表,从而获得对应的所述查询结果;其中,所述数据表中存有全文检索的数据字段,所述索引表中存有根据所述全文检索的数据字段的描述所生成的倒排索引形式的索引数据;返回所述查询结果给用户的技术方案,
基于Solr单元实现全文检索,以支持分布式全文检索,支持用户非主键查询,满足用户全文检索的需求,提高用户体验。
附图说明
图1是本发明实施例1提供的一种全文检索的方法的流程示意图;
图2是本发明实施例2提供的一种分布式NewSQL数据库系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,图1是本发明实施例1提供的一种全文检索的方法的流程示意图;适用于分布式NewSQL数据库系统,所述分布式NewSQL数据库系统包括Solr单元,本实施例包括下述步骤:
S1、以JDCB/ODBC的接口方式接入用户请求,其中,所述用户请求包括全文检索的查询条件;所述查询结果为根据所述查询条件所获得的查询结果;
S2、解析所述用户请求,编译以及生成对应的执行计划;
S3、根据执行计划,将所述查询条件从SQL条件语句转换成SOLR的查询表达式,然后根据所述SOLR的查询表达式查询Solr单元的索引表,获取对应的索引数据;并,
S4、根据获取的所述索引数据查询数据表,从而获得对应的所述查询结果;其中,所述数据表中存有全文检索的数据字段,所述索引表中存有根据所述全文检索的数据字段的描述所生成的倒排索引形式的索引数据;
S5、返回所述查询结果给用户。
本实施例通过Solr单元支持分布式全文检索,用户可以为自己的表创建全文索引,并在SQL中使用全文检索语法进行搜索。该方式为二级索引的特殊扩展,,针对需要全文检索的字段不再将索引数据存储到另外的索引表中,而是将索引数据存储到Solr单元中,由Solr单元提供全文检索的功能。在查询数据时,会针对被全文索引的字段将其查询语句从SQL条件语句转换成SOLR的查询表达式再进行查询,并且将SOLR的返回结果转化成通用数据格式再返回。
进一步的,步骤S1还包括:将所述用户请求转化SQL语句形式的SQL请求。
进一步的,步骤S2所述解析所述用户请求,编译以及生成对应的执行计划包括:
S21、判断共享缓存池中是否存在与所述SQL请求相对应的预存SQL语句,若是,则输出相对应的所述预存SQL语句对应的执行计划,若否,则,
S22、对所述SQL请求进行语法检查,若语法错误返回错误信息给用户,否则,
S23、对所述SQL请求进行语义检查,若语义错误返回错误信息给用户,否则,
S24、对所述SQL请求进行视图以及表达式转换,获得对应的转化结果;
S25、根据所述转换结果选择优化器,获得对应的优化器选择结果;
S26、根据所述优化器选择结果选择对应的数据连接方式以及连接顺序;
S27、根据连接方式和连接顺序选择搜索的路径;
S28、根据搜索路径生成执行计划,并输出执行计划。
具体实施时,首先,以JDCB/ODBC的接口方式接入用户请求,其中,所述用户请求包括全文检索的查询条件;所述查询结果为根据所述查询条件所获得的查询结果;然后,解析所述用户请求,编译以及生成对应的执行计划;接着,根据所述执行计划,根据执行计划,将所述查询条件从SQL条件语句转换成SOLR的查询表达式,根据所述SOLR的查询表达式查询Solr单元的索引表,获取对应的索引数据;并,根据获取的所述索引数据查询数据表,从而获得对应的所述查询结果;其中,所述数据表中存有全文检索的数据字段,所述索引表中存有根据所述全文检索的数据字段的描述所生成的倒排索引形式的索引数据;最后,返回所述查询结果给用户。
本实施例基于Solr单元实现全文检索,以支持分布式全文检索,支持用户非主键查询,满足用户全文检索的需求,提高用户体验。
参见图2,图2是本发明实施例2还提供一种分布式NewSQL数据库系统,本实施例包括:
JDCB/ODBC接口单元1,用于与用户进行交互操作,包括接收用户请求,返回查询结果给用户;其中,所述用户请求包括全文检索的查询条件,所述查询结果为根据所述查询条件所获得的查询结果;
master单元2,用于接入JDCB/ODBC接口单元1所接入的用户请求,并协调多个处理器之间的数据通讯以及管理整体流程,并将所述用户请求优先发送给SQLPlaner单元3;master单元2还用于所述查询结果返回JDCB/ODBC接口单元1;
SQLPlaner单元3,用于解析所述用户请求,根据所述用户请求编译以及定制执行计划;
worker单元4,用于并行地执行所述计划,包括:将所述查询条件从SQL条件语句转换成SOLR的查询表达式,然后根据所述SOLR的查询表达式查询索引表,获取对应的索引数据;并根据获取的所述索引数据查询数据表,从而获得对应的所述查询结果;并返回查询结果至所述master单元;
Hbase单元6,用于储存所述数据表;其中,所述数据表中存有全文检索的数据字段;
Solr单元7,用于储存所述索引表;其中,所述索引表中存有由根据所述全文检索的数据字段的描述所生成的倒排索引形式的索引数据。
通常,本实施例的分布式NewSQL数据库系统允许用户根据具体的业务逻辑灵活的建立二级索引,在实际应用中用户往往会建立多个二级索引,在使用时根据查询条件动态计算使用索引的代价,自动选择最合适的索引。针对rowkey的查询极为高效,因此二级索引的实现方式为利用Hbase单元6的Coprocessor模块61和Filter模块62生成针对数据的索引表。
本实施例通过Solr单元7支持分布式全文检索,用户可以为自己的表创建全文索引,并在SQL中使用全文检索语法进行搜索。该方式为二级索引的特殊扩展,也是利用coprocessor模块61实现,针对需要全文检索的字段不再将索引数据存储到另外的索引表中,而是将索引数据存储到Solr单元7中,由Solr单元7提供全文检索的功能。在查询数据时,会针对被全文索引的字段将其查询语句从SQL条件语句转换成SOLR的查询表达式再进行查询,并且将SOLR的返回结果转化成通用数据格式再返回。
分布式事务管理器5,用于当所述worker单元4执行计划涉及事务时,协调多方完成分布式事务管理。
进一步的,JDCB/ODBC接口单元1还用于将所述用户请求转化SQL语句形式的SQL请求。
进一步的,所述SQLPlaner单元3用于:
判断共享缓存池中是否存在与所述SQL请求相对应的预存SQL语句,若是,则输出相对应的所述预存SQL语句对应的执行计划,若否,则,
对所述SQL请求进行语法检查,若语法错误返回错误信息给用户,否则,
对所述SQL请求进行语义检查,若语义错误返回错误信息给用户,否则,
对所述SQL请求进行视图以及表达式转换,获得对应的转化结果;
根据所述转换结果选择优化器,获得对应的优化器选择结果;
根据所述优化器选择结果选择对应的数据连接方式以及连接顺序;
根据连接方式和连接顺序选择搜索的路径;
根据搜索路径生成执行计划,并输出执行计划。
进一步的,本实施例还包括:
监视器8,用于负责元数据管理,监控所述Hbase单元6的Region的负载,以及通过所述Hbase单元6的coprocessor模块61重新分配Region;所述监视器与所述master单元2连接。
进一步的,所述监控所述Hbase单元6的Region的负载,以及通过所述Hbase单元6的coprocessor模块61重新分配Region包括:
接收所述Hbase单元6的数据分布信息,接收所述master单元2中的所述worker单元4的负载信息,其中,所述负载信息包括所述worker单元的负载偏差值;
将所述worker单元4的负载偏差值与预设负载偏差阈值进行比较,若判定所述负载偏差值超过阀值,触发所述Hbase单元6将命中率较高服务器上的Region和命中率较低服务器上的Region进行从新分配;
获取每一Region的数据量,将每一所述Region的数据量与预设数据量阈值进行判断,若判定所述Region的数据量超过阀值,触发所述Hbase单元将超过预设数据量阈值的所述Region切分成两个。
进一步的,所述JDCB/ODBC接口单元1包括:
JDBC应用程序模块11,用于接收用户请求,以及调用JDBC对象方法以给出SQL语句,并用于提取结果返回用户;
JDBC驱动程序管理器模块12,用于为所述JDBC应用程序模块11加载和调用JDBC驱动程序模块13;
JDBC驱动程序模块13,用于执行所述JDBC对象方法的调用,发送用户请求所对应的SQL语句给底层的数据库,并将从所述底层的数据库获得的结果返回给JDBC应用程序模块11。
具体实施时,首先通过JDCB/ODBC接口单元1接收用户请求,通过master单元2接入JDCB/ODBC接口单元1所接入的用户请求,并将所述用户请求优先发送给SQLPlaner单元3;然后,通过SQLPlaner单元3解析所述用户请求,根据所述用户请求编译以及定制执行计划;接着,通过worker单元4并行地执行所述计划:将所述查询条件从SQL条件语句转换成SOLR的查询表达式,根据所述SOLR的查询表达式查询索引表,获取对应的索引数据;并,根据获取的所述索引数据查询数据表,从而获得对应的所述查询结果;最后,通过worker单元4返回查询结果至master单元2,master单元2将查询结果返回JDCB/ODBC接口单元1以返回给用户。
本实施例通过Solr单元实现全文检索,以支持分布式全文检索,支持用户非主键查询,满足用户全文检索的需求,提高用户体验。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (9)

1.一种全文检索的方法,其特征在于,适用于分布式NewSQL数据库系统,所述分布式NewSQL数据库系统包括Solr单元,所述全文检索的方法包括:
以JDCB/ODBC的接口方式接入用户请求,其中,所述用户请求包括全文检索的查询条件;所述查询结果为根据所述查询条件所获得的查询结果;
解析所述用户请求,编译以及生成对应的执行计划;
根据执行计划,将所述查询条件从SQL条件语句转换成SOLR的查询表达式,并根据所述SOLR的查询表达式查询Solr单元的索引表,获取对应的索引数据;
根据获取的所述索引数据查询数据表,从而获得对应的所述查询结果;其中,所述数据表中存有全文检索的数据字段,所述索引表中存有根据所述全文检索的数据字段的描述所生成的倒排索引形式的索引数据;
返回所述查询结果给用户。
2.如权利要求1所述的一种全文检索的方法,其特征在于,还包括:将所述用户请求转化SQL语句形式的SQL请求。
3.如权利要求2所述的一种全文检索的方法,其特征在于,所述解析所述用户请求,编译以及生成对应的执行计划包括:
判断共享缓存池中是否存在与所述SQL请求相对应的预存SQL语句,若是,则输出相对应的所述预存SQL语句对应的执行计划,若否,则,
对所述SQL请求进行语法检查,若语法错误返回错误信息给用户,否则,
对所述SQL请求进行语义检查,若语义错误返回错误信息给用户,否则,
对所述SQL请求进行视图以及表达式转换,获得对应的转化结果;
根据所述转换结果选择优化器,获得对应的优化器选择结果;
根据所述优化器选择结果选择对应的数据连接方式以及连接顺序;
根据连接方式和连接顺序选择搜索的路径;
根据搜索路径生成执行计划,并输出执行计划。
4.一种分布式NewSQL数据库系统,其特征在于,包括:
JDCB/ODBC接口单元,用于与用户进行交互操作,包括接收用户请求,返回查询结果给用户;其中,所述用户请求包括全文检索的查询条件,所述查询结果为根据所述查询条件所获得的查询结果;
master单元,用于接入JDCB/ODBC接口单元所接入的用户请求,并协调多个处理器之间的数据通讯以及管理整体流程,并将所述用户请求优先发送给SQLPlaner单元;master单元还用于所述查询结果返回JDCB/ODBC接口单元;
SQLPlaner单元,用于解析所述用户请求,根据所述用户请求编译以及定制执行计划;
worker单元,用于并行地执行所述计划,包括:将所述查询条件从SQL条件语句转换成SOLR的查询表达式,然后根据所述SOLR的查询表达式查询索引表,获取对应的索引数据;并根据获取的所述索引数据查询数据表,从而获得对应的所述查询结果;并返回查询结果至所述master单元;
Hbase单元,用于储存所述数据表;其中,所述数据表中存有全文检索的数据字段;
Solr单元,用于储存所述索引表;其中,所述索引表中存有由根据所述全文检索的数据字段的描述所生成的倒排索引形式的索引数据;
分布式事务管理器,用于当所述worker单元执行计划涉及事务时,协调多方完成分布式事务管理。
5.如权利要求4所述的一种分布式NewSQL数据库系统,其特征在于,JDCB/ODBC接口单元还用于将所述用户请求转化SQL语句形式的SQL请求。
6.如权利要求5所述的一种分布式NewSQL数据库系统,其特征在于,所述SQLPlaner单元用于:
判断共享缓存池中是否存在与所述SQL请求相对应的预存SQL语句,若是,则输出相对应的所述预存SQL语句对应的执行计划,若否,则,
对所述SQL请求进行语法检查,若语法错误返回错误信息给用户,否则,
对所述SQL请求进行语义检查,若语义错误返回错误信息给用户,否则,
对所述SQL请求进行视图以及表达式转换,获得对应的转化结果;
根据所述转换结果选择优化器,获得对应的优化器选择结果;
根据所述优化器选择结果选择对应的数据连接方式以及连接顺序;
根据连接方式和连接顺序选择搜索的路径;
根据搜索路径生成执行计划,并输出执行计划。
7.如权利要求1所述的一种分布式NewSQL数据库系统,其特征在于,还包括:
监视器,用于负责元数据管理,监控所述Hbase单元的Region的负载,以及通过所述Hbase单元的coprocessor模块重新分配Region;所述监视器与所述master单元连接。
8.如权利要求7所述的一种分布式NewSQL数据库系统,其特征在于,所述监控所述Hbase单元的Region的负载,以及通过所述Hbase单元的coprocessor模块重新分配Region包括:
接收所述Hbase单元的数据分布信息,接收所述master单元中的所述worker单元的负载信息,其中,所述负载信息包括所述worker单元的负载偏差值;
将所述worker单元的负载偏差值与预设负载偏差阈值进行比较,若判定所述负载偏差值超过阀值,触发所述Hbase单元将命中率较高服务器上的Region和命中率较低服务器上的Region进行从新分配;
获取每一Region的数据量,将每一所述Region的数据量与预设数据量阈值进行判断,若判定所述Region的数据量超过阀值,触发所述Hbase单元将超过预设数据量阈值的所述Region切分成两个。
9.如权利要求4所述的一种分布式NewSQL数据库系统,其特征在于,所述JDCB/ODBC接口单元包括:
JDBC应用程序模块,用于接收用户请求,以及调用JDBC对象方法以给出SQL语句,并用于提取结果返回用户;
JDBC驱动程序管理器模块,用于为所述JDBC应用程序模块加载和调用JDBC驱动程序模块;
JDBC驱动程序模块,用于执行所述JDBC对象方法的调用,发送用户请求所对应的SQL语句给底层的数据库,并将从所述底层的数据库获得的结果返回给JDBC应用程序模块。
CN201710580423.9A 2016-09-21 2017-07-17 一种全文检索的方法和分布式NewSQL数据库系统 Active CN107402987B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2016108423997 2016-09-21
CN201610842399.7A CN106446153A (zh) 2016-09-21 2016-09-21 一种分布式newSQL数据库系统及方法

Publications (2)

Publication Number Publication Date
CN107402987A true CN107402987A (zh) 2017-11-28
CN107402987B CN107402987B (zh) 2020-04-03

Family

ID=58166840

Family Applications (24)

Application Number Title Priority Date Filing Date
CN201610842399.7A Pending CN106446153A (zh) 2016-09-21 2016-09-21 一种分布式newSQL数据库系统及方法
CN201710580456.3A Expired - Fee Related CN107402988B (zh) 2016-09-21 2017-07-17 一种分布式NewSQL数据库系统和半结构化数据查询方法
CN201710580796.6A Expired - Fee Related CN107402992B (zh) 2016-09-21 2017-07-17 一种分布式NewSQL数据库系统和全文检索建立方法
CN201710585103.2A Expired - Fee Related CN107402995B (zh) 2016-09-21 2017-07-17 一种分布式newSQL数据库系统及方法
CN201710581273.3A Expired - Fee Related CN107451221B (zh) 2016-09-21 2017-07-17 一种数据库接口单元装置和分布式NewSQL数据库系统
CN201710580752.3A Expired - Fee Related CN107247808B (zh) 2016-09-21 2017-07-17 一种分布式NewSQL数据库系统及图片数据查询方法
CN201710580720.3A Expired - Fee Related CN107402989B (zh) 2016-09-21 2017-07-17 一种全文检索建立的方法和分布式NewSQL数据库系统
CN201710581256.XA Expired - Fee Related CN107391653B (zh) 2016-09-21 2017-07-17 一种分布式NewSQL数据库系统及图片数据储存方法
CN201710580403.1A Expired - Fee Related CN107368575B (zh) 2016-09-21 2017-07-17 一种负载均衡的分布式NewSQL数据库系统
CN201710580754.2A Expired - Fee Related CN107402991B (zh) 2016-09-21 2017-07-17 一种写入半结构化数据的方法和分布式NewSQL数据库系统
CN201710580423.9A Active CN107402987B (zh) 2016-09-21 2017-07-17 一种全文检索的方法和分布式NewSQL数据库系统
CN201710581237.7A Expired - Fee Related CN107463635B (zh) 2016-09-21 2017-07-17 一种图片数据查询的方法和分布式NewSQL数据库系统
CN201710581193.8A Expired - Fee Related CN107451219B (zh) 2016-09-21 2017-07-17 一种建立二级索引的方法和分布式NewSQL数据库
CN201710580416.9A Expired - Fee Related CN107291947B (zh) 2016-09-21 2017-07-17 一种半结构化数据查询的方法和分布式NewSQL数据库系统
CN201710581195.7A Expired - Fee Related CN107451220B (zh) 2016-09-21 2017-07-17 一种分布式NewSQL数据库系统
CN201710581291.1A Expired - Fee Related CN107463637B (zh) 2016-09-21 2017-07-17 一种分布式NewSQL数据库系统和数据储存方法
CN201710580739.8A Expired - Fee Related CN107402990B (zh) 2016-09-21 2017-07-17 一种分布式NewSQL数据库系统和半结构化数据储存方法
CN201710580435.1A Expired - Fee Related CN107480198B (zh) 2016-09-21 2017-07-17 一种分布式NewSQL数据库系统和全文检索方法
CN201710580794.7A Expired - Fee Related CN107451214B (zh) 2016-09-21 2017-07-17 一种非主键查询方法和分布式NewSQL数据库系统
CN201710581275.2A Active CN107329837B (zh) 2016-09-21 2017-07-17 一种负载均衡的方法和单元、分布式NewSQL数据库系统
CN201710581229.2A Expired - Fee Related CN107491345B (zh) 2016-09-21 2017-07-17 一种写入图片数据方法和分布式NewSQL数据库系统
CN201710580791.3A Active CN107291948B (zh) 2016-09-21 2017-07-17 一种分布式newSQL数据库的访问方法
CN201710580431.3A Active CN107491485B (zh) 2016-09-21 2017-07-17 生成执行计划的方法、计划单元装置和分布式NewSQL数据库系统
CN201710580417.3A Expired - Fee Related CN107463632B (zh) 2016-09-21 2017-07-17 一种分布式NewSQL数据库系统和数据查询方法

Family Applications Before (10)

Application Number Title Priority Date Filing Date
CN201610842399.7A Pending CN106446153A (zh) 2016-09-21 2016-09-21 一种分布式newSQL数据库系统及方法
CN201710580456.3A Expired - Fee Related CN107402988B (zh) 2016-09-21 2017-07-17 一种分布式NewSQL数据库系统和半结构化数据查询方法
CN201710580796.6A Expired - Fee Related CN107402992B (zh) 2016-09-21 2017-07-17 一种分布式NewSQL数据库系统和全文检索建立方法
CN201710585103.2A Expired - Fee Related CN107402995B (zh) 2016-09-21 2017-07-17 一种分布式newSQL数据库系统及方法
CN201710581273.3A Expired - Fee Related CN107451221B (zh) 2016-09-21 2017-07-17 一种数据库接口单元装置和分布式NewSQL数据库系统
CN201710580752.3A Expired - Fee Related CN107247808B (zh) 2016-09-21 2017-07-17 一种分布式NewSQL数据库系统及图片数据查询方法
CN201710580720.3A Expired - Fee Related CN107402989B (zh) 2016-09-21 2017-07-17 一种全文检索建立的方法和分布式NewSQL数据库系统
CN201710581256.XA Expired - Fee Related CN107391653B (zh) 2016-09-21 2017-07-17 一种分布式NewSQL数据库系统及图片数据储存方法
CN201710580403.1A Expired - Fee Related CN107368575B (zh) 2016-09-21 2017-07-17 一种负载均衡的分布式NewSQL数据库系统
CN201710580754.2A Expired - Fee Related CN107402991B (zh) 2016-09-21 2017-07-17 一种写入半结构化数据的方法和分布式NewSQL数据库系统

Family Applications After (13)

Application Number Title Priority Date Filing Date
CN201710581237.7A Expired - Fee Related CN107463635B (zh) 2016-09-21 2017-07-17 一种图片数据查询的方法和分布式NewSQL数据库系统
CN201710581193.8A Expired - Fee Related CN107451219B (zh) 2016-09-21 2017-07-17 一种建立二级索引的方法和分布式NewSQL数据库
CN201710580416.9A Expired - Fee Related CN107291947B (zh) 2016-09-21 2017-07-17 一种半结构化数据查询的方法和分布式NewSQL数据库系统
CN201710581195.7A Expired - Fee Related CN107451220B (zh) 2016-09-21 2017-07-17 一种分布式NewSQL数据库系统
CN201710581291.1A Expired - Fee Related CN107463637B (zh) 2016-09-21 2017-07-17 一种分布式NewSQL数据库系统和数据储存方法
CN201710580739.8A Expired - Fee Related CN107402990B (zh) 2016-09-21 2017-07-17 一种分布式NewSQL数据库系统和半结构化数据储存方法
CN201710580435.1A Expired - Fee Related CN107480198B (zh) 2016-09-21 2017-07-17 一种分布式NewSQL数据库系统和全文检索方法
CN201710580794.7A Expired - Fee Related CN107451214B (zh) 2016-09-21 2017-07-17 一种非主键查询方法和分布式NewSQL数据库系统
CN201710581275.2A Active CN107329837B (zh) 2016-09-21 2017-07-17 一种负载均衡的方法和单元、分布式NewSQL数据库系统
CN201710581229.2A Expired - Fee Related CN107491345B (zh) 2016-09-21 2017-07-17 一种写入图片数据方法和分布式NewSQL数据库系统
CN201710580791.3A Active CN107291948B (zh) 2016-09-21 2017-07-17 一种分布式newSQL数据库的访问方法
CN201710580431.3A Active CN107491485B (zh) 2016-09-21 2017-07-17 生成执行计划的方法、计划单元装置和分布式NewSQL数据库系统
CN201710580417.3A Expired - Fee Related CN107463632B (zh) 2016-09-21 2017-07-17 一种分布式NewSQL数据库系统和数据查询方法

Country Status (1)

Country Link
CN (24) CN106446153A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108846044A (zh) * 2018-05-30 2018-11-20 浪潮软件股份有限公司 一种地图应用部署方法及装置
CN109271428A (zh) * 2018-09-11 2019-01-25 北京市计算中心 数据抽取方法及基于地理信息的数据展示方法
CN110704437A (zh) * 2019-09-26 2020-01-17 上海达梦数据库有限公司 数据库查询语句的修改方法、装置、设备和存储介质
CN111651453A (zh) * 2020-04-30 2020-09-11 中国平安财产保险股份有限公司 用户历史行为查询方法、装置、电子设备及存储介质
CN112364033A (zh) * 2021-01-13 2021-02-12 北京云真信科技有限公司 一种数据检索系统

Families Citing this family (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107391744B (zh) * 2017-08-10 2020-06-16 东软集团股份有限公司 数据存储、读取方法、装置及其设备
CN107480260B (zh) * 2017-08-16 2021-02-23 北京奇虎科技有限公司 大数据实时分析方法、装置、计算设备及计算机存储介质
CN107688660B (zh) * 2017-09-08 2020-03-13 上海达梦数据库有限公司 并行执行计划的执行方法及装置
CN107766572A (zh) * 2017-11-13 2018-03-06 北京国信宏数科技有限责任公司 基于经济领域数据的分布式提取及可视化分析方法和系统
CN108228750A (zh) * 2017-12-21 2018-06-29 浪潮软件股份有限公司 一种分布式数据库及其对数据进行管理的方法
CN108038215A (zh) * 2017-12-22 2018-05-15 上海达梦数据库有限公司 数据处理方法及系统
CN109992409B (zh) * 2018-01-02 2021-07-30 中国移动通信有限公司研究院 数据存储区域的切分方法、装置、系统、电子设备和介质
CN108829507B (zh) * 2018-03-30 2019-07-26 北京百度网讯科技有限公司 分布式数据库系统的资源隔离方法、装置和服务器
CN110362624A (zh) * 2018-04-02 2019-10-22 蓝盾信息安全技术有限公司 一种基于安全隔离网闸系统的异构数据库同步方法
CN108664616A (zh) * 2018-05-14 2018-10-16 浪潮软件集团有限公司 一种基于ROWID的Oracle数据批量采集方法
CN108920519A (zh) * 2018-06-04 2018-11-30 贵州数据宝网络科技有限公司 一对多数据供应系统及方法
CN109033209B (zh) * 2018-06-29 2021-12-31 新华三大数据技术有限公司 Spark存储过程处理方法及装置
CN109241076A (zh) * 2018-08-01 2019-01-18 上海依图网络科技有限公司 一种数据查询方法及装置
CN109408591B (zh) * 2018-10-12 2021-11-09 北京聚云位智信息科技有限公司 支持sql驱动的ai与特征工程的决策型分布式数据库系统
CN109298976B (zh) * 2018-10-17 2022-04-12 成都索贝数码科技股份有限公司 一种异构数据库集群备份系统及方法
CN109408515A (zh) * 2018-11-01 2019-03-01 郑州云海信息技术有限公司 一种索引执行方法与装置
CN109684412A (zh) * 2018-12-25 2019-04-26 成都虚谷伟业科技有限公司 一种分布式数据库系统
CN109726250B (zh) * 2018-12-27 2020-01-17 星环信息科技(上海)有限公司 数据存储系统、元数据库同步及数据跨域计算方法
CN111488340B (zh) * 2019-01-29 2023-09-12 菜鸟智能物流控股有限公司 数据处理方法、装置及电子设备
CN110046161A (zh) * 2019-03-18 2019-07-23 平安普惠企业管理有限公司 数据写入方法及装置、存储介质、电子设备
CN110086602B (zh) * 2019-04-16 2022-02-11 上海交通大学 基于gpu的sm3密码散列算法的快速实现方法
CN110110234B (zh) * 2019-05-13 2020-10-16 重庆天蓬网络有限公司 一种大数据实时搜索系统和方法
CN110275901B (zh) * 2019-06-25 2021-08-24 北京创鑫旅程网络技术有限公司 一种缓存数据调取方法及装置
CN110457363B (zh) * 2019-07-05 2023-11-21 中国平安人寿保险股份有限公司 基于分布式数据库的查询方法、装置及存储介质
CN110413642B (zh) * 2019-08-02 2022-05-27 北京快立方科技有限公司 一种应用无感知的分片数据库解析及优化方法
CN110569257B (zh) * 2019-09-16 2022-04-01 上海达梦数据库有限公司 数据处理方法、相应装置、设备及存储介质
CN112688976A (zh) * 2019-10-17 2021-04-20 广州迈安信息科技有限公司 一种采用jdbc/http标准的数据处理传输服务系统
CN110888919B (zh) * 2019-12-04 2023-06-30 阳光电源股份有限公司 基于HBase的对大数据统计分析的方法及装置
CN113032479A (zh) * 2019-12-24 2021-06-25 上海昂创信息技术有限公司 一种HBase非主键索引的方法及HBase系统
CN111309581B (zh) * 2020-02-28 2023-09-12 中国工商银行股份有限公司 一种数据库升级场景下的应用性能检测方法及装置
CN113760960A (zh) * 2020-06-01 2021-12-07 北京搜狗科技发展有限公司 一种信息生成方法、装置和用于生成信息的装置
CN111797112B (zh) * 2020-06-05 2022-04-01 武汉大学 一种PostgreSQL预备语句执行优化方法
CN113806611A (zh) * 2020-06-17 2021-12-17 海信集团有限公司 一种存储搜索引擎结果的方法及设备
CN111930705B (zh) * 2020-07-07 2023-03-14 中国电子科技集团公司电子科学研究院 二进制消息协议数据处理方法及装置
CN112148792B (zh) * 2020-09-16 2024-04-12 鹏城实验室 一种基于HBase的分区数据调整方法、系统及终端
CN112052347B (zh) * 2020-10-09 2024-06-04 北京百度网讯科技有限公司 图像存储方法、装置以及电子设备
CN112416925B (zh) * 2020-11-02 2024-04-09 浙商银行股份有限公司 基于有序分布式索引结构的查询方法和分布式数据库系统
CN113760900B (zh) * 2021-02-19 2024-10-18 西安京迅递供应链科技有限公司 数据的实时汇总以及区间汇总的方法和装置
CN112905615B (zh) * 2021-03-02 2023-03-24 浪潮云信息技术股份公司 一种基于顺序校验的分布式一致性协议提交方法及系统
CN112925841B (zh) * 2021-03-26 2022-11-08 瀚高基础软件股份有限公司 分布式jdbc实现方法、设备及计算机可读存储介质
CN113407662B (zh) * 2021-08-19 2021-12-14 深圳市明源云客电子商务有限公司 敏感词识别方法、系统及计算机可读存储介质
CN113742370B (zh) * 2021-11-02 2022-04-19 阿里云计算有限公司 全加密数据库的数据查询方法、统计信息密文生成方法
CN115129724A (zh) * 2022-08-29 2022-09-30 畅捷通信息技术股份有限公司 一种统计型报表分页方法、系统、设备及介质
CN116861455B (zh) * 2023-06-25 2024-04-26 上海数禾信息科技有限公司 事件数据处理方法、系统、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104503985A (zh) * 2014-12-03 2015-04-08 浪潮电子信息产业股份有限公司 一种Hbase数据自动化创建Solr索引文件的方法
CN104731945A (zh) * 2015-03-31 2015-06-24 浪潮集团有限公司 一种基于HBase的全文检索方法及装置

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101477568A (zh) * 2009-02-12 2009-07-08 清华大学 一种结构化数据和非结构化数据综合检索的方法
CN101567006B (zh) * 2009-05-25 2012-07-04 中兴通讯股份有限公司 一种数据库系统及分布式sql语句执行计划重用方法
CN102163195B (zh) * 2010-02-22 2013-04-24 北京东方通科技股份有限公司 一种基于分布式、异构数据库统一视图的查询优化方法
CN102375853A (zh) * 2010-08-24 2012-03-14 中国移动通信集团公司 分布式数据库系统、在其中建立索引的方法和查询方法
CN102201010A (zh) * 2011-06-23 2011-09-28 清华大学 无共享架构的分布式数据库系统及其实现方法
CN102289482A (zh) * 2011-08-02 2011-12-21 北京航空航天大学 一种非结构化数据查询方法
CN103150304B (zh) * 2011-12-06 2016-11-23 郑红云 云数据库系统
CN103577407B (zh) * 2012-07-19 2016-10-12 国际商业机器公司 用于分布式数据库的查询方法及查询装置
US20140074860A1 (en) * 2012-09-12 2014-03-13 Pingar Holdings Limited Disambiguator
CN102902932B (zh) * 2012-09-18 2015-12-02 武汉华工安鼎信息技术有限责任公司 基于sql重写的数据库外部加解密系统的使用方法
CN103092970A (zh) * 2013-01-24 2013-05-08 华为技术有限公司 一种数据库操作方法及设备
US9773021B2 (en) * 2013-01-30 2017-09-26 Hewlett-Packard Development Company, L.P. Corrected optical property value-based search query
CN103377292B (zh) * 2013-07-02 2017-02-15 华为技术有限公司 数据库结果集缓存方法及设备
US20150039587A1 (en) * 2013-07-31 2015-02-05 Oracle International Corporation Generic sql enhancement to query any semi-structured data and techniques to efficiently support such enhancements
CN103473321A (zh) * 2013-09-12 2013-12-25 华为技术有限公司 数据库管理方法与系统
CN104794123B (zh) * 2014-01-20 2018-07-27 阿里巴巴集团控股有限公司 一种为半结构化数据构建NoSQL数据库索引的方法及装置
CN103984726B (zh) * 2014-05-16 2017-03-29 上海新炬网络信息技术有限公司 一种数据库执行计划的局部修正方法
CN104133858B (zh) * 2014-07-15 2017-08-01 武汉邮电科学研究院 基于列存储的智能双引擎分析系统及方法
CN104572895B (zh) * 2014-12-24 2018-02-23 天津南大通用数据技术股份有限公司 MPP数据库与Hadoop集群数据互通方法、工具及实现方法
CN104731922A (zh) * 2015-03-26 2015-06-24 江苏物联网研究发展中心 基于分布式数据库HBase的结构化数据的快速检索系统及方法
CN104750815B (zh) * 2015-03-30 2017-11-03 浪潮集团有限公司 一种基于HBase的Lob数据的存储方法及装置
CN105389375B (zh) * 2015-11-18 2018-10-02 福建师范大学 一种基于可视域的图像索引设置方法、系统及检索方法
CN105740410A (zh) * 2016-01-29 2016-07-06 浪潮电子信息产业股份有限公司 一种基于Hbase二级索引的数据统计方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104503985A (zh) * 2014-12-03 2015-04-08 浪潮电子信息产业股份有限公司 一种Hbase数据自动化创建Solr索引文件的方法
CN104731945A (zh) * 2015-03-31 2015-06-24 浪潮集团有限公司 一种基于HBase的全文检索方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
@APACHEPHOENIX: "ApachePhoenix", 《APACHE.ORG》 *
JAMES TAYLOR: "Phoenix", 《APACHE.ORG》 *
LARS GEORGE: "《HBase权威指南》", 31 October 2013, 人民邮电出版社 *
吴国泉: "基于HBase的全文索引及检索技术的研究", 《万方数据知识服务平台》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108846044A (zh) * 2018-05-30 2018-11-20 浪潮软件股份有限公司 一种地图应用部署方法及装置
CN109271428A (zh) * 2018-09-11 2019-01-25 北京市计算中心 数据抽取方法及基于地理信息的数据展示方法
CN110704437A (zh) * 2019-09-26 2020-01-17 上海达梦数据库有限公司 数据库查询语句的修改方法、装置、设备和存储介质
CN110704437B (zh) * 2019-09-26 2022-05-20 上海达梦数据库有限公司 数据库查询语句的修改方法、装置、设备和存储介质
CN111651453A (zh) * 2020-04-30 2020-09-11 中国平安财产保险股份有限公司 用户历史行为查询方法、装置、电子设备及存储介质
CN111651453B (zh) * 2020-04-30 2024-02-06 中国平安财产保险股份有限公司 用户历史行为查询方法、装置、电子设备及存储介质
CN112364033A (zh) * 2021-01-13 2021-02-12 北京云真信科技有限公司 一种数据检索系统

Also Published As

Publication number Publication date
CN107451219A (zh) 2017-12-08
CN107402991A (zh) 2017-11-28
CN107451214A (zh) 2017-12-08
CN107451221B (zh) 2020-09-04
CN107451221A (zh) 2017-12-08
CN107291948B (zh) 2020-05-19
CN107451219B (zh) 2020-06-09
CN107402989B (zh) 2020-10-27
CN107463637A (zh) 2017-12-12
CN107463637B (zh) 2020-05-19
CN107247808A (zh) 2017-10-13
CN107480198A (zh) 2017-12-15
CN107451220B (zh) 2020-06-09
CN107402995A (zh) 2017-11-28
CN106446153A (zh) 2017-02-22
CN107402988B (zh) 2020-01-03
CN107491345B (zh) 2020-08-04
CN107291947B (zh) 2020-03-10
CN107463632A (zh) 2017-12-12
CN107402992A (zh) 2017-11-28
CN107402990B (zh) 2020-06-09
CN107402995B (zh) 2020-06-09
CN107402990A (zh) 2017-11-28
CN107391653B (zh) 2020-05-19
CN107491485B (zh) 2020-08-04
CN107368575B (zh) 2020-06-09
CN107402991B (zh) 2020-05-19
CN107402988A (zh) 2017-11-28
CN107247808B (zh) 2020-01-10
CN107463632B (zh) 2020-06-09
CN107463635B (zh) 2020-09-25
CN107291947A (zh) 2017-10-24
CN107329837B (zh) 2020-06-09
CN107451214B (zh) 2020-05-19
CN107368575A (zh) 2017-11-21
CN107402992B (zh) 2020-06-09
CN107391653A (zh) 2017-11-24
CN107329837A (zh) 2017-11-07
CN107451220A (zh) 2017-12-08
CN107491485A (zh) 2017-12-19
CN107402987B (zh) 2020-04-03
CN107463635A (zh) 2017-12-12
CN107480198B (zh) 2020-05-19
CN107402989A (zh) 2017-11-28
CN107291948A (zh) 2017-10-24
CN107491345A (zh) 2017-12-19

Similar Documents

Publication Publication Date Title
CN107402987A (zh) 一种全文检索的方法和分布式NewSQL数据库系统
CN103455540B (zh) 从数据仓库模型生成内存模型的系统和方法
CN1897025B (zh) 海量数据处理中多线程工作包并行的etl技术
CN106610999A (zh) 查询处理方法和装置
CN110019314B (zh) 基于数据项分析的动态数据封装方法、客户端和服务端
CN108280082A (zh) 一种统计数据的即席查询方法及系统
CN117743371A (zh) 基于大语言模型的sql语句生成方法、装置、设备及介质
US9031930B2 (en) Data browser for group-by data access
CN108491415A (zh) 一种国际贸易数据的搜索方法以及搜索系统
CN110968594B (zh) 数据库查询优化方法、引擎及存储介质
KR20180077830A (ko) 비공유 아키텍처 기반의 분산 스트림 처리 엔진에서 관계형 질의를 처리하는 방법, 이를 수행하기 위한 기록 매체 및 장치
CN105677745A (zh) 一种通用高效自助数据查询系统及实现方法
CN104808970A (zh) 一种实现国际化软件的方法和系统
CN116049193A (zh) 数据存储方法及装置
CN103020300B (zh) 一种信息检索方法和设备
CN107436903A (zh) 一种基于NoSQL的数据库管理方法
CN106951419A (zh) 一种面向云制造的异构制造服务发现系统及方法
CN101989274A (zh) 利用语言集成查询linq进行查询的方法
CN107168984A (zh) 一种基于多文件格式自动识别的跨地域关联统计方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200309

Address after: Room 5303, 1023 Gaopu Road, Tianhe Software Park, Tianhe District, Guangzhou City, Guangdong 510000

Applicant after: Yunrun Da Data Service Co.,Ltd.

Address before: 510000 Yuexiu District, Guangzhou Province, north of the text of the text of the North Road, No. 68, the east wing of the text of the building on the ground floor, No. six, No. 602, No.

Applicant before: GUANGZHOU TEDAO INFORMATION TECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A full text retrieval method and distributed newsql database system

Effective date of registration: 20210325

Granted publication date: 20200403

Pledgee: Qianjin sub branch of Bank of Guangzhou Co.,Ltd.

Pledgor: Yunrun Da Data Service Co.,Ltd.

Registration number: Y2021440000102

PC01 Cancellation of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20220822

Granted publication date: 20200403

Pledgee: Qianjin sub branch of Bank of Guangzhou Co.,Ltd.

Pledgor: Yunrun Da Data Service Co.,Ltd.

Registration number: Y2021440000102

PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A full-text retrieval method and distributed NewSQL database system

Effective date of registration: 20220824

Granted publication date: 20200403

Pledgee: Chepi Road Branch of Guangzhou Bank Co.,Ltd.

Pledgor: Yunrun Da Data Service Co.,Ltd.

Registration number: Y2022980013458

PC01 Cancellation of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20230206

Granted publication date: 20200403

Pledgee: Chepi Road Branch of Guangzhou Bank Co.,Ltd.

Pledgor: Yunrun Da Data Service Co.,Ltd.

Registration number: Y2022980013458