CN105335479A - 一种基于sql的文本数据统计实现方法 - Google Patents
一种基于sql的文本数据统计实现方法 Download PDFInfo
- Publication number
- CN105335479A CN105335479A CN201510657159.5A CN201510657159A CN105335479A CN 105335479 A CN105335479 A CN 105335479A CN 201510657159 A CN201510657159 A CN 201510657159A CN 105335479 A CN105335479 A CN 105335479A
- Authority
- CN
- China
- Prior art keywords
- text
- statistics
- sql
- full
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2453—Query optimisation
- G06F16/24532—Query optimisation of parallel queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/2433—Query languages
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于SQL的文本数据统计实现方法,其技术特点是:对输入SQL语法进行解析;在结构化数据仓库中建立和子查询投影结构一致的临时表;识别全文索引引擎数据分布规则;将基于SQL的简单子查询翻译为全文索引引擎语法,并在全文索引引擎中执行;获取全文索引查询结果并将结果导入到结构化数据仓库引擎临时表中;完成查询结果导入过程,向数据仓库下发重写后的基于临时表SQL查询语句,并向客户端返回查询结果。本发明结合全文索引引擎和结构化数据仓库引擎的特点,实现对海量文本数据的基于通用SQL语言的统计分析方法,解决了传统方法统计功能薄弱和结构化数据仓库无法支持高效文本检索的问题,大大提高了文本数据统计分析的易用性。
Description
技术领域
本发明属于数据存储与查询技术领域,特别涉及一种基于SQL的文本数据统计实现方法。
背景技术
随着信息时代来临,计算机技术的飞速发展,特别是Internet技术的不断应用,数据呈现了飞快的增长趋势,数据类型也越来越复杂,原有结构化数据仓库已经无法满足目前大数据存储和分析的需求,全文索引技术已经在应用中得到广泛的应用,但全文检索技术在数据统计支撑能力方面,相比结构化数据仓库还存在较大差距。
结构化数据仓库是利用MPP多机并行计算技术将结构化数据分散存储在多台独立的设备上。基于分布式可扩展的系统结构,利用多台存储服务器分担存储负荷,利用位置服务器定位存储信息,它不但提高了系统的可靠性、可用性和存取效率,还易于扩展。大幅提升了结构化数据统计分析计算的性能,在接口层面提供标准SQL接口,极大地降低了数据分析人员应用技术门槛,是一种理想的结构化数据存储分析技术架构。
全文检索引擎是基于分词技术、倒排索引技术、分布式存储技术所形成的面向文本数据的快速高效的数据检索引擎,能够达到TB级、甚至PB级数据秒级检索响应能力,是理想的文本数据的存储和索引引擎。但是,在面向统计分析业务场景,以及与结构化数据进行联合分析的场景中,尚无法满足功能需求。
目前,结构化和非结构化数据的爆炸式增长,必然带来大量的文本数据统计,以及文本数据和结构化数据联合统计分析的业务需求,结构化数据仓库和全文检索引擎均无法支撑此类业务,如何即能够利用全文检索引擎高效快速的文本数据检索能力,同时利用结构化数据仓库的数据统计分析能力,已经成为一个迫切需要研究的问题。
发明内容
本发明的目的在于克服现有技术的不足,提供一种设计合理、能够满足海量文本数据并行高效统计、文本数据和结构化数据并行联合分析的业务需求的基于SQL的文本数据统计实现方法。
本发明解决现有的技术问题是采取以下技术方案实现的:
一种基于SQL的文本数据统计实现方法,构建基于一个文本统计协调器和多个文本统计执行器的分布式文本数据统计集群系统,所述文本统计协调器包括统一元数据管理模块、查询优化模块、SQL语法解析模块、结构化数据仓库SQL执行模块、分布式通信模块;所述文本统计执行器包括SQL语法向全文检索语义翻译模块、全文检索结果向结构化数据仓库导入模块,并且通过如下步骤实现:
步骤1:文本统计协调器对输入SQL语法进行解析,提取所有存储在全文索引引擎中数据的子查询;
步骤2:文本统计协调器在结构化数据仓库中建立和子查询投影结构一致的临时表,并将原查询语句的子查询部分重写为基于临时表的查询;
步骤3:文本统计协调器识别全文索引引擎数据分布规则,向每个文本数据存储端部署的文本统计执行器下发,并将全文索引引擎的子查询结果导入到结构化数据仓库引擎;
步骤4:文本统计执行器将文本统计协调器下发请求中基于SQL的简单子查询翻译为全文索引引擎语法,并在全文索引引擎中执行;
步骤5:文本统计执行器获取全文索引查询结果,并将结果导入到结构化数据仓库引擎临时表中;
步骤6:文本统计协调器等待每个文本统计执行器完成查询结果导入过程,待导入结束后向数据仓库下发重写后的基于临时表SQL查询语句,并向客户端返回查询结果。
所述的步骤1包括以下处理过程:业务应用基于标准JDBC开发接口向文本统计协调器发送SQL查询请求,文本统计协调器对SQL查询进行语法解析生成语法树,文本统计协调器遍历语法树,标识并提取所有在元数据定义中包括在文本数据存储中存储数据的子查询。
所述的步骤2包括以下处理过程:文本统计协调器分析步骤1中识别的子查询,提取子查询中的投影结构,基于此投影结构自动形成在结构化数据仓库的临时表建表语句,调用结构化数据仓库DDL执行接口,在结构化数据仓库中建立临时表,将原有输入SQL语句中的子查询部分进行SQL重写,替换为基于数据仓库临时表的子查询,并生成新的基于临时表的完整SQL语句。
所述步骤3中文本统计协调器通过获取分布式全文索引引擎的数据分布规则,下发分布式检索查询和数据仓库导入请求。
所述步骤4中文本统计执行器能够完成高级SQL文本检索条件的全文检索引擎翻译,包括分词查询、模糊查询、邻近搜索和检索结果打分。
本发明的优点和积极效果是:
1、本发明构建基于文本统计协调器和文本统计执行器的分布式文本数据统计集群系统,结合全文索引引擎和结构化数据仓库引擎的特点,实现对海量文本数据的基于通用SQL语言的统计分析方法,解决了传统全文索引统计功能薄弱和结构化数据仓库无法支持高效文本检索的问题,大大提高了文本数据统计分析的易用性。
2、本发明以分布式全文检索系统和MPP并行数据仓库为基础,搭建了新的基于SQL的文本数据统计分布式集群,通过查询计划分解,在执行层利用全文检索系统和MPP并行数据仓库完成高效执行,充分发挥两者的优势,实现了一种简单易用的基于SQL的文本数据统计方法,解决了原有全文检索系统统计功能差和MPP并行数据仓库文本检索性能差的缺点。
3、本发明充分考虑海量数据处理需求,针对海量数据进行专门的设计,对全文检索查询过程,采用了有针对性的基于位置感知的二阶段查询协议,第一阶段获取数据分布位置,并下发查询每个到文本检索服务,第二阶段将查询结果点对点的插入到MPP并行数据仓库中。
4、本发明大大提高了文本数据统计处理海量数据的效率和能力,开辟了国产文本数据统计的先河。
5、本发明相对于传统的文本数据统计计算方法,在接口层面更加易用,提供了SQL标准查询语法支持,在统计分析性能方面,由于采用了基于位置感知的二阶段查询协议,实现了查询结果的分布式并行统计,大大提升了全文检索查询结果输出性能,相比原有通过应用层进行数据交换的性能有了极大的提升。
附图说明
图1为基于SQL的文本数据统计集群模式部署图;
图2为基于SQL的文本数据统计集群并行架构功能示意图。
具体实施方式
以下结合附图对本发明实施例做进一步详述:
一种基于SQL的文本数据统计实现方法,是在如图1及图2所示的基于SQL的文本数据统计集群系统实现的。该文本数据统计集群系统为一个协调接入服务和多个文本统计执行服务的分布式文本数据统计结构,通过利用已有的全文检索及存储系统的全文检索功能和MPP并行数据库近SQL全集的数据统计分析功能,辅以基于数据分布的负载均衡及就近检索结构,最终提供基于SQL的文本数据统计分布式集群架构。该集群架构包括一个文本统计协调服务器、多个分布式的文本统计执行服务器,外部集成有全文检索及存储服务和MPP并行数据库服务;所述的文本统计协调服务器包括查询接入模块、查询改写服务、资源管理模块、多节点并行调度执行服务和MPP并行数据库执行管理服务;所述的文本统计执行服务器包括执行调度、SQL语法翻译、全文检索执行代理、MPP数据装载模块;MPP数据库执行管理服务和外部MPP并行数据库服务集成,全文检索执行代理模块和外部全文检索及存储服务集成,资源管理模块和外部全文检索接入服务集成。
下面对文本统计协调器和文本统计执行器的功能分别进行说明:
1、文本统计协调器负责SQL查询请求接入,SQL查询语义解析,提取文本检索部分并进行查询改写,向文本统计执行服务发送文本检索结果导入请求,使用MPP并行数据库执行改写后SQL,并向客户端发送查询结果。
(1)查询改写流程:识别SQL语句中的文本数据表,提取文本数据表相关的查询条件,进行查询条件下降处理,下降后形成基于文本数据单表子查询,识别子查询投影,构建和子查询投影模式一致的临时表,将子查询替换为临时表查询。
(2)查询条件下降规则:
针对文本数据表在多表关联中的join位置,进行如下判定:1)当join位置为innerjoin的左右子表,可下降join中on子句中的条件和join后查询where子句中的条件;2)当join位置为leftjoin的左表,仅能下降join后where子句中的条件;3)当join位置为leftjoin的右表,仅能下降join中on子句中的条件;4)当join位置为rightjoin的右表,仅能下降join后where子句中的条件;5)当join位置为leftjoin的左表,仅能下降join中on子句中的条件;
针对查询条件本身,如具有如下规则将无法下降:1)条件表达式中含有子查询(例如:exists(select*fromtwheret.i=out_t.j));2)条件表达式为常量表达式(例如:true/false/1=1/.....);3)非AND表达式中含有两个相关子表的(例如:t.i=t1.m);4)条件表达式中含有计算引擎不支持的函数;5)条件表达式中含有不可下降子表的(例如:t.i=1(t为不可下降子表));6)和上述表达式具有or关系的条件表达式(例如:t.i=1ort.jin(selectmfromt2):t.i=1可以下降但和t.jin(selectmfromt2)为OR关系,因此无法下降)
(3)MPP并行数据库临时表分布建表规则判定:为提升改写后语句在MPP并行数据库中的执行效率,针对文本数据表在多表关联中的join位置和查询语句中的分组统计规则,预先规划MPP并行数据库中建立的临时表的建表数据分布规则,主要依据为:1)文本数据表和其他表有join关系的,根据joinon子句或where子句中的等值关联列,将该列作为Hash分布键;2)查询语句中包括对文本数据表中某列的分组、去重操作子句的,将该列作为Hash分布键;3)其他情况采用循环分布规则;
(4)文本统计执行器请求分解:在文本统计协调器请求分解的过程中,本方案采用二阶段查询协议的方式进行设计,在第一阶段,向全文检索接入服务下发全文索引表数据分布规则查询请求,根据返回的数据分布规则,基于就近计算原则,进行文本统计执行服务请求分解;在第二阶段,将分解后的文本统计执行服务请求下发给文本统计执行服务。
2、文本统计执行器负责接收文本检索及结果导入请求,将SQL形态的文本检索条件翻译成全文检索及存储服务的检索API形式,向全文检索及存储服务发送全文检索请求,并将请求结果采用点对点的模式加载到MPP并行数据库的临时表中。
基于SQL的文本数据统计实现方法通过以下步骤实现:
步骤1:文本统计协调器对输入SQL语法进行解析,提取所有存储在全文索引引擎中数据的子查询。具体包括以下处理过程:
业务应用基于标准JDBC开发接口向文本统计协调器发送SQL查询请求,文本统计协调器对SQL查询进行语法解析生成语法树,文本统计协调器遍历语法树,标识并提取所有在元数据定义中包括在文本数据存储中存储数据的子查询。
步骤2:文本统计协调器在结构化数据仓库中建立和子查询投影结构一致的临时表,并将原查询语句的子查询部分重写为基于临时表的查询。具体包括以下处理过程:文本统计协调器分析步骤1中识别的子查询,提取子查询中的投影结构,基于此投影结构自动形成在结构化数据仓库的临时表建表语句,调用结构化数据仓库DDL执行接口,在结构化数据仓库中建立临时表,将原有输入SQL语句中的子查询部分进行SQL重写,替换为基于数据仓库临时表的子查询,并生成新的基于临时表的完整SQL语句。
步骤3:文本统计协调器识别全文索引引擎数据分布规则,向每个文本数据存储端部署的文本统计执行器下发,并将全文索引引擎的子查询结果导入到结构化数据仓库引擎。
在本步骤中,文本统计协调器通过获取分布式全文索引引擎的数据分布规则,下发分布式检索查询和数据仓库导入请求。
步骤4:文本统计执行器将文本统计协调器下发请求中基于SQL的简单子查询翻译为全文索引引擎语法,并在全文索引引擎中执行。
在本步骤中,文本统计执行器能够完成高级SQL文本检索条件的全文检索引擎翻译,包括分词查询、模糊查询、邻近搜索和检索结果打分。
步骤5:文本统计执行器获取全文索引查询结果,并将结果导入到结构化数据仓库引擎临时表中;
步骤6:文本统计协调器等待每个文本统计执行器完成查询结果导入过程,待导入结束后向数据仓库下发重写后的基于临时表SQL查询语句,并向客户端返回查询结果。
需要强调的是,本发明所述的实施例是说明性的,而不是限定性的,因此本发明包括并不限于具体实施方式中所述的实施例,凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式,同样属于本发明保护的范围。
Claims (5)
1.一种基于SQL的文本数据统计实现方法,其特征在于:构建基于一个文本统计协调器和多个文本统计执行器的分布式文本数据统计集群系统,所述文本统计协调器包括统一元数据管理模块、查询优化模块、SQL语法解析模块、结构化数据仓库SQL执行模块、分布式通信模块;所述文本统计执行器包括SQL语法向全文检索语义翻译模块、全文检索结果向结构化数据仓库导入模块,并且通过如下步骤实现:
步骤1:文本统计协调器对输入SQL语法进行解析,提取所有存储在全文索引引擎中数据的子查询;
步骤2:文本统计协调器在结构化数据仓库中建立和子查询投影结构一致的临时表,并将原查询语句的子查询部分重写为基于临时表的查询;
步骤3:文本统计协调器识别全文索引引擎数据分布规则,向每个文本数据存储端部署的文本统计执行器下发,并将全文索引引擎的子查询结果导入到结构化数据仓库引擎;
步骤4:文本统计执行器将文本统计协调器下发请求中基于SQL的简单子查询翻译为全文索引引擎语法,并在全文索引引擎中执行;
步骤5:文本统计执行器获取全文索引查询结果,并将结果导入到结构化数据仓库引擎临时表中;
步骤6:文本统计协调器等待每个文本统计执行器完成查询结果导入过程,待导入结束后向数据仓库下发重写后的基于临时表SQL查询语句,并向客户端返回查询结果。
2.根据权利要求1所述的一种基于SQL的文本数据统计实现方法,其特征在于:所述的步骤1包括以下处理过程:业务应用基于标准JDBC开发接口向文本统计协调器发送SQL查询请求,文本统计协调器对SQL查询进行语法解析生成语法树,文本统计协调器遍历语法树,标识并提取所有在元数据定义中包括在文本数据存储中存储数据的子查询。
3.根据权利要求1所述的基于SQL的文本数据统计实现方法,其特征在于:所述的步骤2包括以下处理过程:文本统计协调器分析步骤1中识别的子查询,提取子查询中的投影结构,基于此投影结构自动形成在结构化数据仓库的临时表建表语句,调用结构化数据仓库DDL执行接口,在结构化数据仓库中建立临时表,将原有输入SQL语句中的子查询部分进行SQL重写,替换为基于数据仓库临时表的子查询,并生成新的基于临时表的完整SQL语句。
4.根据权利要求1所述的基于SQL的文本数据统计实现方法,其特征在于:所述步骤3中文本统计协调器通过获取分布式全文索引引擎的数据分布规则,下发分布式检索查询和数据仓库导入请求。
5.根据权利要求1所述的基于SQL的文本数据统计实现方法,其特征在于:所述步骤4中文本统计执行器能够完成高级SQL文本检索条件的全文检索引擎翻译,包括分词查询、模糊查询、邻近搜索和检索结果打分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510657159.5A CN105335479B (zh) | 2015-10-12 | 2015-10-12 | 一种基于sql的文本数据统计实现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510657159.5A CN105335479B (zh) | 2015-10-12 | 2015-10-12 | 一种基于sql的文本数据统计实现方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105335479A true CN105335479A (zh) | 2016-02-17 |
CN105335479B CN105335479B (zh) | 2018-11-23 |
Family
ID=55286006
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510657159.5A Expired - Fee Related CN105335479B (zh) | 2015-10-12 | 2015-10-12 | 一种基于sql的文本数据统计实现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105335479B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106294860A (zh) * | 2016-08-23 | 2017-01-04 | 浪潮电子信息产业股份有限公司 | 一种实时索引数据同步的系统及其实现方法 |
CN106919678A (zh) * | 2017-02-27 | 2017-07-04 | 武汉珞佳伟业科技有限公司 | 一种数据库查询优化系统及方法 |
CN107632999A (zh) * | 2017-07-24 | 2018-01-26 | 杭州沃趣科技股份有限公司 | 一种对多个相关谓词进行合并的方法 |
CN109828968A (zh) * | 2019-02-19 | 2019-05-31 | 广州虎牙信息科技有限公司 | 一种数据去重处理方法、装置、设备、集群及存储介质 |
CN109902514A (zh) * | 2019-03-07 | 2019-06-18 | 杭州比智科技有限公司 | 一种数据脱敏控制系统、方法、服务器和存储介质 |
CN110019231A (zh) * | 2017-12-26 | 2019-07-16 | 中国移动通信集团山东有限公司 | 一种并行数据库动态关联的方法及节点 |
CN110297829A (zh) * | 2019-06-26 | 2019-10-01 | 重庆紫光华山智安科技有限公司 | 一种面向特定行业结构化业务数据的全文检索方法及系统 |
CN110888672A (zh) * | 2019-11-26 | 2020-03-17 | 北京仁科互动网络技术有限公司 | 一种基于元数据架构的表达式引擎实现方法及系统 |
CN111078734A (zh) * | 2019-12-25 | 2020-04-28 | 天津南大通用数据技术股份有限公司 | 一种通过创建内部临时表索引提高start with查询性能的方法 |
CN111695001A (zh) * | 2020-06-17 | 2020-09-22 | 科技谷(厦门)信息技术有限公司 | 一种大数据场景下的混合数据管理系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001134587A (ja) * | 1999-11-04 | 2001-05-18 | Nippon Telegr & Teleph Corp <Ntt> | 全文検索エンジン文書情報抽出方法及び装置及び全文検索エンジン文書情報抽出プログラムを格納した記憶媒体 |
CN1987853A (zh) * | 2005-12-23 | 2007-06-27 | 北大方正集团有限公司 | 关系型数据库与全文检索相结合的检索方法 |
US20150220594A1 (en) * | 2014-02-06 | 2015-08-06 | International Business Machines Corporation | Searching content managed by a search engine using relational database type queries |
CN104885078A (zh) * | 2012-12-29 | 2015-09-02 | 华为技术有限公司 | 用于大规模并行处理数据库集群中的两阶段查询优化的方法 |
-
2015
- 2015-10-12 CN CN201510657159.5A patent/CN105335479B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001134587A (ja) * | 1999-11-04 | 2001-05-18 | Nippon Telegr & Teleph Corp <Ntt> | 全文検索エンジン文書情報抽出方法及び装置及び全文検索エンジン文書情報抽出プログラムを格納した記憶媒体 |
CN1987853A (zh) * | 2005-12-23 | 2007-06-27 | 北大方正集团有限公司 | 关系型数据库与全文检索相结合的检索方法 |
CN104885078A (zh) * | 2012-12-29 | 2015-09-02 | 华为技术有限公司 | 用于大规模并行处理数据库集群中的两阶段查询优化的方法 |
US20150220594A1 (en) * | 2014-02-06 | 2015-08-06 | International Business Machines Corporation | Searching content managed by a search engine using relational database type queries |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106294860A (zh) * | 2016-08-23 | 2017-01-04 | 浪潮电子信息产业股份有限公司 | 一种实时索引数据同步的系统及其实现方法 |
CN106919678A (zh) * | 2017-02-27 | 2017-07-04 | 武汉珞佳伟业科技有限公司 | 一种数据库查询优化系统及方法 |
CN107632999A (zh) * | 2017-07-24 | 2018-01-26 | 杭州沃趣科技股份有限公司 | 一种对多个相关谓词进行合并的方法 |
CN110019231B (zh) * | 2017-12-26 | 2021-06-04 | 中国移动通信集团山东有限公司 | 一种并行数据库动态关联的方法及节点 |
CN110019231A (zh) * | 2017-12-26 | 2019-07-16 | 中国移动通信集团山东有限公司 | 一种并行数据库动态关联的方法及节点 |
CN109828968A (zh) * | 2019-02-19 | 2019-05-31 | 广州虎牙信息科技有限公司 | 一种数据去重处理方法、装置、设备、集群及存储介质 |
CN109828968B (zh) * | 2019-02-19 | 2021-12-21 | 广州虎牙信息科技有限公司 | 一种数据去重处理方法、装置、设备、集群及存储介质 |
CN109902514A (zh) * | 2019-03-07 | 2019-06-18 | 杭州比智科技有限公司 | 一种数据脱敏控制系统、方法、服务器和存储介质 |
CN110297829A (zh) * | 2019-06-26 | 2019-10-01 | 重庆紫光华山智安科技有限公司 | 一种面向特定行业结构化业务数据的全文检索方法及系统 |
CN110888672A (zh) * | 2019-11-26 | 2020-03-17 | 北京仁科互动网络技术有限公司 | 一种基于元数据架构的表达式引擎实现方法及系统 |
CN110888672B (zh) * | 2019-11-26 | 2023-05-02 | 北京仁科互动网络技术有限公司 | 一种基于元数据架构的表达式引擎实现方法及系统 |
CN111078734A (zh) * | 2019-12-25 | 2020-04-28 | 天津南大通用数据技术股份有限公司 | 一种通过创建内部临时表索引提高start with查询性能的方法 |
CN111078734B (zh) * | 2019-12-25 | 2023-08-08 | 天津南大通用数据技术股份有限公司 | 一种通过创建内部临时表索引提高start with查询性能的方法 |
CN111695001A (zh) * | 2020-06-17 | 2020-09-22 | 科技谷(厦门)信息技术有限公司 | 一种大数据场景下的混合数据管理系统 |
CN111695001B (zh) * | 2020-06-17 | 2023-05-30 | 科技谷(厦门)信息技术有限公司 | 一种大数据场景下的混合数据管理系统 |
Also Published As
Publication number | Publication date |
---|---|
CN105335479B (zh) | 2018-11-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105335479A (zh) | 一种基于sql的文本数据统计实现方法 | |
CN109299102B (zh) | 一种基于Elastcisearch的HBase二级索引系统及方法 | |
CN107463632B (zh) | 一种分布式NewSQL数据库系统和数据查询方法 | |
CN107291807B (zh) | 一种基于图遍历的sparql查询优化方法 | |
CN103064875B (zh) | 一种服务化空间数据分布式查询方法 | |
CN105260403B (zh) | 通用跨数据库访问方法 | |
CN103049521B (zh) | 可实现多属性复合条件查询的虚拟表索引系统及方法 | |
CN104133858A (zh) | 基于列存储的智能双引擎分析系统及方法 | |
CN104123374A (zh) | 分布式数据库中聚合查询的方法及装置 | |
CN102663007B (zh) | 一种支持敏捷开发和横向扩展的数据存储与查询方法 | |
CN114691786A (zh) | 数据血缘关系的确定方法及装置、存储介质、电子装置 | |
CN108052635A (zh) | 一种异构数据源统一联合查询方法 | |
CN102999563A (zh) | 基于资源描述框架的网络资源语义检索方法及系统 | |
US11893026B2 (en) | Advanced multiprovider optimization | |
US10534797B2 (en) | Synchronized updates across multiple database partitions | |
Samwel et al. | F1 query: Declarative querying at scale | |
JP4483034B2 (ja) | 異種データソース統合アクセス方法 | |
CN103226608B (zh) | 一种基于目录级可伸缩的Bloom Filter位图表的并行文件搜索方法 | |
CN101710336A (zh) | 一种利用关系中间件加速数据处理的方法 | |
CN104462351A (zh) | 一种面向MapReduce范型的数据查询模型与方法 | |
CN107491544B (zh) | 一种增强非关系型数据库分析能力的数据处理平台 | |
Silva et al. | Logical big data integration and near real-time data analytics | |
Zhou et al. | A study on ontology storage based on relational database | |
CN107368477B (zh) | 基于HBase协处理器的类SQL查询的方法和系统 | |
CN105868406A (zh) | 基于多数据库的专利检索系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20181123 Termination date: 20211012 |
|
CF01 | Termination of patent right due to non-payment of annual fee |