CN107943952A - 一种基于Spark框架进行全文检索的实现方法 - Google Patents

一种基于Spark框架进行全文检索的实现方法 Download PDF

Info

Publication number
CN107943952A
CN107943952A CN201711194929.2A CN201711194929A CN107943952A CN 107943952 A CN107943952 A CN 107943952A CN 201711194929 A CN201711194929 A CN 201711194929A CN 107943952 A CN107943952 A CN 107943952A
Authority
CN
China
Prior art keywords
metadata
full
text search
file
logic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711194929.2A
Other languages
English (en)
Other versions
CN107943952B (zh
Inventor
强倩
孙昊良
张慧琳
周渊
张晨
李斌斌
刘庆良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING SCISTOR TECHNOLOGY Co Ltd
National Computer Network and Information Security Management Center
Original Assignee
BEIJING SCISTOR TECHNOLOGY Co Ltd
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING SCISTOR TECHNOLOGY Co Ltd, National Computer Network and Information Security Management Center filed Critical BEIJING SCISTOR TECHNOLOGY Co Ltd
Priority to CN201711194929.2A priority Critical patent/CN107943952B/zh
Publication of CN107943952A publication Critical patent/CN107943952A/zh
Application granted granted Critical
Publication of CN107943952B publication Critical patent/CN107943952B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • G06F16/24532Query optimisation of parallel queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2255Hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2452Query translation
    • G06F16/24528Standardisation; Simplification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24552Database cache management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于Spark框架进行全文检索的实现方法,属于大数据处理领域。该方法首先接收待执行SQL语句,生成语法树并转换成相应的逻辑计划;然后,从Hive中获取检索所有表的元数据,寻找支持全文检索的字段,并通过字段哈希索引对数据块进行初步裁剪;继而,根据查询条件从文件元数据中获取数据块所具体存放的磁盘位置;最后,将逻辑执行计划转换为可分布式执行的任务集合,通过各个数据块位置来确定任务具体执行的目标节点和任务所具体执行的目标进程;对任务进行分发执行,并汇总执行结果,迭代获取最终结果。该方法具有较高的效率,可以快速的完成海量数据的全文检索,在大数据处理领域具有很强的实用性和应用范围,具有很广泛的应用前景。

Description

一种基于Spark框架进行全文检索的实现方法
技术领域
本发明属于大数据处理领域,具体涉及一种基于Spark框架进行全文检索的实现方法。
背景技术
随着计算机技术的不断发展和信息化程度的不断提高,数据量迅速增长,大数据应用越来越广泛。如,在网络安全上,使用大数据技术分析网络攻击行为;在电子商务上,使用大数据技术分析用户购物喜好或最受青睐的商品;在城市建设上,利用大数据技术构建智慧城市,方便人民出行。诸如此类,大数据技术在建设节约型社会,提高生成效率等方面起到了积极的推动作用;但随着数据量的持续增大和大数据应用的不断发展,面向海量数据的存储和应用也在蓬勃发展,随之而来的是对检索大数据的要求越来越高。在海量数据检索应用中,全文检索是最常用的统计功能之一,其可用性和效率直接影响了业务应用。
全文检索是一种将文件中所用文本与检索项匹配的文字资料检索方法,可以方便的进行对数据的相关统计和分析;而Apache基金会的Spark框架是一个通用并行框架,具有较高的效率及可用性,提供了同Hive一样的HiveQL接口;但是原生的Spark框架并未支持全文检索这一检索方式。因此,如何使用Spark框架来进行全文检索是一个需要解决的关键问题。
发明内容
本发明为了解决上述问题,提出了一种基于Spark框架进行全文检索的实现方法;通过对数据进行索引创建和查询,高效的对海量数据进行全文检索,并使用索引和缓存来提高全文检索的效率,提高全文检索的可用性。
具体步骤如下:
步骤一、针对数据查询和数据分析场景,spark框架通过Hive2JDBC接口接收用户提交的待执行SQL语句;
步骤二、对待执行的SQL语句使用spark sql语法解析器进行语法解析,生成语句相对应的语法树;
步骤三、对语法树中的每一个节点进行迭代解析,将该语法树转换成相应的逻辑计划,并将逻辑计划中全文检索的相关节点解析为Spark中的自定义函数。
每一节点即为一个语法结构,每个语法结构都有相应的逻辑执行计划;逻辑执行计划中存储的是查询条件。
步骤四、通过Hive接口的服务端口,Spark框架获取对待执行SQL语句进行检索的所有表的元数据;
所有表的元数据均存储在Hive元数据服务中。
Spark框架进行全文检索所使用的数据结构,包括两部分,第一部分是表的元数据,第二部分是数据块和索引。
其中,表的元数据又包括字段元数据,分区元数据,类型元数据和文件元数据;
字段元数据包括字段名称和字段类型;分区元数据包括分区类型和分区名;类型元数据包括表类型和支持全文检索的字段;文件元数据包括文件名,文件地址和字段哈希索引;
数据块和索引包括n个时间分区,每个时间分区中分别包括若干数据块和索引;每个数据块各对应一个索引;
步骤五、针对某个表的元数据,根据类型元数据标记的表类型,判断该表类型是否支持全文检索,如果是,获取支持全文检索的字段名称,进入步骤六;否则,对该表的元数据不予处理,依次选取下一个表的元数据继续判断是否支持全文检索。
步骤六、根据逻辑计划存储的查询条件和当前表的元数据,判断某文件元数据中的字段哈希索引与查询条件中的哈希值是否一致,如果是,保留该文件元数据,进入步骤七;否则,剪裁去除不符合条件的文件元数据,顺序选取当前表的元数据中下一个文件元数据继续判断哈希索引;
步骤七、通过文件元数据中的文件名,解析得到文件所属的具体磁盘位置,将位置对应的数据块存储于逻辑执行计划中;
步骤八、根据文件元数据中的信息,将全文检索的条件以及相关的查询条件,均转换为Lucene文件格式的索引中使用的查询条件,并存于逻辑执行计划中。
同时,将逻辑执行计划中的其他检索条件通过迭代的形式体现于逻辑执行计划中。
步骤九、将逻辑执行计划中的多个分区根据Spark框架中的DAG模型进行分割,根据Lucene文件格式的索引中使用的查询条件,将每个分区转换生成一个任务,得到并发执行任务集合;
步骤十、根据逻辑执行计划中各个数据块和数据块对应的磁盘位置,确定各个任务具体执行的目标节点;
步骤十一、将各个数据块的特征值进行哈希计算,通过相匹配的方法来确定每一个任务的具体执行进程;
步骤十二、将每个并发执行任务根据任务分发框架,提交到各个目标节点的执行进程中进行执行;
步骤十三、汇总每个任务的执行结果,待所有任务全部执行完毕后,根据DAG模型变化后的依赖结构,依次进行后续的迭代计算,直至得到最终的检索结果,返回给用户。
本发明的优点及带来的有益效果在于:
1)、一种基于Spark框架进行全文检索的实现方法,使用该方法进行大数据检索时具有较高的效率,可以快速的完成海量数据的全文检索,在大数据处理领域具有很强的实用性和应用范围,具有很广泛的应用前景。
2)、一种基于Spark框架进行全文检索的实现方法,不仅能够基于Spark对海量数据进行全文检索,同时还能通过一些索引和缓存的使用来减少对系统资源的使用,提高检索的效率,降低延时,符合当前大数据分析检索应用的实际需求。
附图说明
图1为本发明基于Spark框架进行全文检索实现的表数据组织结构;
图2为本发明基于Spark框架进行全文检索的实现方法的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对根据本发明一个实施例的层次分段式的备份数据组织管理方法进一步详细说明。
本发明首先在接收用户提交的SQL查询语句后,进行语法解析生成SQL语句的语法树,通过对语法树的内容进行进一步解析来生成检索的逻辑执行计划,在生成逻辑执行计划的过程中,将全文检索相关的语句解析为Spark中的自定义函数。然后,从Hive中获取对执行SQL语句进行检索的表的元数据,判断被全文检索的字段是否支持全文检索,若支持,则根据检索的具体条件通过文件元数据中的字段哈希索引对数据块进行初步的裁剪,以减少被检索的文件数据。继而,根据文件元数据中的信息,将全文检索的条件以及相关的查询条件转换为Lucene文件格式索引中的查询条件并存于逻辑执行计划中;从文件元数据中获取数据块所具体存放的磁盘位置,也存放于逻辑执行计划中;将逻辑执行计划中的其它检索条件通过迭代的形式体现于逻辑执行计划中。
最后,将逻辑执行计划根据Spark的DAG模型,转换为可分布式执行的任务集合,通过逻辑执行计划中所保存的各个数据块位置来确定任务具体执行的目标节点。通过对任务目标数据块的特征值得哈希计算,来确定任务所具体执行的目标进程,以此来保证对缓存的有效重复使用,来提高查询的效率。对任务进行分发执行,并汇总执行结果,根据执行计划进行后续的迭代计算,获取检索的最终结果,返回给提交检索的用户。
如图2所示,基于Spark进行全文检索的操作过程具体步骤如下:
步骤一、针对数据查询和数据分析场景,spark框架通过Hive2JDBC接口接收用户提交的待执行SQL语句;
步骤二、对待执行的SQL语句使用spark sql语法解析器进行语法解析,生成语句相对应的语法树;
步骤三、对语法树中的每一个节点根据预设的解析策略进行进一步的迭代解析,迭代过程中将全文检索的相关节点解析为Spark中的自定义函数,从而将该语法树转换成相应的逻辑计划。
每一节点即为一个语法结构,每个语法结构都有相应的逻辑执行计划;逻辑计划中存储的是查询条件。
步骤四、通过Hive接口的服务端口,Spark框架获取被待执行SQL语句进行检索的表的元数据;
表的元数据存储在Hive元数据服务中。如图1所示,给出了基于Spark的全文检索的实现的数据组织结构;
Spark框架进行全文检索所使用的数据结构,包括两部分,第一部分是表的元数据,第二部分是数据块和索引。
在实现例中,表的基本信息包括表名和表所属的数据库名称;表的元数据中主要包含四类内容,分别为字段元数据,分区元数据,类型元数据和文件元数据;
字段元数据包括表中所存储的各个字段的名称和字段类型;
分区元数据包括表的分区字段、分区类型和分区名;包含分区类型的具体分区情况,在实现例中以时间日期作为分区,在检索时可以裁剪掉不需要的日期数据,减少检索的目标数据量;
类型元数据包括该表的具体类型,表中是否有字段支持全文检索;
文件元数据包括表中所有的文件名称,文件地址和字段哈希索引;在实现例中,文件元数据通过在Hive对应的HDFS里创建空文件的形式来实现,在空文件的文件名中将文件的实际磁盘位置和文件的字段哈希索引进行拼接,来达到方便读取文件元数据的目的。
在文件元数据所指示的具体磁盘位置上存储有数据块和Lucene文件格式的索引。
数据块和索引包括n个时间分区,每个时间分区中分别包括若干数据块和索引;每个数据块各对应一个索引;
元数据中包含表中的各个字段名称类型;表的分区情况;表的类型元数据,表是否支持全文检索以及哪一个字段支持全文检索;表的数据文件元数据,在文件元数据中包含表的所有数据文件名、文件存放的具体磁盘位置;数据块在加载时可按照字段哈希值分组存放,可将字段哈希值也存入文件元数据中,以方便对文件的裁剪。在数据块索引中采用Lucene文件格式的索引存储数据块的索引值,以在检索时进行全文检索。
该数据组织结构可以支持完成如下操作:
1)根据字段哈希索引进行数据块的裁剪;
2)根据文件元数据获取数据存放的磁盘位置;
3)根据Lucene文件格式的索引获取符合全文检索条件的数据。
步骤五、针对某个表的元数据,根据类型元数据标记的表类型,判断该表类型是否支持全文检索,如果是,获取表中具体支持全文检索的字段名称,进入步骤六;否则,对该表的元数据不予处理,依次选取下一个表的元数据继续判断是否支持全文检索。
步骤六、根据逻辑执行计划中的查询条件和当前表数据中的文件元数据,判断某文件元数据中的字段哈希索引与查询条件中哈希值是否一致,如果是,保留该文件元数据,进入步骤七;否则,剪裁去除不符合条件的文件元数据,顺序选取当前表的元数据中下一个文件元数据继续判断哈希索引;
对文件进行剪裁,减少需要检索的文件数量;
步骤七、通过文件元数据中的文件名,解析得到文件所属的具体磁盘位置,将位置对应的数据块存储于逻辑执行计划中;
步骤八、根据文件元数据中的信息,将全文检索的条件以及其它可使用Lucene文件索引进行查询的相关条件,均转换为Lucene文件格式的索引中使用的查询条件,并将对Lucene文件索引的查询方法存放于逻辑执行计划之中;
同时,将逻辑执行计划中的其它与全文检索不相关的检索条件,通过迭代的形式对逻辑执行计划进行相应的变换,完善逻辑执行计划;
步骤九、将生成的逻辑执行计划根据Spark中的DAG模型,转换生成可并发执行的任务集合;
具体为:将spark逻辑执行计划(RDD)中的多个分区进行分割,每个分区转化成一个spark中的任务,生成的并发执行的任务集合。
步骤十、根据逻辑执行计划中各个数据块和数据块对应的磁盘位置,对各个任务的具体执行的目标节点;
步骤十一、将各个数据块的特征值进行哈希计算,通过相匹配的方法来确定每一个任务的具体执行进程;
步骤十二、将每个并发执行任务根据Spark中的任务分发框架,提交到各个目标节点的执行进程中进行执行;
每个任务独立执行和返回,由此来提升对执行进程中缓存的利用。
步骤十三、汇总每个任务的执行结果,待所有任务全部执行完毕后,根据DAG模型变化后的依赖结构,依次进行后续的迭代计算,直至得到最终的检索结果,返回给用户。
应该注意到并理解,在不脱离后附的权利要求所要求的本发明的精神和范围的情况下,能够对上述详细描述的本发明做出各种修改和改进。因此,要求保护的技术方案的范围不受所给出的任何特定示范教导的限制。

Claims (4)

1.一种基于Spark框架进行全文检索的实现方法,其特征在于,具体步骤如下:
步骤一、针对数据查询和数据分析场景,spark框架通过Hive2 JDBC接口接收用户提交的待执行SQL语句;
步骤二、对待执行的SQL语句使用spark sql语法解析器进行语法解析,生成语句相对应的语法树;
步骤三、对语法树中的每一个节点进行迭代解析,将该语法树转换成相应的逻辑计划,并将逻辑计划中全文检索的相关节点解析为Spark中的自定义函数;
步骤四、通过Hive接口的服务端口,Spark框架获取对待执行SQL语句进行检索的所有表的元数据;
步骤五、针对某个表的元数据,根据类型元数据标记的表类型,判断该表类型是否支持全文检索,如果是,获取支持全文检索的字段名称,进入步骤六;否则,对该表的元数据不予处理,依次选取下一个表的元数据继续判断是否支持全文检索;
步骤六、根据逻辑计划存储的查询条件和当前表的元数据,判断某文件元数据中的字段哈希索引与查询条件中的哈希值是否一致,如果是,保留该文件元数据,进入步骤七;否则,剪裁去除不符合条件的文件元数据,顺序选取当前表的元数据中下一个文件元数据继续判断哈希索引;
步骤七、通过文件元数据中的文件名,解析得到文件所属的具体磁盘位置,将位置对应的数据块存储于逻辑执行计划中;
步骤八、根据文件元数据中的信息,将全文检索的条件以及相关的查询条件,均转换为Lucene文件格式的索引中使用的查询条件,并存于逻辑执行计划中;
同时,将逻辑执行计划中的其他检索条件通过迭代的形式体现于逻辑执行计划中;
步骤九、将逻辑执行计划中的多个分区根据Spark框架中的DAG模型进行分割,根据Lucene文件格式的索引中使用的查询条件,将每个分区转换生成一个任务,得到并发执行任务集合;
步骤十、根据逻辑执行计划中各个数据块和数据块对应的磁盘位置,确定各个任务具体执行的目标节点;
步骤十一、将各个数据块的特征值进行哈希计算,通过相匹配的方法来确定每一个任务的具体执行进程;
步骤十二、将每个并发执行任务根据任务分发框架,提交到各个目标节点的执行进程中进行执行;
步骤十三、汇总每个任务的执行结果,待所有任务全部执行完毕后,根据DAG模型变化后的依赖结构,依次进行后续的迭代计算,直至得到最终的检索结果,返回给用户。
2.如权利要求1所述的一种基于Spark框架进行全文检索的实现方法,其特征在于,所述的步骤三中,每一节点即为一个语法结构,每个语法结构都有相应的逻辑执行计划;逻辑执行计划中存储的是查询条件。
3.如权利要求1所述的一种基于Spark框架进行全文检索的实现方法,其特征在于,步骤四中,所述的Spark框架进行全文检索所使用的数据结构包括两部分,第一部分是表的元数据,第二部分是数据块和索引;所有表的元数据均存储在Hive元数据服务中;数据块和索引包括n个时间分区,每个时间分区中分别包括若干数据块和索引;每个数据块各对应一个索引。
4.如权利要求3所述的一种基于Spark框架进行全文检索的实现方法,其特征在于,所述的表的元数据又包括字段元数据,分区元数据,类型元数据和文件元数据;字段元数据包括字段名称和字段类型;分区元数据包括分区类型和分区名;类型元数据包括表类型和支持全文检索的字段;文件元数据包括文件名,文件地址和字段哈希索引。
CN201711194929.2A 2017-11-24 2017-11-24 一种基于Spark框架进行全文检索的实现方法 Active CN107943952B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711194929.2A CN107943952B (zh) 2017-11-24 2017-11-24 一种基于Spark框架进行全文检索的实现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711194929.2A CN107943952B (zh) 2017-11-24 2017-11-24 一种基于Spark框架进行全文检索的实现方法

Publications (2)

Publication Number Publication Date
CN107943952A true CN107943952A (zh) 2018-04-20
CN107943952B CN107943952B (zh) 2020-10-13

Family

ID=61948806

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711194929.2A Active CN107943952B (zh) 2017-11-24 2017-11-24 一种基于Spark框架进行全文检索的实现方法

Country Status (1)

Country Link
CN (1) CN107943952B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108920614A (zh) * 2018-06-28 2018-11-30 北京奇虎科技有限公司 在线查询数据的方法、装置及系统
CN109241104A (zh) * 2018-10-12 2019-01-18 北京聚云位智信息科技有限公司 决策型分布式数据库系统中aisql的解析器及其实现方法
CN109284302A (zh) * 2018-08-10 2019-01-29 新华三大数据技术有限公司 数据处理方法及装置
CN109815254A (zh) * 2018-12-28 2019-05-28 北京东方国信科技股份有限公司 基于大数据的跨地域任务调度方法及系统
CN109902101A (zh) * 2019-02-18 2019-06-18 国家计算机网络与信息安全管理中心 基于SparkSQL的透明分区方法及装置
CN110472218A (zh) * 2019-08-20 2019-11-19 同方知网(北京)技术有限公司 一种面向重组策略的并行执行方法
CN111008200A (zh) * 2019-12-18 2020-04-14 北京数衍科技有限公司 数据查询方法、装置和服务器
CN111190949A (zh) * 2018-11-15 2020-05-22 杭州海康威视数字技术股份有限公司 数据存储及处理方法、装置、设备、介质
CN112380276A (zh) * 2021-01-15 2021-02-19 四川新网银行股份有限公司 一种分布式系统分库分表后非分片键字段查询数据的方法
CN114610724A (zh) * 2022-04-13 2022-06-10 山东浪潮科学研究院有限公司 一种基于kv的数据库逻辑计划缓存方法与装置
CN116775276A (zh) * 2023-05-10 2023-09-19 阿里巴巴达摩院(杭州)科技有限公司 分布式计算方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130166330A1 (en) * 2011-12-27 2013-06-27 Amadeus Seamless travel hive engine and method of same
CN105260461A (zh) * 2015-10-16 2016-01-20 杭州中奥科技有限公司 实现空间大数据快速处理及检索的方法
CN106777167A (zh) * 2016-12-21 2017-05-31 中国科学院上海高等研究院 基于Spark框架的海量人脸图像检索系统及检索方法
CN107122443A (zh) * 2017-04-24 2017-09-01 中国科学院软件研究所 一种基于Spark SQL的分布式全文检索系统及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130166330A1 (en) * 2011-12-27 2013-06-27 Amadeus Seamless travel hive engine and method of same
CN105260461A (zh) * 2015-10-16 2016-01-20 杭州中奥科技有限公司 实现空间大数据快速处理及检索的方法
CN106777167A (zh) * 2016-12-21 2017-05-31 中国科学院上海高等研究院 基于Spark框架的海量人脸图像检索系统及检索方法
CN107122443A (zh) * 2017-04-24 2017-09-01 中国科学院软件研究所 一种基于Spark SQL的分布式全文检索系统及方法

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108920614A (zh) * 2018-06-28 2018-11-30 北京奇虎科技有限公司 在线查询数据的方法、装置及系统
CN108920614B (zh) * 2018-06-28 2021-08-20 北京奇虎科技有限公司 在线查询数据的方法、装置及系统
CN109284302B (zh) * 2018-08-10 2020-12-01 新华三大数据技术有限公司 数据处理方法及装置
CN109284302A (zh) * 2018-08-10 2019-01-29 新华三大数据技术有限公司 数据处理方法及装置
CN109241104B (zh) * 2018-10-12 2021-11-02 北京聚云位智信息科技有限公司 决策型分布式数据库系统中aisql的解析器及其实现方法
CN109241104A (zh) * 2018-10-12 2019-01-18 北京聚云位智信息科技有限公司 决策型分布式数据库系统中aisql的解析器及其实现方法
CN111190949B (zh) * 2018-11-15 2023-09-26 杭州海康威视数字技术股份有限公司 数据存储及处理方法、装置、设备、介质
CN111190949A (zh) * 2018-11-15 2020-05-22 杭州海康威视数字技术股份有限公司 数据存储及处理方法、装置、设备、介质
CN109815254A (zh) * 2018-12-28 2019-05-28 北京东方国信科技股份有限公司 基于大数据的跨地域任务调度方法及系统
CN109815254B (zh) * 2018-12-28 2020-12-22 北京东方国信科技股份有限公司 基于大数据的跨地域任务调度方法及系统
CN109902101A (zh) * 2019-02-18 2019-06-18 国家计算机网络与信息安全管理中心 基于SparkSQL的透明分区方法及装置
CN110472218A (zh) * 2019-08-20 2019-11-19 同方知网(北京)技术有限公司 一种面向重组策略的并行执行方法
CN111008200A (zh) * 2019-12-18 2020-04-14 北京数衍科技有限公司 数据查询方法、装置和服务器
CN111008200B (zh) * 2019-12-18 2024-01-16 北京数衍科技有限公司 数据查询方法、装置和服务器
CN112380276A (zh) * 2021-01-15 2021-02-19 四川新网银行股份有限公司 一种分布式系统分库分表后非分片键字段查询数据的方法
CN114610724A (zh) * 2022-04-13 2022-06-10 山东浪潮科学研究院有限公司 一种基于kv的数据库逻辑计划缓存方法与装置
CN116775276A (zh) * 2023-05-10 2023-09-19 阿里巴巴达摩院(杭州)科技有限公司 分布式计算方法、装置、设备及存储介质
CN116775276B (zh) * 2023-05-10 2024-09-06 阿里巴巴达摩院(杭州)科技有限公司 分布式计算方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN107943952B (zh) 2020-10-13

Similar Documents

Publication Publication Date Title
CN107943952A (zh) 一种基于Spark框架进行全文检索的实现方法
CN107122443B (zh) 一种基于Spark SQL的分布式全文检索系统及方法
CN106484875B (zh) 基于molap的数据处理方法及装置
CN106372114B (zh) 一种基于大数据的联机分析处理系统和方法
CN107038207A (zh) 一种数据查询方法、数据处理方法及装置
CN104750681B (zh) 一种海量数据的处理方法及装置
Vajk et al. Denormalizing data into schema-free databases
CN105630881B (zh) 一种rdf的数据存储方法和查询方法
CN108509437A (zh) 一种ElasticSearch查询加速方法
CN100458784C (zh) 在数字图书馆中所采用的检索系统和检索方法
CN103440288A (zh) 一种大数据存储方法及装置
CN103548019A (zh) 用于根据数据仓库提供统计信息的方法和系统
CN108304444A (zh) 信息查询方法及装置
CN103678665A (zh) 一种基于数据仓库的异构大数据整合方法和系统
CN106294695A (zh) 一种面向实时大数据搜索引擎的实现方法
CN107103032A (zh) 一种分布式环境下避免全局排序的海量数据分页查询方法
CN102270232A (zh) 一种存储优化的语义数据查询系统
CN104391908B (zh) 一种图上基于局部敏感哈希的多关键字索引方法
CN112015741A (zh) 一种海量数据的分库分表存储方法与装置
CN105550332B (zh) 一种基于双层索引结构的起源图查询方法
CN103488672B (zh) 在关联存储器内创建优化比较标准
CN103678550A (zh) 一种基于动态索引结构的海量数据实时查询方法
CN112269816A (zh) 一种政务预约事项相关性检索方法
CN106960020A (zh) 一种创建索引表的方法及设备
CN108874873B (zh) 数据查询方法、装置、存储介质及处理器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant