CN110134695A - 一种面向流水线结构化数据查询的数据库智能分区方法 - Google Patents

一种面向流水线结构化数据查询的数据库智能分区方法 Download PDF

Info

Publication number
CN110134695A
CN110134695A CN201910423797.9A CN201910423797A CN110134695A CN 110134695 A CN110134695 A CN 110134695A CN 201910423797 A CN201910423797 A CN 201910423797A CN 110134695 A CN110134695 A CN 110134695A
Authority
CN
China
Prior art keywords
data
node
pipeline
memory node
layout
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910423797.9A
Other languages
English (en)
Other versions
CN110134695B (zh
Inventor
段翰聪
刘长红
姚入榕
闵革勇
梁戈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201910423797.9A priority Critical patent/CN110134695B/zh
Publication of CN110134695A publication Critical patent/CN110134695A/zh
Application granted granted Critical
Publication of CN110134695B publication Critical patent/CN110134695B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2471Distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种面向流水线结构化数据查询的数据库智能分区方法,解决了基于pipeline的查询上,广播地从其它存储节点获取执行pipeline所需的数据,网络传输开销大、查询执行时间长,查询性能差的问题。本发明方法包括:查询引擎根据SQL的查询请求经过物理计划的执行来处理该SQL查询请求,进行pipeline的划分,并将pipeline的划分情况上传至中心节点;中心节点采用在线k‑means聚类算法计算出存储引擎节点间最优的数据存储布局,其中,聚类结果中的每个簇对应一个存储节点;各存储节点利用增量方式存储当前最优数据布局的数据,直到各个存储节点上的数据皆按照最优的数据布局存储为止,每个存储节点仅保存新布局的数据。

Description

一种面向流水线结构化数据查询的数据库智能分区方法
技术领域
本发明涉及分布式数据库下基于机器学习的有利于pipeline执行的存储引擎存储节点之间数据partition策略技术领域,具体涉及一种面向流水线结构化数据查询的数据库智能分区方法。
背景技术
分布式数据库中,在查询引擎物理计划优化阶段已划分好pipeline的基础上,一个pipeline对应一个执行节点,每一个执行节点所需的数据都会广播地从除该执行节点所在的存储引擎节点之外的其它所有存储节点获取数据。
如图1所示,如果执行节点1落在存储节点1上执行,那么该执行节点就会从除存储节点1之外的其它存储节点上广播地获取所需的数据。如某一pipeline执行所需A表a列的部分数据,但是pipeline所在的执行节点在执行节点1上,也就是存储节点1上,而A表a列的数据分散在所有存储节点,那么执行该pipeline就需要广播地从其它存储节点获取执行所需的数据。又如执行某pipeline需要A表的a,b,c列,a列在该pipeline所在的执行节点上,而b列,c列却不在该pipeline所在的执行节点上,那么该执行节点就需要广播地从其它的存储节点获取b列和c列的数据。
然而,以上方式存在一些劣势:广播地从其它存储节点获取执行pipeline所需的数据,极大地增加了网络传输的开销,极大地增加了查询执行时间,进而影响了查询性能。
发明内容
本发明所要解决的技术问题是:基于pipeline的查询上,广播地从其它存储节点获取执行pipeline所需的数据,极大地增加了网络传输的开销,极大地增加了查询执行时间,进而影响了查询性能的问题。本发明提供了解决上述问题的一种面向流水线结构化数据查询的数据库智能分区方法,旨在分布式内存列式数据库下降低查询引擎与存储引擎之间的网络传输开销,给出了一种基于机器学习的有利于pipeline执行的存储引擎节点间数据的布局策略,以提升查询引擎中物理计划的执行速度,进而提升查询性能。
本发明通过下述技术方案实现:
一种面向流水线结构化数据查询的数据库智能分区方法,该方法包括:
查询引擎根据SQL的查询请求经过物理计划的执行来处理该SQL查询请求,进行pipeline的划分,并将pipeline的划分情况上传至中心节点;
中心节点根据查询引擎发送的pipeline划分情况,采用在线k-means聚类算法计算出存储引擎节点间最优的数据存储布局,即经常被划分为同一pipeline的列数据属于聚类结果中的同一个簇,亦即经常被划分为同一pipeline的列数据存储在同一物理存储节点;其中,在线k-means聚类结果中的每个簇对应一个存储节点;
各存储节点利用增量方式存储当前最优数据布局的数据,直到各个存储节点上的数据皆按照最优的数据布局存储为止,每个存储节点便删除旧布局的数据,而保存新布局的数据。
工作原理是:基于pipeline的查询上,广播地从其它存储节点获取执行pipeline所需的数据,网络传输的开销大,查询执行时间长,进而导致查询性能差。本发明采用上述方案利用机器学习的思路通过优化数据库存储引擎节点间数据布局来提高物理计划执行速度,进而提高查询性能。具体地,查询引擎根据SQL的查询请求经过物理计划的执行来处理该SQL查询请求,进行pipeline的划分,并将pipeline的划分情况上传至中心节;然后,中心节点根据查询引擎发送的pipeline划分情况,采用在线k-means聚类算法计算出存储引擎节点间最优的数据存储布局,即经常被划分为同一pipeline的列数据属于聚类结果中的同一个簇,亦即经常被划分为同一pipeline的列数据存储在同一物理存储节点;各存储节点利用增量方式存储当前最优数据布局的数据,直到各个存储节点上的数据皆按照最优的数据布局存储为止,每个存储节点便删除旧布局的数据,而保存新布局的数据。本发明方法使pipeline执行节点与所需数据的存储节点尽可能地落在同一物理机上,这样就会减少pipeline执行节点与其它存储节点之间的交互,以及数据传输的开销,进而提升系统的查询性能,并且若pipeline某执行节点所需的数据全部在其对应的存储引擎节点上,那么直接让该执行节点在其对应存储节点所在的物理机上执行,大大提升查询性能。
进一步地,所述pipeline的划分,每一个pipeline的执行对应一个物理计划任务的执行,且一个pipeline对应一个执行节点。
所述将pipeline的划分情况上传至中心节点,是由查询引擎的master节点将每次pipeline划分的情况汇报给中心节点,其中,汇报的内容包括:每个pipeline所含的列属性信息。
还包括计时器,所述中心节点从收到查询请求起便由所述计时器执行计时。
进一步地,所述采用在线k-means聚类算法计算出存储引擎节点间最优的数据存储布局,具体包括:
通过中心节点收集与统计近段时间被划分为同一个pipeline的列属性信息,同时结合历史样本,采用在线k-means聚类算法进行聚类,结合存储引擎中各存储节点的现有资源和存储引擎的负载均衡对聚类出来的每个簇进行加权,并根据权重对簇降序排序,利用贪心算法生成存储引擎中各存储节点间最优的存储布局。
其中:所述通过中心节点收集与统计近段时间被划分为同一个pipeline的列属性信息,中心节点统计的属性信息用数字向量表示,数字向量的长度等于存储引擎表中属性的数量,聚类数等于存储引擎中存储节点总数,聚类结果中的每个簇对应一个存储节点,样本之间的距离采用欧式距离。
进一步地,各个存储引擎中的存储节点根据实时的数据布局信息,进行以最优的数据布局进行数据迁移,每个存储节点都按照最优布局以增量的方式进行数据的存储,直到各个存储节点上的数据皆按照最优的数据布局存储为止,每个存储节点便删除旧布局的数据,而保存新布局的数据。
进一步地,还包括:将数据源中的数据通过数据导入系统导入到存储引擎各存储节点中,一列一列地将数据导入到各存储引擎节点上,导入过程中,让一列的所有数据落在一个存储节点上。
本发明具有如下的优点和有益效果:
1、本发明提出使用机器学习的思路通过优化数据库存储引擎节点间数据布局来提高物理计划执行速度,使pipeline执行节点与所需数据的存储节点尽可能地落在同一物理机上,这样就会减少pipeline执行节点与其它存储节点之间的交互,以及数据传输的开销,进而提高查询性能;
2、本发明使用在线k-means聚类算法计算存储引擎节点间数据最优布局,通过中心节点收集与统计近段时间被划分为同一个pipeline的列属性信息,同时结合历史样本,采用在线k-means聚类算法进行聚类,结合存储引擎中各存储节点的现有资源和存储引擎的负载均衡对聚类出来的每个簇进行加权,并根据权重对簇降序排序,利用贪心算法生成存储引擎中各存储节点间最优的存储布局;
3、本发明存储引擎节点使用增量的方式存储当前最优布局的数据,各个存储引擎中的存储节点根据实时的数据布局信息,进行以最优的数据布局进行数据迁移,每个存储节点都按照最优布局以增量的方式进行数据的存储,直到各个存储节点上的数据皆按照最优的数据布局存储为止,每个存储节点便删除旧布局的数据,而保存新布局的数据。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:
图1为现有技术中的基于pipeline的查询架构图。
图2为本发明提出的基于pipeline的查询在理想情况下的架构图。
图3为本发明方法流程架构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例
如图1至图3所示,一种面向流水线结构化数据查询的数据库智能分区方法,该方法包括:
查询引擎根据SQL的查询请求经过物理计划的执行来处理该SQL查询请求,进行pipeline的划分,并将pipeline的划分情况上传至中心节点;
中心节点根据查询引擎发送的pipeline划分情况,采用在线k-means聚类算法计算出存储引擎节点间最优的数据存储布局,即经常被划分为同一pipeline的列数据属于聚类结果中的同一个簇,亦即经常被划分为同一pipeline的列数据存储在同一物理存储节点;其中,聚类结果中的每个簇对应一个存储节点;
各存储节点利用增量方式存储当前最优数据布局的数据,直到各个存储节点上的数据皆按照最优的数据布局存储为止,每个存储节点便删除旧布局的数据,而保存新布局的数据。
具体地,如图3所示为系统架构,本发明方法的具体流程如下:
(1)将数据源中的数据通过数据导入系统导入到存储引擎中各存储节点上,一列一列地将数据导入到存储引擎中的各存储节点上,导入过程中,让一列的所有数据落在一个存储节点上,同时又要考虑到存储节点间的负载均衡。
(2)查询引擎根据SQL的查询请求经过SQL解析、生成逻辑计划、物理计划、物理计划的执行来处理该SQL查询请求并返回结果给客户端。在物理优化阶段,进行pipeline的划分,每一个pipeline的执行对应一个物理计划任务的执行,且一个pipeline对应一个执行节点。查询引擎的master节点将每次pipeline划分的情况汇报给中心节点,汇报的内容包括:每个pipeline所含的列数据信息。并且,中心节点从系统启动收到查询请求业务起便开始计时。
(3)中心节点收到查询引擎master节点发送的pipeline信息之后,进行k-means聚类计算,当计时器的计时达到一定的时间间隔时,中心节点便将此时的聚类计算结果按照存储引擎中各存储节点的现有资源和存储节点间的负载均衡对每个簇进行加权,并对加权后的簇进行降序排序,计算每列到各簇的欧式距离,最后利用贪心算法确定各列应属于哪个簇,即确定各列属于哪个存储节点,最后生成存储引擎中各存储节点间最优的数据存储布局。
(4)中心节点将计算出的最优存储布局发给各个存储节点,各存储节点间收到最优布局信息之后便开始进行节点间的数据迁移,当所有存储节点都存储好最优布局的数据后便删除该节点上旧布局的数据。
本发明通过上述具体流程,使pipeline执行节点与所需数据的存储节点尽可能地落在同一物理机上,这样就会减少pipeline执行节点与其它存储节点之间的交互,以及数据传输的开销,进而提升系统的查询性能。理想情况如图2所示,执行节点与存储引擎节点之间存在一一对应的关系,比如,若pipeline执行节点1所需的数据全部在存储引擎节点1上,那么直接让执行节点1在存储节点1所在的物理机上执行。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种面向流水线结构化数据查询的数据库智能分区方法,其特征在于,该方法包括:
查询引擎根据SQL的查询请求经过物理计划的执行来处理该SQL查询请求,进行pipeline的划分,并将pipeline的划分情况上传至中心节点;
中心节点根据查询引擎发送的pipeline划分情况,采用在线k-means聚类算法计算出存储引擎节点间最优的数据存储布局,其中,聚类结果中的每个簇对应一个存储节点;
各存储节点利用增量方式存储当前最优数据布局的数据,直到各个存储节点上的数据皆按照最优的数据布局存储为止,每个存储节点便删除旧布局的数据,而保存新布局的数据。
2.根据权利要求1所述的一种面向流水线结构化数据查询的数据库智能分区方法,其特征在于,所述pipeline的划分,每一个pipeline的执行对应一个物理计划任务的执行,且一个pipeline对应一个执行节点。
3.根据权利要求1所述的一种面向流水线结构化数据查询的数据库智能分区方法,其特征在于,所述将pipeline的划分情况上传至中心节点,是由查询引擎的master节点将每次pipeline划分的情况汇报给中心节点,其中,汇报的内容包括:每个pipeline所含的列属性信息。
4.根据权利要求1所述的一种面向流水线结构化数据查询的数据库智能分区方法,其特征在于,还包括计时器,所述中心节点从收到查询请求起便由所述计时器执行计时。
5.根据权利要求1所述的一种面向流水线结构化数据查询的数据库智能分区方法,其特征在于,所述采用在线k-means聚类算法计算出存储引擎节点间最优的数据存储布局,具体包括:
通过中心节点收集与统计近段时间被划分为同一个pipeline的列属性信息,同时结合历史样本,采用在线k-means聚类算法进行聚类,结合存储引擎中各存储节点的现有资源和存储引擎的负载均衡对聚类出来的每个簇进行加权,并根据权重对簇降序排序,利用贪心算法生成存储引擎中各存储节点间最优的存储布局。
6.根据权利要求5所述的一种面向流水线结构化数据查询的数据库智能分区方法,其特征在于,所述通过中心节点收集与统计近段时间被划分为同一个pipeline的列属性信息,中心节点统计的属性信息用数字向量表示,数字向量的长度等于存储引擎表中属性的数量,聚类数等于存储引擎中存储节点总数,聚类结果中的每个簇对应一个存储节点,样本之间的距离采用欧式距离。
7.根据权利要求1所述的一种面向流水线结构化数据查询的数据库智能分区方法,其特征在于,所述各存储节点利用增量方式存储当前最优数据布局的数据,直到各个存储节点上的数据皆按照最优的数据布局存储为止,每个存储节点便删除旧布局的数据,而保存新布局的数据,具体包括:
各个存储引擎中的存储节点根据实时的数据布局信息,进行以最优的数据布局进行数据迁移,每个存储节点都按照最优布局以增量的方式进行数据的存储,直到各个存储节点上的数据皆按照最优的数据布局存储为止,每个存储节点便删除旧布局的数据,而保存新布局的数据。
8.根据权利要求1所述的一种面向流水线结构化数据查询的数据库智能分区方法,其特征在于,还包括:
将数据源中的数据通过数据导入系统导入到存储引擎各存储节点中,一列一列地将数据导入到各存储引擎节点上,导入过程中,让一列的数据落在一个存储节点上。
CN201910423797.9A 2019-05-21 2019-05-21 一种面向流水线结构化数据查询的数据库智能分区方法 Active CN110134695B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910423797.9A CN110134695B (zh) 2019-05-21 2019-05-21 一种面向流水线结构化数据查询的数据库智能分区方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910423797.9A CN110134695B (zh) 2019-05-21 2019-05-21 一种面向流水线结构化数据查询的数据库智能分区方法

Publications (2)

Publication Number Publication Date
CN110134695A true CN110134695A (zh) 2019-08-16
CN110134695B CN110134695B (zh) 2022-08-16

Family

ID=67572166

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910423797.9A Active CN110134695B (zh) 2019-05-21 2019-05-21 一种面向流水线结构化数据查询的数据库智能分区方法

Country Status (1)

Country Link
CN (1) CN110134695B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114579190A (zh) * 2022-02-17 2022-06-03 中国科学院计算机网络信息中心 基于流水线机制的跨中心协同计算的编排方法与系统
CN114817262A (zh) * 2022-04-27 2022-07-29 电子科技大学 一种基于分布式图数据库的图遍历算法
CN116894000A (zh) * 2023-05-29 2023-10-17 中国船舶集团有限公司第七〇七研究所 信息转换方法、装置、电子设备及存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030033279A1 (en) * 2001-05-04 2003-02-13 Gibson Michael A. Methods and apparatus for high-speed approximate sub-string searches
CN1541363A (zh) * 2001-02-28 2004-10-27 �Ҵ���˾ 从远程数据源加载数据
CN101535945A (zh) * 2006-04-25 2009-09-16 英孚威尔公司 全文查询和搜索系统及其使用方法
US20100191884A1 (en) * 2008-06-12 2010-07-29 Gravic, Inc. Method for replicating locks in a data replication engine
CN102663117A (zh) * 2012-04-18 2012-09-12 中国人民大学 面向数据库与Hadoop混合平台的OLAP查询处理方法
CN102937901A (zh) * 2012-10-17 2013-02-20 武汉钢铁(集团)公司 多租户架构设计方法
CN104063486A (zh) * 2014-07-03 2014-09-24 四川中亚联邦科技有限公司 一种大数据分布式存储方法和系统
CN105359099A (zh) * 2013-05-20 2016-02-24 亚马逊技术有限公司 索引更新管线
CN107329483A (zh) * 2017-09-06 2017-11-07 天津理工大学 一种基于视觉技术的管道检测机器人系统及工作方法
CN108898662A (zh) * 2018-05-30 2018-11-27 中国人民解放军陆军勤务学院 基于点云数据的管线设施bim模型自动化重建方法
CN109558904A (zh) * 2018-11-21 2019-04-02 咪咕文化科技有限公司 图像局部特征的分类方法、装置和存储介质
US20190130001A1 (en) * 2017-10-31 2019-05-02 Sap Se Hierarchy rearrange operator

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1541363A (zh) * 2001-02-28 2004-10-27 �Ҵ���˾ 从远程数据源加载数据
US20030033279A1 (en) * 2001-05-04 2003-02-13 Gibson Michael A. Methods and apparatus for high-speed approximate sub-string searches
CN101535945A (zh) * 2006-04-25 2009-09-16 英孚威尔公司 全文查询和搜索系统及其使用方法
US20100191884A1 (en) * 2008-06-12 2010-07-29 Gravic, Inc. Method for replicating locks in a data replication engine
CN102663117A (zh) * 2012-04-18 2012-09-12 中国人民大学 面向数据库与Hadoop混合平台的OLAP查询处理方法
CN102937901A (zh) * 2012-10-17 2013-02-20 武汉钢铁(集团)公司 多租户架构设计方法
CN105359099A (zh) * 2013-05-20 2016-02-24 亚马逊技术有限公司 索引更新管线
CN104063486A (zh) * 2014-07-03 2014-09-24 四川中亚联邦科技有限公司 一种大数据分布式存储方法和系统
CN107329483A (zh) * 2017-09-06 2017-11-07 天津理工大学 一种基于视觉技术的管道检测机器人系统及工作方法
US20190130001A1 (en) * 2017-10-31 2019-05-02 Sap Se Hierarchy rearrange operator
CN108898662A (zh) * 2018-05-30 2018-11-27 中国人民解放军陆军勤务学院 基于点云数据的管线设施bim模型自动化重建方法
CN109558904A (zh) * 2018-11-21 2019-04-02 咪咕文化科技有限公司 图像局部特征的分类方法、装置和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MAEN M 等: ""A Pipelining Approach to Informed Prefetching in Distributed Multi-level Storage Systems"", 《2012 IEEE 11TH INTERNATIONAL SYMPOSIUM ON NETWORK COMPUTING AND APPLICATIONS》 *
段翰聪 等: ""MUSE:一种面向云存储系统的高性能元数据存储引擎"", 《电子科技大学学报》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114579190A (zh) * 2022-02-17 2022-06-03 中国科学院计算机网络信息中心 基于流水线机制的跨中心协同计算的编排方法与系统
CN114579190B (zh) * 2022-02-17 2022-10-14 中国科学院计算机网络信息中心 基于流水线机制的跨中心协同计算的编排方法与系统
CN114817262A (zh) * 2022-04-27 2022-07-29 电子科技大学 一种基于分布式图数据库的图遍历算法
CN116894000A (zh) * 2023-05-29 2023-10-17 中国船舶集团有限公司第七〇七研究所 信息转换方法、装置、电子设备及存储介质
CN116894000B (zh) * 2023-05-29 2023-12-08 中国船舶集团有限公司第七〇七研究所 信息转换方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN110134695B (zh) 2022-08-16

Similar Documents

Publication Publication Date Title
CN110134695A (zh) 一种面向流水线结构化数据查询的数据库智能分区方法
CN103412897B (zh) 一种基于分布式结构的并行数据处理方法
CN106372114A (zh) 一种基于大数据的联机分析处理系统和方法
CN105488231B (zh) 一种基于自适应表维度划分的大数据处理方法
CN103631870B (zh) 一种用于大规模分布式数据处理的系统及其方法
CN103631922B (zh) 基于Hadoop集群的大规模Web信息提取方法及系统
CN110047014A (zh) 一种基于负荷曲线和历史电量的用户电量数据修复方法
CN106844703A (zh) 一种面向数据库一体机的内存数据仓库查询处理实现方法
CN110222029A (zh) 一种大数据多维分析计算效率提升方法及系统
CN107291807A (zh) 一种基于图遍历的sparql查询优化方法
EP1563414A1 (en) Remote scoring and aggregating similarity search engine for use with relational databases
CN107247799A (zh) 兼容多种大数据存储的数据处理方法、系统及其建模方法
CN106777163A (zh) 基于红黑树的ip地址所属地查询方法及系统
CN105808358B (zh) 一种用于众核系统的数据相关性线程分组映射方法
CN108932256A (zh) 分布式数据重分布控制方法、装置及数据管理服务器
CN108920552A (zh) 一种面向多源大数据流的分布式索引方法
CN107193898A (zh) 基于分级复用的日志数据流的查询共享方法和系统
CN106371924A (zh) 一种最小化MapReduce集群能耗的任务调度方法
CN103810223A (zh) 一种基于数据分组的内存数据组织查询方法
CN106897458A (zh) 一种面向机电设备数据的存储及检索方法
Thakore et al. Performance analysis of parallel object-oriented query processing algorithms
CN102420812A (zh) 一种支持分布并行处理的Web服务自动QoS组合方法
CN115665161B (zh) 一种clickhouse实时数据流负载均衡方法及系统
CN107273443A (zh) 一种基于大数据模型元数据的混合索引方法
CN106339432A (zh) 一种按查询内容进行负载均衡的系统及其方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant