CN108491274A - 分布式数据管理的优化方法、装置、存储介质及设备 - Google Patents

分布式数据管理的优化方法、装置、存储介质及设备 Download PDF

Info

Publication number
CN108491274A
CN108491274A CN201810281861.XA CN201810281861A CN108491274A CN 108491274 A CN108491274 A CN 108491274A CN 201810281861 A CN201810281861 A CN 201810281861A CN 108491274 A CN108491274 A CN 108491274A
Authority
CN
China
Prior art keywords
memory
query result
distributed data
optimal algorithm
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810281861.XA
Other languages
English (en)
Inventor
于文渊
贾西贝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Huaao Data Technology Co Ltd
Original Assignee
Shenzhen Huaao Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Huaao Data Technology Co Ltd filed Critical Shenzhen Huaao Data Technology Co Ltd
Priority to CN201810281861.XA priority Critical patent/CN108491274A/zh
Publication of CN108491274A publication Critical patent/CN108491274A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5011Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals
    • G06F9/5016Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals the resource being the memory

Abstract

本发明公开了一种分布式数据管理的优化方法、装置、存储介质及设备,所述方法包括:根据当前任务,通过分布式终端的网卡,获取内存或CPU中的执行算子;通过所述执行算子,对分布式数据执行相应的查询计划,得到查询结果;根据所述查询结果确定最优算法路径,采用所述最优算法路径进行计算。本发明可在CPU被占用时,直接调用内存中的数据减少内存空间的浪费,使资源得到更合理的利用,并能够提高运行效率。

Description

分布式数据管理的优化方法、装置、存储介质及设备
技术领域
本发明涉及通信技术领域,尤其涉及一种分布式数据管理的优化方法、装置存储介质及设备。
背景技术
在RDMA(remote direct memory access)技术当中,数据分成横向切分和纵向切分,横向切分是按照记录来切分,纵向切分是按照属性切分。不同的数据,可能会存储在不同的分布式终端中,如图1所示,图1是分布式终端的基本框架图,由图1可知常规的分布式数据库的管理方法为,单个服务器通过网卡连接网络,网卡与CPU交换数据,CPU与内存交换数据,内存与磁盘交换数据。
这种单线条的方式,会出现一个明显的问题,就是资源得不到充分的利用,即当内存存在多余空间,但是CPU被占用,网卡无法直接越过CPU直接读取内存中的数据,导致内存空间的浪费,同时也降低了运行效率。
发明内容
针对现有技术中的缺陷,本发明提供一种分布式数据管理的优化方法、装置、存储介质及设备,可在CPU被占用时,直接调用内存中的数据减少内存空间的浪费,使资源得到更合理的利用,并能够提高运行效率。
第一方面,本发明提供了一种分布式数据管理的优化方法,所述方法包括:
根据当前任务,通过分布式终端的网卡,获取内存或CPU中的执行算子;
通过所述执行算子,对分布式数据执行相应的查询计划,得到查询结果;
根据所述查询结果确定最优算法路径,采用所述最优算法路径进行计算。
进一步地,所述通过所述执行算子,对分布式数据执行相应的查询计划,得到查询结果,具体包括:
通过所述执行算子,计算相应的算法路径的代价,所述代价即为查询结果。
进一步地,所述内存中的数据为分类存储状态。
进一步地,所述执行算子包括CPU的使用情况、内存空间、网卡容量中的至少一种数据。
进一步地,根据所述查询结果确定最优算法路径,具体包括:在预设代价范围内,选择代价最低的算法路径作为最优算法路径。
第二方面,本发明还提供了一种分布式数据管理的优化装置,所述装置包括:数据获取模块,查询计划模块,算法选择模块;
所述数据获取模块,用于根据当前任务,通过数据库终端的网卡获取内存中的执行算子;
所述查询计划模块,用于通过所述执行算子,对分布式数据执行相应的查询计划,得到查询结果;
所述算法选择模块,用于根据所述查询结果确定最优算法,采用所述最优算法进行计算。
第三方面,本发明还提供了一种计算机可读存储介质,其上存储有计算机程序(指令),该程序(指令)被处理器执行时实现第一方面所述的方法。
第四方面,本发明还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面所述的方法。
由上述技术方案可知,本发明提供一种分布式数据管理的优化方法、装置、存储介质及设备,在CPU被占用时,直接调用内存中的数据计算最优算法,减少内存空间的浪费,使资源得到更合理的利用,并能够提高运行效率。
附图说明
图1示出了本发明提供的分布式数据管理的传统方法的原理示意图。
图2示出了本发明提供的分布式数据管理的优化方法的流程示意图。
图3示出了本发明提供的分布式数据管理的优化方法的原理示意图。
图4示出了本发明实施例中算法路径的示意图。
图5示出了本发明提供的分布式数据管理的优化装置的结构示意图。
具体实施方式
下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案,因此只是作为示例,而不能以此来限制本发明的保护范围。
实施例一
图2示出了本发明实施例一提供的通信效率的优化方法的流程示意图。如图2所示,所述方法包括:
步骤S1,根据当前任务,通过各个分布式数据库终端的网卡获取该数据库终端的内存和CPU中的执行算子。
分布式数据库终端包括网卡、CPU、内存、磁盘/硬盘等,如图3所示,网卡可直接调用CPU或内存中的数据,当CPU被占用而内存还有多余空间时,可直接通过网卡读取内存中的数据,而不用再经过CPU,数据读取的速度大大提高。
优选地,为减少内存中的数据冲突,针对内存中的数据,进行分类存储,以此方式尽可能地将数据分开,以使同一数据尽量不能够被CPU和网卡同时读取,从而减少因同时读取同一数据产生的数据错误。
优选地,所述执行算子包括CPU的使用情况、内存空间、网卡容量等数据中的至少一种。
步骤S2,通过所述执行算子,对分布式数据执行相应的查询计划,得到查询结果。
对分布式数据进行相应的查询计划,具体是通过执行算子(单元算法),来计算每条算法路径每个步骤的代价(消耗、cost),此处的代价是指该步骤处理所需要的时间,计算得到的代价即为查询计划的查询结果。
其中,需要计算代价的算法路径如图4所示,图中每个黑色圆圈均表示相应的步骤。
步骤S3,根据所述查询结果确定最优算法路径,采用所述最优算法路径进行计算。
优选地,步骤S3具体包括:在预设代价范围内,选择代价最低的算法路径作为最优算法路径。
若得到的最优方案仍是图1所示的传统方式,则以该传统方式来进行计算,若得到的最优方案是新方案,则按照新方案来进行计算。
基于以上内容,本发明实施例一可以实现的技术效果为:在CPU被占用时,直接调用内存中的数据,减少内存空间的浪费,使资源得到更合理的利用,并能够提高运行效率。
实施例二
对本发明实施例一对应地,本发明实施例二提供一种分布式数据管理的优化装置,如图5所示,所述装置包括依次连接的数据获取模块201、查询计划模块202、算法选择模块203。
所述数据获取模块,用于根据当前任务,通过数据库终端的网卡获取内存中的执行算子;所述查询计划模块,用于通过所述执行算子,对分布式数据执行相应的查询计划,得到查询结果;所述算法选择模块,用于根据所述查询结果确定最优算法,采用所述最优算法进行计算。
上述关于优化装置的具体内容可以参见实施例一,在此不再赘述。
实施例三
对本发明实施例一对应地,本发明实施例三提供一种计算机可读存储介质,其上存储有计算机程序(指令),该程序(指令)被处理器执行时实现本发明实施例一所述的优化方法。
上述存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
上述关于计算机可读存储介质的具体内容可以参见实施例一,在此不再赘述。
实施例四
对本发明实施例一对应地,本发明实施例四提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现本发明实施例一所述的优化方法。
上述关于计算机设备的具体内容可以参见实施例一,在此不再赘述。
在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
需要说明的是,本发明的说明书附图中的框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与获得机指令的组合来实现。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims (8)

1.一种分布式数据管理的优化方法,其特征在于,所述方法包括:
根据当前任务,通过分布式终端的网卡,获取内存或CPU中的执行算子;
通过所述执行算子,对分布式数据执行相应的查询计划,得到查询结果;
根据所述查询结果确定最优算法路径,采用所述最优算法路径进行计算。
2.根据权利要求1所述的方法,其特征在于,所述通过所述执行算子,对分布式数据执行相应的查询计划,得到查询结果,具体包括:
通过所述执行算子,计算相应的算法路径的代价,所述代价即为查询结果。
3.根据权利要求2所述的方法,其特征在于,所述内存中的数据为分类存储状态。
4.根据权利要求2所述的方法,其特征在于,所述执行算子包括CPU的使用情况、内存空间、网卡容量中的至少一种数据。
5.根据权利要求1所述的方法,其特征在于,根据所述查询结果确定最优算法路径,具体包括:在预设代价范围内,选择代价最低的算法路径作为最优算法路径。
6.一种分布式数据管理的优化装置,其特征在于,所述装置包括:数据获取模块,查询计划模块,算法选择模块;
所述数据获取模块,用于根据当前任务,通过数据库终端的网卡获取内存中的执行算子;
所述查询计划模块,用于通过所述执行算子,对分布式数据执行相应的查询计划,得到查询结果;
所述算法选择模块,用于根据所述查询结果确定最优算法,采用所述最优算法进行计算。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1~5中任一项所述的方法。
8.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1~5中任一项所述的方法。
CN201810281861.XA 2018-04-02 2018-04-02 分布式数据管理的优化方法、装置、存储介质及设备 Pending CN108491274A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810281861.XA CN108491274A (zh) 2018-04-02 2018-04-02 分布式数据管理的优化方法、装置、存储介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810281861.XA CN108491274A (zh) 2018-04-02 2018-04-02 分布式数据管理的优化方法、装置、存储介质及设备

Publications (1)

Publication Number Publication Date
CN108491274A true CN108491274A (zh) 2018-09-04

Family

ID=63317968

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810281861.XA Pending CN108491274A (zh) 2018-04-02 2018-04-02 分布式数据管理的优化方法、装置、存储介质及设备

Country Status (1)

Country Link
CN (1) CN108491274A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020207393A1 (zh) * 2019-04-09 2020-10-15 华为技术有限公司 算子运算调度方法和装置
CN111831425A (zh) * 2019-04-18 2020-10-27 阿里巴巴集团控股有限公司 一种数据处理方法、装置及设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103064955A (zh) * 2012-12-28 2013-04-24 华为技术有限公司 查询规划方法及装置
CN105550238A (zh) * 2015-11-27 2016-05-04 浪潮(北京)电子信息产业有限公司 一种数据库一体机的架构系统
CN105677812A (zh) * 2015-12-31 2016-06-15 华为技术有限公司 一种数据查询方法及数据查询装置
CN106599095A (zh) * 2016-11-24 2017-04-26 上海交通大学 基于完整历史记录的减枝方法
US20170315939A1 (en) * 2015-03-27 2017-11-02 Microsoft Technology Licensing, Llc Direct memory access descriptor processing
CN107329814A (zh) * 2017-06-16 2017-11-07 电子科技大学 一种基于rdma的分布式内存数据库查询引擎系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103064955A (zh) * 2012-12-28 2013-04-24 华为技术有限公司 查询规划方法及装置
US20170315939A1 (en) * 2015-03-27 2017-11-02 Microsoft Technology Licensing, Llc Direct memory access descriptor processing
CN105550238A (zh) * 2015-11-27 2016-05-04 浪潮(北京)电子信息产业有限公司 一种数据库一体机的架构系统
CN105677812A (zh) * 2015-12-31 2016-06-15 华为技术有限公司 一种数据查询方法及数据查询装置
CN106599095A (zh) * 2016-11-24 2017-04-26 上海交通大学 基于完整历史记录的减枝方法
CN107329814A (zh) * 2017-06-16 2017-11-07 电子科技大学 一种基于rdma的分布式内存数据库查询引擎系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张胤涵: "《从零开始学计算机组装与维修技术》", 30 July 2009, 北京:国防工业出版社 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020207393A1 (zh) * 2019-04-09 2020-10-15 华为技术有限公司 算子运算调度方法和装置
CN111796917A (zh) * 2019-04-09 2020-10-20 华为技术有限公司 算子运算调度方法和装置
US11934866B2 (en) 2019-04-09 2024-03-19 Huawei Technologies Co., Ltd. Operator operation scheduling method and apparatus to determine an optimal scheduling policy for an operator operation
CN111831425A (zh) * 2019-04-18 2020-10-27 阿里巴巴集团控股有限公司 一种数据处理方法、装置及设备

Similar Documents

Publication Publication Date Title
US8321476B2 (en) Method and system for determining boundary values dynamically defining key value bounds of two or more disjoint subsets of sort run-based parallel processing of data from databases
CN107688591B (zh) 一种精算处理方法和装置
CN109241159B (zh) 一种数据立方体的分区查询方法、系统及终端设备
CN103023693A (zh) 一种行为日志数据管理系统及方法
KR20150063233A (ko) 로그 데이터 처리 방법 및 이를 수행하는 시스템
CN109033340A (zh) 一种基于Spark平台的点云K邻域的搜索方法及装置
CN109145055B (zh) 一种基于Flink的数据同步方法和系统
CN108287668A (zh) 设备数据的处理方法及装置、计算机装置及可读存储介质
CN108650684A (zh) 一种关联规则确定方法及装置
CN107528904B (zh) 用于数据分布式异常检测的方法与设备
CN106202092A (zh) 数据处理的方法及系统
CN103077070A (zh) 云计算管理系统以及云计算系统的管理方法
CN111258978A (zh) 一种数据存储的方法
CN103019855A (zh) MapReduce作业执行时间预测方法
CN108491274A (zh) 分布式数据管理的优化方法、装置、存储介质及设备
KR20100004605A (ko) 네트워크 시스템 상에서의 작업 노드 선택방법 및 그시스템
CN104459781A (zh) 三维叠前地震数据的随机噪声衰减方法
CN105095515A (zh) 支持快速查询Map-Reduce输出结果的分桶方法、装置及设备
CN103365923A (zh) 用于评估数据库的分区方案的方法和装置
CN105446982A (zh) 用于管理数据存储系统的方法和装置
CN108073705B (zh) 一种分布式海量数据聚合采集方法
CN106570029A (zh) 分布式关系型数据库的数据处理方法及系统
CN106708445B (zh) 链路选择方法及装置
CN102955808A (zh) 一种数据获取方法和分布式文件系统
CN112232290A (zh) 数据聚类方法、服务器、系统以及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180904