CN103823881A - 分布式数据库的性能优化的方法及装置 - Google Patents

分布式数据库的性能优化的方法及装置 Download PDF

Info

Publication number
CN103823881A
CN103823881A CN201410075800.XA CN201410075800A CN103823881A CN 103823881 A CN103823881 A CN 103823881A CN 201410075800 A CN201410075800 A CN 201410075800A CN 103823881 A CN103823881 A CN 103823881A
Authority
CN
China
Prior art keywords
distributed data
data base
described distributed
optimized
threshold value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410075800.XA
Other languages
English (en)
Other versions
CN103823881B (zh
Inventor
代彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201410075800.XA priority Critical patent/CN103823881B/zh
Publication of CN103823881A publication Critical patent/CN103823881A/zh
Application granted granted Critical
Publication of CN103823881B publication Critical patent/CN103823881B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种分布式数据库的性能优化的方法及装置。所述方法包括:在分布式数据库运行过程中,采集所述分布式数据库的Hive性能参数,所述Hive性能参数包括逻辑层参数和物理层参数;当所述Hive性能参数中的逻辑层参数不满足第一预设条件时,对所述分布式数据库的逻辑层进行优化处理;当所述Hive性能参数中的物理层参数不满足第二预设条件时,对所述分布式数据库的物理层进行优化处理。本发明能够方便的找到问题的所在,提高了性能优化的效率。

Description

分布式数据库的性能优化的方法及装置
技术领域
本发明实施例涉及数据库管理技术,尤其涉及一种分布式数据库的性能优化的方法及装置。
背景技术
Hive是基于Hadoop分布式平台的一款开源的分布式数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL(Structured QueryLanguage,结构化查询语言)查询功能,使用简单的类SQL查询语言,称为HQL(Hive Query Language),可以将SQL语句转换为MapReduce任务进行运行。由于其具有学习成本低,可以通过HQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析等优点,目前成为互联网或者传统企业的大数据项目的首选工具。
但是,由于该工具应用时间较短,出现问题如性能不佳时,往往很难找到问题的所在,导致维护困难。
发明内容
有鉴于此,本发明实施例提供一种分布式数据库的性能优化的方法及装置,以提高性能优化的效率。
第一方面,本发明实施例提供了一种分布式数据库的性能优化的方法,所述方法包括:
在分布式数据库运行过程中,采集所述分布式数据库的Hive性能参数,所述Hive性能参数包括逻辑层参数和物理层参数;
当所述Hive性能参数中的逻辑层参数不满足第一预设条件时,对所述分布式数据库的逻辑层进行优化处理;
当所述Hive性能参数中的物理层参数不满足第二预设条件时,对所述分布式数据库的物理层进行优化处理。
第二方面,本发明实施例还提供了一种分布式数据库的性能优化的装置,所述装置包括:
性能采集模块,用于在分布式数据库运行过程中,采集所述分布式数据库的Hive性能参数,所述Hive性能参数包括逻辑层参数和物理层参数;
逻辑层优化模块,用于当所述Hive性能参数中的逻辑层参数不满足第一预设条件时,对所述分布式数据库的逻辑层进行优化处理;
物理层优化模块,用于当所述Hive性能参数中的物理层参数不满足第二预设条件时,对所述分布式数据库的物理层进行优化处理。
本发明实施例提供的分布式数据库的性能优化的方法及装置,通过采集分布式数据库的Hive性能参数,根据Hive性能参数分析Hive性能问题是在逻辑层还是在物理层,从而对HQL语句或者分布式数据库进行优化,以提高分布式数据库的整体性能,能够方便的找到问题的所在,提高了性能优化的效率。
附图说明
图1是本发明实施例提供的分布式数据库的性能优化的方法的流程图;
图2是本发明实施例提供的分布式数据库的性能优化的装置的示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。
图1是本发明实施例提供的分布式数据库的性能优化的方法的流程图,该方法适用于Hive分布式数据库中,可由分布式数据库中的一台计算机执行,也可以由分布式数据库中的每台计算机执行,该方法具体包括如下步骤:
步骤110,在分布式数据库运行过程中,采集所述分布式数据库的Hive性能参数。
其中,所述Hive性能参数包括逻辑层参数和物理层参数,逻辑层参数是针对HQL语句而言的,物理层参数是针对Hive分布式数据库而言的,所述物理层参数包括CPU、网络流量、磁盘IO(对于磁盘来说,一次磁盘的连续读或者连续写称为一次磁盘IO)和磁盘容量,根据所述逻辑层参数和物理层参数确定分布式数据库的Hive性能问题。
步骤120,当所述Hive性能参数中的逻辑层参数不满足第一预设条件时,对所述分布式数据库的逻辑层进行优化处理。
根据采集到的所述Hive性能参数,分析逻辑层参数是否满足第一预设条件,利用采集到的Hive性能参数中的逻辑层参数与第一预设条件中的相应的参数进行对比,如果某一个逻辑层参数与第一预设条件中的相应的参数不匹配,说明该逻辑层参数不合理,该逻辑层参数表征的特征存在Hive性能问题即会导致变慢。这时,需要对所述分布式数据库的逻辑层也即HQL语句进行优化处理,以提高HQL语句的性能,从而提高分布式数据库的整体性能。
示例性的,对所述分布式数据库的逻辑层进行优化处理,包括:
对不满足所述第一预设条件的HQL语句进行语法识别,找出HQL语法低效的HQL语句。分别分析每个HQL语句的逻辑层参数是否满足第一预设条件,对不满足所述第一预设条件的HQL语句进行语法识别,判断该HQL语句的语法是否符合预设的高效语法,如果不符合说明该HQL语句的语法为低效语法。
找出所述分布式数据库运行过程中不满足预设执行计划的HQL语句。在分布式数据库运行过程中,会执行相应的HQL语句,生成HQL执行计划,检验HQL执行计划并与预设执行计划进行对比,找出HQL执行计划中不满足预设执行计划的HQL语句组合。
对找出的HQL语法低效的HQL语句的语法进行改进,并按照预设执行计划对找出的所述HQL语句组合进行调整。对找出的HQL语法低效的HQL语句的语法按照预设的高效语法进行修改,使语法低效的HQL语句转为语法高效的HQL语句。预设执行计划是一个性能高的HQL语句代码组合方式,对不满足预设执行计划的HQL语句组合按照预设执行计划进行调整。
步骤130,当所述Hive性能参数中的物理层参数不满足第二预设条件时,对所述分布式数据库的物理层进行优化处理。
根据采集到的所述Hive性能参数,分析物理层参数是否满足第二预设条件,利用采集到的Hive性能参数中的物理层参数与第二预设条件中的相应的参数进行对比,如果某一个物理层参数与第二预设条件中的相应的参数不匹配,说明该物理层参数不合理,该物理层参数表征的特征存在Hive性能问题。这时,需要对所述分布式数据库的物理层进行优化处理,所述对物理层的优化处理主要是对Hive分布式数据库级的优化处理。
示例性的,对Hive分布式数据库的物理层进行优化处理,包括:
优化所述分布式数据库的存储性能;
优化所述分布式数据库的读取性能;
优化所述分布式数据库的运算性能。
示例性的,优化所述分布式数据库的存储性能包括:
当所述分布式数据库中存储有产生网络流量大于预定值的第一数据文件时,优化所述第一数据文件在所述分布式数据库中的存储位置。当所述分布式数据库中某一个存储位置存储有产生网络流量大于预定值的第一数据文件时,判断该存储位置是否满足预设存储位置,如果不满足,则将所述第一数据文件挪动到预设存储位置上,减少数据文件在传输过程中跨机架、跨交换机带来的网络传输影响。
当所述分布式数据库存储的数据中存在大于第一数据块阈值的第一数据块时,减小所述第一数据块;当所述分布式数据库存储的数据中存在小于第二数据块阈值的第二数据块时,增大所述第二数据块,所述第一数据块阈值大于所述第二数据块阈值。对磁盘数据块大小的优化是以数据块大小为依据,如果数据块大于第一数据块阈值会浪费资源,如果数据块第二数据块阈值会导致整体性不强,从而影响读写的开销,当数据块大于第一数据块阈值或者小于第二数据块阈值时,均需要对数据块大小进行优化。对于大于第一数据块阈值的第一数据块,减小所述第一数据块,使得第一数据块的大小介于所述第一数据块阈值和所述第二数据块阈值之间;对于小于第二数据块阈值的第二数据块,增大所述第二数据块,使得第二数据块的大小介于所述第一数据块阈值和所述第二数据块阈值之间。从而增加目标数据在磁盘中的整体性,减少磁盘的分散读取,减少磁盘读写时间。
当所述分布式数据库存储有存储格式不满足预设存储格式的第二数据文件时,优化所述第二数据文件的存储格式。如果所述分布式数据库存储有存储格式不满足预设存储格式的第二数据文件,也会产生性能问题,导致磁盘IO次数大,这就需要优化所述磁盘数据文件的存储格式,以减少磁盘IO次数,如选择列存储可以减少全表扫描,减少磁盘读写。
示例性的,优化所述分布式数据库的读取性能包括:优化所述分布式数据库中本地节点的数据的预处理。
例如,对于较简单的运算(如累计等),可以在本地节点进行数据读取时得到运算结果(对于累计运算得到汇总值),多个节点可以并行进行本地处理,避免了将所有数据都传到一个节点进行运算造成处理量大的问题,减少了网络传输,并减少后续CPU运算量。
示例性的,优化所述分布式数据库的运算性能包括:
将所述分布式数据库中数据量小的表保存到所述分布式数据库中参与运算的节点的内存,将所述分布式数据库中数据量大的表保存到在所述分布式数据库中的本地节点的内存。这样做的目的是使数据量小的表在参与运算的节点进行相应的运算,而让数据量大的表尽可能在本地节点进行运算,减少磁盘读写和网络传输的消耗,避免网络堵塞。
判断所述分布式数据库中各个节点的运算负荷,将运算负荷大于第一负荷阈值的节点上的数据分配到运算负荷小于第二负荷阈值的节点上,所述第一负荷阈值大于或等于所述第二负荷阈值。首先判断所述分布式数据库中各个节点的运算负荷,找出运算负荷大于第一负荷阈值的节点和运算负荷小于第二负荷阈值的节点,对于运算负荷大于第一负荷阈值的节点上的数据可以通过Hash算法将该节点上的数据分配到运算负荷小于第二负荷阈值的节点上。这样做的目的是均衡各个节点的内存和磁盘IO的负载。
本实施例通过首先采集分布式数据库的Hive性能参数,根据Hive性能参数分析Hive性能问题是在逻辑层还是在物理层,从而对HQL语句或者分布式数据库进行优化,以提高分布式数据库的整体性能,能够方便的找到问题的所在,提高了性能优化的效率。
图2是本发明实施例提供的分布式数据库的性能优化的装置的示意图。本发明实施例提供的分布式数据库的性能优化的装置用于实现本发明实施例提供的分布式数据库的性能优化的方法。如图2所示,本发明实施例所述的分布式数据库的性能优化的装置包括:采集模块210、逻辑层优化模块220和物理层优化模块230。
其中,采集模块210用于在分布式数据库运行过程中,采集所述分布式数据库的Hive性能参数,所述Hive性能参数包括逻辑层参数和物理层参数。
逻辑层优化模块220用于当所述Hive性能参数中的逻辑层参数不满足第一预设条件时,对所述分布式数据库的逻辑层进行优化处理。
示例性的,逻辑层优化模块220包括:
HQL语法查找子模块,用于对不满足所述第一预设条件的HQL语句进行语法识别,找出HQL语法低效的HQL语句;
HQL语句组合查找子模块,用于找出所述分布式数据库运行过程中不满足预设执行计划的HQL语句组合;
改进子模块,用于对找出的HQL语法低效的HQL语句的语法进行改进,并按照所述预设执行计划对找出的所述HQL语句组合进行调整。
物理层优化模块230用于当所述Hive性能参数中的物理层参数不满足第二预设条件时,对所述分布式数据库的物理层进行优化处理。
示例性的,物理层优化模块230包括:
存储性能优化子模块,用于优化所述分布式数据库的存储性能;
读取性能优化子模块,用于优化所述分布式数据库的读取性能;
运算性能优化子模块,用于优化所述分布式数据库的运算性能。
示例性的,存储性能优化子模块包括:
存储位置优化单元,用于当所述分布式数据库中存储有产生网络流量大于预定值的第一数据文件时,优化所述第一数据文件在所述分布式数据库中的存储位置;
数据库优化单元,用于当所述分布式数据库存储的数据中存在大于第一数据块阈值的第一数据块时,减小所述第一数据块;当所述分布式数据库存储的数据中存在小于第二数据块阈值的第二数据块时,增大所述第二数据块,所述第一数据块阈值大于所述第二数据块阈值;
存储格式优化单元,用于当所述分布式数据库存储有存储格式不满足预设存储格式的第二数据文件时,优化所述第二数据文件的存储格式。
示例性的,读取性能优化子模块包括:
数据预处理优化单元,用于优化所述分布式数据库中本地节点的数据的预处理。
示例性的,运算性能优化子模块包括:
节点内存优化单元,用于将所述分布式数据库中数据量小的表保存到所述分布式数据库中参与运算的节点的内存,将所述分布式数据库中数据量大的表保存到在所述分布式数据库中的本地节点的内存;
节点负荷优化单元,用于判断所述分布式数据库中各个节点的运算负荷,将运算负荷大于第一负荷阈值的节点上的数据,分配到运算负荷小于第二负荷阈值的节点上,所述第一负荷阈值大于或等于所述第二负荷阈值。
本实施例通过采集模块采集分布式数据库的Hive性能参数,当所述Hive性能参数中的逻辑层参数不满足第一预设条件时,逻辑层优化模块对所述分布式数据库的逻辑层进行优化处理,当所述Hive性能参数中的物理层参数不满足第二预设条件时,物理层优化模块对所述分布式数据库的物理层进行优化处理,能够方便的找到问题的所在,提高了性能优化的效率。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (12)

1.一种分布式数据库的性能优化的方法,其特征在于,所述方法包括:
在分布式数据库运行过程中,采集所述分布式数据库的Hive性能参数,所述Hive性能参数包括逻辑层参数和物理层参数;
当所述Hive性能参数中的逻辑层参数不满足第一预设条件时,对所述分布式数据库的逻辑层进行优化处理;
当所述Hive性能参数中的物理层参数不满足第二预设条件时,对所述分布式数据库的物理层进行优化处理。
2.根据权利要求1所述的方法,其特征在于,对所述分布式数据库的逻辑层进行优化处理,包括:
对不满足所述第一预设条件的HQL语句进行语法识别,找出HQL语法低效的HQL语句;
找出所述分布式数据库运行过程中不满足预设执行计划的HQL语句组合;
对找出的HQL语法低效的HQL语句的语法进行改进,并按照所述预设执行计划对找出的所述HQL语句组合进行调整。
3.根据权利要求1或2所述的方法,其特征在于,对所述分布式数据库的物理层进行优化处理,包括:
优化所述分布式数据库的存储性能;
优化所述分布式数据库的读取性能;
优化所述分布式数据库的运算性能。
4.根据权利要求3所述的方法,其特征在于,优化所述分布式数据库的存储性能,包括:
当所述分布式数据库中存储有产生网络流量大于预定值的第一数据文件时,优化所述第一数据文件在所述分布式数据库中的存储位置;
当所述分布式数据库存储的数据中存在大于第一数据块阈值的第一数据块时,减小所述第一数据块;当所述分布式数据库存储的数据中存在小于第二数据块阈值的第二数据块时,增大所述第二数据块,所述第一数据块阈值大于所述第二数据块阈值;
当所述分布式数据库存储有存储格式不满足预设存储格式的第二数据文件时,优化所述第二数据文件的存储格式。
5.根据权利要求3所述的方法,其特征在于,优化所述分布式数据库的读取性能,包括:
优化所述分布式数据库中本地节点的数据的预处理。
6.根据权利要求3所述的方法,其特征在于,优化所述分布式数据库的运算性能,包括:
将所述分布式数据库中数据量小的表保存到所述分布式数据库中参与运算的节点的内存,将所述分布式数据库中数据量大的表保存到在所述分布式数据库中的本地节点的内存;
判断所述分布式数据库中各个节点的运算负荷,将运算负荷大于第一负荷阈值的节点上的数据,分配到运算负荷小于第二负荷阈值的节点上,所述第一负荷阈值大于或等于所述第二负荷阈值。
7.一种分布式数据库的性能优化的装置,其特征在于,所述装置包括:
采集模块,用于在分布式数据库运行过程中,采集所述分布式数据库的Hive性能参数,所述Hive性能参数包括逻辑层参数和物理层参数;
逻辑层优化模块,用于当所述Hive性能参数中的逻辑层参数不满足第一预设条件时,对所述分布式数据库的逻辑层进行优化处理;
物理层优化模块,用于当所述Hive性能参数中的物理层参数不满足第二预设条件时,对所述分布式数据库的物理层进行优化处理。
8.根据权利要求7所述的装置,其特征在于,逻辑层优化模块包括:
HQL语法查找子模块,用于对不满足所述第一预设条件的HQL语句进行语法识别,找出HQL语法低效的HQL语句;
HQL语句组合查找子模块,用于找出所述分布式数据库运行过程中不满足预设执行计划的HQL语句组合;
改进子模块,用于对找出的HQL语法低效的HQL语句的语法进行改进,并按照所述预设执行计划对找出的所述HQL语句组合进行调整。
9.根据权利要求7或8所述的装置,其特征在于,物理层优化模块包括:
存储性能优化子模块,用于优化所述分布式数据库的存储性能;
读取性能优化子模块,用于优化所述分布式数据库的读取性能;
运算性能优化子模块,用于优化所述分布式数据库的运算性能。
10.根据权利要求9所述的装置,其特征在于,存储性能优化子模块包括:
存储位置优化单元,用于当所述分布式数据库中存储有产生网络流量大于预定值的第一数据文件时,优化所述第一数据文件在所述分布式数据库中的存储位置;
数据库优化单元,用于当所述分布式数据库存储的数据中存在大于第一数据块阈值的第一数据块时,减小所述第一数据块;当所述分布式数据库存储的数据中存在小于第二数据块阈值的第二数据块时,增大所述第二数据块,所述第一数据块阈值大于所述第二数据块阈值;
存储格式优化单元,用于当所述分布式数据库存储有存储格式不满足预设存储格式的第二数据文件时,优化所述第二数据文件的存储格式。
11.根据权利要求9所述的装置,其特征在于,读取性能优化子模块包括:
数据预处理优化单元,用于优化所述分布式数据库中本地节点的数据的预处理。
12.根据权利要求9所述的装置,其特征在于,运算性能优化子模块包括:
节点内存优化单元,用于将所述分布式数据库中数据量小的表保存到所述分布式数据库中参与运算的节点的内存,将所述分布式数据库中数据量大的表保存到在所述分布式数据库中的本地节点的内存;
节点负荷优化单元,用于判断所述分布式数据库中各个节点的运算负荷,将运算负荷大于第一负荷阈值的节点上的数据,分配到运算负荷小于第二负荷阈值的节点上,所述第一负荷阈值大于或等于所述第二负荷阈值。
CN201410075800.XA 2014-03-04 2014-03-04 分布式数据库的性能优化的方法及装置 Active CN103823881B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410075800.XA CN103823881B (zh) 2014-03-04 2014-03-04 分布式数据库的性能优化的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410075800.XA CN103823881B (zh) 2014-03-04 2014-03-04 分布式数据库的性能优化的方法及装置

Publications (2)

Publication Number Publication Date
CN103823881A true CN103823881A (zh) 2014-05-28
CN103823881B CN103823881B (zh) 2017-07-28

Family

ID=50758945

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410075800.XA Active CN103823881B (zh) 2014-03-04 2014-03-04 分布式数据库的性能优化的方法及装置

Country Status (1)

Country Link
CN (1) CN103823881B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106126407A (zh) * 2016-06-22 2016-11-16 西安交通大学 一种针对分布式存储系统的性能监控调优系统及方法
CN106778806A (zh) * 2016-11-09 2017-05-31 周夏阳 一种用户信息数据的分类处理方法
CN109241154A (zh) * 2018-07-05 2019-01-18 武汉迎风聚智科技有限公司 一种分布式数据库监控分析方法及系统
CN113032091A (zh) * 2021-02-26 2021-06-25 山东英信计算机技术有限公司 一种采用aep提升虚拟机存储性能的方法、系统及介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7631034B1 (en) * 2008-09-18 2009-12-08 International Business Machines Corporation Optimizing node selection when handling client requests for a distributed file system (DFS) based on a dynamically determined performance index
CN102799622B (zh) * 2012-06-19 2015-07-15 北京大学 基于MapReduce扩展框架的分布式SQL查询方法
CN102867046B (zh) * 2012-09-06 2016-08-03 记忆科技(深圳)有限公司 基于固态硬盘的数据库优化方法及系统
CN102929667A (zh) * 2012-10-24 2013-02-13 曙光信息产业(北京)有限公司 一种hadoop集群性能的优化方法
CN103064664B (zh) * 2012-11-28 2015-07-22 华中科技大学 一种基于性能预估的Hadoop参数自动优化方法和系统
CN103455573A (zh) * 2013-08-21 2013-12-18 成都云鹰科技有限公司 一种基于逻辑优化的数据库查询优化方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JOHNNY_LEE: "hive优化", 《HTTP://BLOG.CSDN.NET/JOHNNY_LEE/ARTICLE/DETAILS/8867632》 *
董新华 等: "Hadoop系统性能优化与功能增强综述", 《计算机研究与发展》 *
陆嘉恒: "《Hadoop实战 第2版》", 30 November 2012 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106126407A (zh) * 2016-06-22 2016-11-16 西安交通大学 一种针对分布式存储系统的性能监控调优系统及方法
CN106126407B (zh) * 2016-06-22 2018-07-17 西安交通大学 一种针对分布式存储系统的性能监控调优系统及方法
CN106778806A (zh) * 2016-11-09 2017-05-31 周夏阳 一种用户信息数据的分类处理方法
CN109241154A (zh) * 2018-07-05 2019-01-18 武汉迎风聚智科技有限公司 一种分布式数据库监控分析方法及系统
CN113032091A (zh) * 2021-02-26 2021-06-25 山东英信计算机技术有限公司 一种采用aep提升虚拟机存储性能的方法、系统及介质

Also Published As

Publication number Publication date
CN103823881B (zh) 2017-07-28

Similar Documents

Publication Publication Date Title
US11922308B2 (en) Generating neighborhood convolutions within a large network
Bai et al. An efficient algorithm for distributed density-based outlier detection on big data
Wang et al. A survey of queries over uncertain data
US10235376B2 (en) Merging metadata for database storage regions based on overlapping range values
US20180300650A1 (en) Distributed data variable analysis and hierarchical grouping system
CN108804576B (zh) 一种基于链接分析的域名层级结构探测方法
JP2013257874A (ja) 調整処理を実行する方法、制御部、プログラム及びデータ記憶システム
CN102012936B (zh) 基于云计算平台的海量数据聚合方法和系统
CN104137095A (zh) 用于演进分析的系统
CN103823881A (zh) 分布式数据库的性能优化的方法及装置
AU2018354550B2 (en) Systems and methods for intelligently grouping financial product users into cohesive cohorts
US10810458B2 (en) Incremental automatic update of ranked neighbor lists based on k-th nearest neighbors
Drakopoulos et al. Higher order graph centrality measures for Neo4j
Raza et al. Autonomic workload performance tuning in large-scale data repositories
US10909117B2 (en) Multiple measurements aggregated at multiple levels of execution of a workload
Chen et al. A Sketch-based clustering algorithm for uncertain data streams
Wang et al. Research on Web Log Data Mining Technology Based on Optimized Clustering Analysis Algorithm
Qi et al. PreKar: A learned performance predictor for knowledge graph stores
Zhang et al. A learning-based framework for improving querying on web interfaces of curated knowledge bases
WO2022088466A1 (zh) 一种备件消耗数据查询方法、系统和存储介质
Vysotska et al. Holistic Adaptive Optimization Techniques for Distributed Data Streaming Systems
US11379270B2 (en) Clustering tenants based on tenancy knowledge graph
US20230062931A1 (en) Using data reduction to accelerate machine learning for networking
Liyang et al. Parallel Implementation of DBSCAN Algorithm Based on Spark
Liu et al. Outlier detection of time series with a novel hybrid method in cloud computing

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant