CN105700998A - 一种对并行程序的性能进行监测分析的方法及装置 - Google Patents

一种对并行程序的性能进行监测分析的方法及装置 Download PDF

Info

Publication number
CN105700998A
CN105700998A CN201610022070.6A CN201610022070A CN105700998A CN 105700998 A CN105700998 A CN 105700998A CN 201610022070 A CN201610022070 A CN 201610022070A CN 105700998 A CN105700998 A CN 105700998A
Authority
CN
China
Prior art keywords
performance
program
concurrent program
performance data
monitored
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610022070.6A
Other languages
English (en)
Inventor
赵祯龙
李瑞丰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Beijing Electronic Information Industry Co Ltd
Original Assignee
Inspur Beijing Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Beijing Electronic Information Industry Co Ltd filed Critical Inspur Beijing Electronic Information Industry Co Ltd
Priority to CN201610022070.6A priority Critical patent/CN105700998A/zh
Publication of CN105700998A publication Critical patent/CN105700998A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/302Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种对并行程序的性能进行监测分析的方法及装置,该方法包括:对分布式并行程序的运行过程进行监测,采集所述并行程序的性能数据;将采集到的所述性能数据进行分布式存储;对所述性能数据进行分布式并行处理,得到反映所述并行程序的性能的分析结果信息。本发明所提供的对并行程序的性能进行监测分析的方法及装置,通过分布式存储、分布式处理的方式,避免了程序性能原始数据的汇聚对单节点机的存储系统造成的巨大压力,改善了以往对单个单文件的处理分析方法,大大减少了网络通信量,提高了处理效率。

Description

一种对并行程序的性能进行监测分析的方法及装置
技术领域
本发明涉及高性能程序监测技术领域,特别是涉及一种对并行程序的性能进行监测分析的方法及装置。
背景技术
并行程序优化是当今分布式并行计算领域的一个重要问题。从编译角度对并行程序进行优化是一个重要的方法,但是编译时无法对程序的执行流程有一个准确的预知,例如程序的分支,以及接收用户输入的参数等。所以,程序运行时的反馈信息对并行程序优化有着关键的意义。在并行程序的监测方面已经有大量的研究成果和成熟的工具,通过插桩和库包装的方法,采集并行程序的各维度信息。
而高性能应用往往具有计算周期长、计算量大的特点。对于一个每秒百万亿次计算能力的高性能机群系统来说,一个并行任务的性能踪迹数据非常巨大。而对于这些庞大的性能数据,并不是单台物理机的存储系统能够胜任的,而且采集时性能数据本身是分布在各节点之上的,数据在汇聚时会进行大量的通信,占用网络带宽。在中小规模机群系统中可以采用1对n的通信模型,当计算规模在几十个节点以下的时候尚可以获得较好的性能,而当计算规模扩展到几百甚至几千、上万时,这样的通信模式将无法满足数据通信、数据存储、数据分析的要求。
发明内容
本发明的目的是提供一种对并行程序的性能进行监测分析的方法及装置,目的在于解决现有程序性能监测分析过程中网络通信以及分析效率较差的问题。
为解决上述技术问题,本发明提供一种对并行程序的性能进行监测分析的方法,包括:
对分布式并行程序的运行过程进行监测,采集所述并行程序的性能数据;
将采集到的所述性能数据进行分布式存储;
对所述性能数据进行分布式并行处理,得到反映所述并行程序的性能的分析结果信息。
可选地,所述采集所述并行程序的性能数据包括:
采集所述并行程序的各维度信息作为所述性能参数,所述维度信息包括:函数的执行时间、程序的硬件技术接口以及系统的程序信息。
可选地,所述将采集到的所述性能数据进行分布式存储包括:
每个计算节点分别将采集到的所述性能数据异步存储至HDFS分布式文件系统中。
可选地,所述对所述性能数据进行分布式并行处理包括:
计算节点利用MapReduce模型对所述性能数据进行分布式并行处理。
可选地,还包括:
对所述分析结果信息进行可视化显示。
本发明还提供了一种对并行程序的性能进行监测分析的装置,包括:
采集模块,用于对分布式并行程序的运行过程进行监测,采集所述并行程序的性能数据;
存储模块,用于将采集到的所述性能数据进行分布式存储;
处理模块,用于对所述性能数据进行分布式并行处理,得到反映所述并行程序的性能的分析结果信息。
可选地,所述采集模块具体用于:
采集所述并行程序的各维度信息作为所述性能参数,所述维度信息包括:函数的执行时间、程序的硬件技术接口以及系统的程序信息。
可选地,所述存储模块具体用于:
每个计算节点分别将采集到的所述性能数据异步存储至HDFS分布式文件系统中。
可选地,所述处理模块具体用于:
计算节点利用MapReduce模型对所述性能数据进行分布式并行处理。
可选地,还包括:
显示模块,用于对所述分析结果信息进行可视化显示。
本发明所提供的对并行程序的性能进行监测分析的方法及装置,通过对分布式并行程序的运行过程进行监测,采集并行程序的性能数据;将采集到的性能数据进行分布式存储;对性能数据进行分布式并行处理,得到反映并行程序的性能的分析结果信息。本发明所提供的对并行程序的性能进行监测分析的方法及装置,通过分布式存储、分布式处理的方式,避免了程序性能原始数据的汇聚对单节点机的存储系统造成的巨大压力,改善了以往对单个单文件的处理分析方法,大大减少了网络通信量,提高了处理效率。
附图说明
为了更清楚的说明本发明实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明所提供的对并行程序的性能进行监测分析的方法的一种具体实施方式的流程图;
图2为本发明所提供的对并行程序的性能进行监测分析的方法的另一种具体实施方式的流程图;
图3为本发明实施例提供的对并行程序的性能进行监测分析的装置的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明所提供的对并行程序的性能进行监测分析的方法的一种具体实施方式的流程图如图1所示,该方法包括:
步骤S101:对分布式并行程序的运行过程进行监测,采集所述并行程序的性能数据;
步骤S102:将采集到的所述性能数据进行分布式存储;
步骤S103:对所述性能数据进行分布式并行处理,得到反映所述并行程序的性能的分析结果信息。
本发明所提供的对并行程序的性能进行监测分析的方法,通过对分布式并行程序的运行过程进行监测,采集并行程序的性能数据;将采集到的性能数据进行分布式存储;对性能数据进行分布式并行处理,得到反映并行程序的性能的分析结果信息。本发明所提供的对并行程序的性能进行监测分析的方法,通过分布式存储、分布式处理的方式,避免了程序性能原始数据的汇聚对单节点机的存储系统造成的巨大压力,改善了以往对单个单文件的处理分析方法,大大减少了网络通信量,提高了处理效率。
并行编程模型多种多样,其中,MPI、OpenMP、CUDA、Hadoop是并行编程模型中的代表,本发明可用于MPI、OpenMP、CUDA、Hadoop以及几种混合模式中,这均不影响本发明的实现。具体地,本发明将并行程序性能数据多节点机分布的特点与Hadoop分布式文件系统的特点相结合,改善了性能数据汇聚环境,并利用MapReduce进行并行数据分析,剖析并行程序的行为,找出并行程序的瓶颈,最终为程序的优化提出可行的解决方案。
在上述实施例的基础上,本发明所提供的对并行程序的性能进行监测分析的方法中采集所述并行程序的性能数据的步骤可以具体为:
采集所述并行程序的各维度信息作为所述性能参数,所述维度信息包括:函数的执行时间、程序的硬件技术接口以及系统的程序信息。
需要指出的是,本发明实施例中分析维度不仅限于函数的执行时间,还结合程序的硬件计数器接口(如PAPI)和系统的proc信息,可以获得如浮点指令数,L1、L2缓存命中率、分支指令数、IO数据量等重要信息,利用现有的踪迹向剖析数据转换工具可以进行多维度的统计。
利用这些数据,可以进行应用级和系统级的优化。
其中,对于应用级的优化为从应用层面寻找程序的瓶颈点,为用户编程提供优化方案。
首先,将各应用领域的benchmark(如NPB、SHOC、SPEC等)作为训练数据,统计其各维度信息,构建支持向量机。
由于各benchmark已经比较成熟,其应用背景和程序结构特点也都是已知的,可对这些benchmark进行分类。如著名的“七个小矮人”的分类方法。美国超算领域知名的数学算法专家PhillipColella在2004年提出了科学计算的七种算法模型,也被称作“七个小矮人”,包括:结构化网格、非结构化网格、快速傅里叶变换、稠密矩阵线性代数、稀疏矩阵线性代数、粒子动力学、蒙特卡洛。这些都是高性能计算领域的经典问题和算法,也是计算时的重点和难点。针对这七类问题,给出相应的优化方案。然后,用户程序运行应用程序获得相应的类别和相应的优化方案来辅助程序设计人员改进算法。
对于系统级的优化为从系统层面寻找并行计算系统的瓶颈点,辅助调试,为系统本身的优化提供方案。
通过Tracing向profiling数据的转换,可以获知函数调用中的异常信号,如最大执行时间,最高的cache缺失率等,这些异常点往往就是程序执行中的瓶颈所在。结合函数的调用关系树状结构,可以获得这些异常点的关联程度。对于SPMD编程方式的多个进程来说,它们之间的行为具有相似性。综合上述信息,可以搜索一个程序中的瓶颈。最后反馈给用户优化方案。
本发明所提供的对并行程序的性能进行监测分析的方法的另一种具体实施方式的流程图如图2所示,该方法包括:
步骤S201:对分布式并行程序的运行过程进行监测,采集所述并行程序的性能数据;
步骤S202:每个计算节点分别将采集到的所述性能数据异步存储至HDFS分布式文件系统中;
在并行程序的运行过程中,对并行程序函数进行插桩,每个计算节点将采集到的性能数据存储到HDFS分布式文件系统中,可在主机本地施加缓存,进行异步的数据存储,这样能够进一步提高存储效率和性能。
步骤S203:计算节点利用MapReduce模型对所述性能数据进行分布式并行处理,得到反映所述并行程序的性能的分析结果信息。
得到分析结果信息后,将最终的分析结果存放于HDFS中,可根据需要取得。
进一步地,本发明所提供的对并行程序的性能进行监测分析的方法还可以包括:
步骤S204:对所述分析结果信息进行可视化显示。
本发明实施例基于分布式的存储和分布式处理,性能数据不需要再通过数据汇聚网进行传输,和集中式的存储和处理,大大提高了计算、存储、网络的效率。
下面对本发明实施例提供的对并行程序的性能进行监测分析的装置进行介绍,下文描述的对并行程序的性能进行监测分析的装置与上文描述的对并行程序的性能进行监测分析的方法可相互对应参照。
图3为本发明实施例提供的对并行程序的性能进行监测分析的装置的结构框图,参照图3对并行程序的性能进行监测分析的装置可以包括:
采集模块100,用于对分布式并行程序的运行过程进行监测,采集所述并行程序的性能数据;
存储模块200,用于将采集到的所述性能数据进行分布式存储;
处理模块300,用于对所述性能数据进行分布式并行处理,得到反映所述并行程序的性能的分析结果信息。
作为一种具体实施方式,本发明所提供的对并行程序的性能进行监测分析的装置中采集模块100可以具体用于:
采集所述并行程序的各维度信息作为所述性能参数,所述维度信息包括:函数的执行时间、程序的硬件技术接口以及系统的程序信息。
作为一种具体实施方式,本发明所提供的对并行程序的性能进行监测分析的装置中存储模块200可以具体用于:
每个计算节点分别将采集到的所述性能数据异步存储至HDFS分布式文件系统中。
作为一种具体实施方式,本发明所提供的对并行程序的性能进行监测分析的装置中处理模块300可以具体用于:
计算节点利用MapReduce模型对所述性能数据进行分布式并行处理。
作为一种具体实施方式,本发明所提供的对并行程序的性能进行监测分析的装置还可以进一步包括:
显示模块,用于对所述分析结果信息进行可视化显示
本发明所提供的对并行程序的性能进行监测分析的装置,通过对分布式并行程序的运行过程进行监测,采集并行程序的性能数据;将采集到的性能数据进行分布式存储;对性能数据进行分布式并行处理,得到反映并行程序的性能的分析结果信息。本发明所提供的对并行程序的性能进行监测分析的装置,通过分布式存储、分布式处理的方式,避免了程序性能原始数据的汇聚对单节点机的存储系统造成的巨大压力,改善了以往对单个单文件的处理分析方法,大大减少了网络通信量,提高了处理效率。
综上,本发明通过分布式存储、分布式处理的方式,较传统的分散存储、汇聚、集中存储、集中处理的方式在优化网络通信和提高分析效率方面都有了很好的改进,在大规模分布式对象存储系统实践中具有很高的技术价值和实用价值。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本发明所提供的对并行程序的性能进行监测分析的方法以及装置进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

Claims (10)

1.一种对并行程序的性能进行监测分析的方法,其特征在于,包括:
对分布式并行程序的运行过程进行监测,采集所述并行程序的性能数据;
将采集到的所述性能数据进行分布式存储;
对所述性能数据进行分布式并行处理,得到反映所述并行程序的性能的分析结果信息。
2.如权利要求1所述的对并行程序的性能进行监测分析的方法,其特征在于,所述采集所述并行程序的性能数据包括:
采集所述并行程序的各维度信息作为所述性能参数,所述维度信息包括:函数的执行时间、程序的硬件技术接口以及系统的程序信息。
3.如权利要求2所述的对并行程序的性能进行监测分析的方法,其特征在于,所述将采集到的所述性能数据进行分布式存储包括:
每个计算节点分别将采集到的所述性能数据异步存储至HDFS分布式文件系统中。
4.如权利要求1至3任一项所述的对并行程序的性能进行监测分析的方法,其特征在于,所述对所述性能数据进行分布式并行处理包括:
计算节点利用MapReduce模型对所述性能数据进行分布式并行处理。
5.如权利要求4所述的对并行程序的性能进行监测分析的方法,其特征在于,还包括:
对所述分析结果信息进行可视化显示。
6.一种对并行程序的性能进行监测分析的装置,其特征在于,包括:
采集模块,用于对分布式并行程序的运行过程进行监测,采集所述并行程序的性能数据;
存储模块,用于将采集到的所述性能数据进行分布式存储;
处理模块,用于对所述性能数据进行分布式并行处理,得到反映所述并行程序的性能的分析结果信息。
7.如权利要求6所述的对并行程序的性能进行监测分析的装置,其特征在于,所述采集模块具体用于:
采集所述并行程序的各维度信息作为所述性能参数,所述维度信息包括:函数的执行时间、程序的硬件技术接口以及系统的程序信息。
8.如权利要求7所述的对并行程序的性能进行监测分析的装置,其特征在于,所述存储模块具体用于:
每个计算节点分别将采集到的所述性能数据异步存储至HDFS分布式文件系统中。
9.如权利要求6至8任一项所述的对并行程序的性能进行监测分析的装置,其特征在于,所述处理模块具体用于:
计算节点利用MapReduce模型对所述性能数据进行分布式并行处理。
10.如权利要求9所述的对并行程序的性能进行监测分析的装置,其特征在于,还包括:
显示模块,用于对所述分析结果信息进行可视化显示。
CN201610022070.6A 2016-01-13 2016-01-13 一种对并行程序的性能进行监测分析的方法及装置 Pending CN105700998A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610022070.6A CN105700998A (zh) 2016-01-13 2016-01-13 一种对并行程序的性能进行监测分析的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610022070.6A CN105700998A (zh) 2016-01-13 2016-01-13 一种对并行程序的性能进行监测分析的方法及装置

Publications (1)

Publication Number Publication Date
CN105700998A true CN105700998A (zh) 2016-06-22

Family

ID=56227240

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610022070.6A Pending CN105700998A (zh) 2016-01-13 2016-01-13 一种对并行程序的性能进行监测分析的方法及装置

Country Status (1)

Country Link
CN (1) CN105700998A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107153604A (zh) * 2017-05-17 2017-09-12 北京计算机技术及应用研究所 基于pmu的并行程序性能监测分析方法
CN107423203A (zh) * 2017-04-19 2017-12-01 浙江大学 非侵入式Hadoop应用性能分析装置和方法
CN109948927A (zh) * 2019-03-15 2019-06-28 北京世纪诚链科技有限公司 一种用于分布式账本的性能分析方法
CN111830039A (zh) * 2020-07-22 2020-10-27 南京认知物联网研究院有限公司 一种智能化的产品质量检测方法及装置
CN112784422A (zh) * 2021-01-28 2021-05-11 华东师范大学 一种应用于并行科学计算程序的细粒度性能建模方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103049245A (zh) * 2012-10-25 2013-04-17 浪潮电子信息产业股份有限公司 一种基于cpu多核平台的软件性能优化方法
CN103257923A (zh) * 2013-04-16 2013-08-21 中国科学院计算技术研究所 数据中心数据分析类基准测试程序的应用选取方法及系统
US8549050B2 (en) * 2003-11-28 2013-10-01 Hitachi, Ltd. Method and system for collecting performance data for storage network
CN103488775A (zh) * 2013-09-29 2014-01-01 中国科学院信息工程研究所 一种用于大数据处理的计算系统及计算方法
US20140250337A1 (en) * 2011-09-26 2014-09-04 Omron Corporation Data processing apparatus, data processing system, and data processing method
CN104636199A (zh) * 2015-03-13 2015-05-20 华存数据信息技术有限公司 一种基于分布式内存计算的大数据实时处理系统及方法
CN105224445A (zh) * 2015-10-28 2016-01-06 北京汇商融通信息技术有限公司 分布式跟踪系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8549050B2 (en) * 2003-11-28 2013-10-01 Hitachi, Ltd. Method and system for collecting performance data for storage network
US20140250337A1 (en) * 2011-09-26 2014-09-04 Omron Corporation Data processing apparatus, data processing system, and data processing method
CN103049245A (zh) * 2012-10-25 2013-04-17 浪潮电子信息产业股份有限公司 一种基于cpu多核平台的软件性能优化方法
CN103257923A (zh) * 2013-04-16 2013-08-21 中国科学院计算技术研究所 数据中心数据分析类基准测试程序的应用选取方法及系统
CN103488775A (zh) * 2013-09-29 2014-01-01 中国科学院信息工程研究所 一种用于大数据处理的计算系统及计算方法
CN104636199A (zh) * 2015-03-13 2015-05-20 华存数据信息技术有限公司 一种基于分布式内存计算的大数据实时处理系统及方法
CN105224445A (zh) * 2015-10-28 2016-01-06 北京汇商融通信息技术有限公司 分布式跟踪系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107423203A (zh) * 2017-04-19 2017-12-01 浙江大学 非侵入式Hadoop应用性能分析装置和方法
CN107153604A (zh) * 2017-05-17 2017-09-12 北京计算机技术及应用研究所 基于pmu的并行程序性能监测分析方法
CN107153604B (zh) * 2017-05-17 2020-02-07 北京计算机技术及应用研究所 基于pmu的并行程序性能监测分析方法
CN109948927A (zh) * 2019-03-15 2019-06-28 北京世纪诚链科技有限公司 一种用于分布式账本的性能分析方法
CN111830039A (zh) * 2020-07-22 2020-10-27 南京认知物联网研究院有限公司 一种智能化的产品质量检测方法及装置
CN112784422A (zh) * 2021-01-28 2021-05-11 华东师范大学 一种应用于并行科学计算程序的细粒度性能建模方法
CN112784422B (zh) * 2021-01-28 2022-10-25 华东师范大学 一种应用于并行科学计算程序的细粒度性能建模方法

Similar Documents

Publication Publication Date Title
Lu et al. Log-based abnormal task detection and root cause analysis for spark
Juve et al. Characterizing and profiling scientific workflows
US10229129B2 (en) Method and apparatus for managing time series database
US9229838B2 (en) Modeling and evaluating application performance in a new environment
CN105700998A (zh) 一种对并行程序的性能进行监测分析的方法及装置
US20130080760A1 (en) Execution Environment with Feedback Loop
US20130081005A1 (en) Memory Management Parameters Derived from System Modeling
Ruan et al. Workload time series prediction in storage systems: a deep learning based approach
Mustafa et al. A machine learning approach for predicting execution time of spark jobs
Wang et al. Data placement and task scheduling optimization for data intensive scientific workflow in multiple data centers environment
Han et al. Benchmarking big data systems: State-of-the-art and future directions
Wang Stream processing systems benchmark: Streambench
Liao et al. Prefetching on storage servers through mining access patterns on blocks
Zvara et al. Optimizing distributed data stream processing by tracing
Jiang et al. PSGraph: How Tencent trains extremely large-scale graphs with Spark?
KR20220129085A (ko) 통계 수집 오프로딩
Devarajan et al. Vidya: Performing code-block I/O characterization for data access optimization
Noorshams Modeling and prediction of i/o performance in virtualized environments
Bei et al. MEST: A model-driven efficient searching approach for MapReduce self-tuning
Wu et al. Exploring performance models of hadoop applications on cloud architecture
Awasthi et al. System-level characterization of datacenter applications
Yang et al. Redis automatic performance tuning based on eBPF
Qi et al. Data mining based root-cause analysis of performance bottleneck for big data workload
Khan Hadoop performance modeling and job optimization for big data analytics
Kaur et al. Performance analysis in bigdata

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160622

RJ01 Rejection of invention patent application after publication