CN110537170A - 分析大规模数据处理作业 - Google Patents

分析大规模数据处理作业 Download PDF

Info

Publication number
CN110537170A
CN110537170A CN201780089600.1A CN201780089600A CN110537170A CN 110537170 A CN110537170 A CN 110537170A CN 201780089600 A CN201780089600 A CN 201780089600A CN 110537170 A CN110537170 A CN 110537170A
Authority
CN
China
Prior art keywords
specific
data
subjob
processing operation
data processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201780089600.1A
Other languages
English (en)
Other versions
CN110537170B (zh
Inventor
卡洛斯·亚历山大·加西亚·德索萨
李叶盛
罗斯·文森特·科斯基
洛维那·沙玛
阿里夫·苏科措
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Priority to CN202310203436.XA priority Critical patent/CN116089482A/zh
Publication of CN110537170A publication Critical patent/CN110537170A/zh
Application granted granted Critical
Publication of CN110537170B publication Critical patent/CN110537170B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/302Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3024Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a central processing unit [CPU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3404Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for parallel or distributed programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3495Performance evaluation by tracing or monitoring for systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/252Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • G06F16/287Visualization; Browsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/865Monitoring of software

Abstract

用于分布式计算系统中的数据分析的方法、系统和装置,通过访问存储在第一处理区与分布式数据处理作业相关联的数据,检测识别与分布式数据处理作业相关联的特定子作业的信息,将识别信息与存储在第二处理区的数据进行比较,以及基于比较的结果,将附加子作业识别为与分布式数据处理作业相关联。方法、系统和装置还用于对于分布式数据处理作业,将与特定子作业相关联的特定输出数据和与附加子作业相关联的附加输出数据相关联,基于与特定子作业和附加子作业中的每一个相关联的输出数据,确定分布式数据处理作业的性能数据,以及提供用于显示的分布式数据处理作业的性能数据。

Description

分析大规模数据处理作业
背景技术
大规模数据处理已经在网络公司和各个行业中广泛使用。大规模数据处理可以包括并行处理,并行处理通常涉及同时对大数据集的每个元素进行一些操作。各种操作可以在数据并行流水线中被链接在一起,以创建用于处理数据集的有效机制。数据集的产生可以涉及创建子作业或者对于主作业或父作业执行的阶段,其中每个子作业可以在不同的处理区上执行。然而,考虑到大规模数据处理作业的大小,难以分析大规模作业的性能。
发明内容
本说明书总体涉及大规模数据处理作业。
在数据处理流水线完成运行之后,可能难以实现诊断流水线中的异常。一些挑战包括缺少日志、难以在多个运行中整理数据、将信息与其他处理事件相关联、以及确定主作业与该主作业的阶段或子作业之间的关系。可能存在一系列相关的诊断信息和分析,包括流水线故障、缓慢和性能指标。因此,需要一种数据分析工具,该数据分析工具能够收集关于分布式数据处理作业的相关信息,并且能够诊断数据流水线中的异常。
通常,本说明书中所描述的主题的一个创新方面可以被体现在方法中,所述方法包括以下动作,访问存储在第一处理区的存储设备中的数据,所述数据与已经执行的特定分布式数据处理作业相关联;从存储在所述存储设备中的所述数据检测识别信息,所述识别信息识别与所述特定分布式数据处理作业相关联的特定子作业;响应于检测到识别与所述特定分布式数据处理作业相关联的特定子作业的所述识别信息,将所述识别信息与存储在第二处理区的存储设备中的数据进行比较;基于将所述识别信息与存储在所述第二处理区的所述存储设备中的数据进行比较的结果,将附加子作业识别为与所述特定分布式数据处理作业相关联;对于所述特定分布式数据处理作业,将与所述特定子作业相关联的特定输出数据和与所述附加子作业相关联的附加输出数据相关联;基于与所述特定子作业相关联的所述特定输出数据和与所述附加子作业相关联的所述附加输出数据,确定所述特定分布式数据处理作业的性能数据;以及基于与所述特定子作业相关联的所述特定输出数据和与所述附加子作业相关联的所述附加输出数据,提供用于显示的所述特定分布式数据处理作业的所述性能数据。
在某些实施方式中,所述方法还包括以下动作,将所述特定分布式数据处理作业的性能数据与性能阈值进行比较;以及基于将所述特定分布式数据处理作业的性能数据与所述性能阈值进行比较的结果,提供通知。
在某些实施方式中,所述通知包括以下中的一个或多个:听觉警报、触觉警报、视觉警报或电子消息。在某些实施方式中,所述性能数据包括以下中的一个或多个:运行时间、存储器使用、CPU时间、盘使用、每个子作业与所述特定分布式数据处理作业之间的关系、与所述特定分布式数据处理作业相关联的一个或多个计数器、或处理状态。
在某些实施方式中,所述存储器使用、所述CPU时间、所述盘使用、每个子作业与所述特定数据处理作业之间的所述关系、与所述特定分布式数据处理作业相关联的一个或多个所述计数器、和/或所述处理状态根据所述通知、特别是到数据处理器的信号而改变,和/或根据与所述性能阈值有关的所述比较的所述结果而改变。
在某些实施方式中,所述方法还包括以下动作,显示包括所述性能数据的显示的用户界面,其中,所述用户界面包括交互式分层结构。
在某些实施方式中,所述识别信息包括在所述数据中所识别的公共前缀。
在某些实施方式中,所述特定分布式数据处理作业与特定流水线相关联;以及对于所述特定分布式数据处理作业,将与所述特定子作业相关联的特定输出数据和与所述附加子作业相关联的附加输出数据相关联包括,将所述特定子作业和所述附加子作业与所述特定流水线相关联;以及所述方法包括以下动作:确定所述特定流水线的第一运行的流水线性能数据;以及确定所述特定流水线的第二运行的流水线性能数据。
上面方面的其他实现包括相对应的系统、装置和计算机程序,被配置为进行在计算机存储设备上所编码的方法的动作。
可以实施本说明书中所描述的主题的特定实施方式,以便实现以下优点中的一个或多个。系统和方法允许机制可靠且准确地分析大规模数据处理作业的正确性和性能。系统和方法实现了直观的数据分析工具,与不实施这些系统和方法的系统相比,该数据分析工具能够更快速且更准确地诊断流水线流误差(flow error)和流水线精度。这允许补救动作更集中且有效,这节省了时间和系统资源。此外,本公开的实施方式实现了技术优点,诸如是当跨处理区存储子作业数据时识别与主作业有关的子作业数据、跨处理区存储的子作业数据的自动收集和关联、更有效且更快速地处理性能数据的收集和关联、有关作业性能指标的自动通知或警报、以及包括直观的用户界面的作业性能的分析和诊断。特别地,本公开的实施方式实现了技术优点,更容易地识别性能退化的根本原因,以及识别在不同的运行中使用更多资源的阶段。
在附图和以下描述中阐述了本发明的一个或多个实施方式的细节。从说明书、附图和权利要求,本发明的其他特征和优点将变得显而易见。
附图说明
图1示出了根据本公开的实施方式的分布式数据处理系统的示例。
图2示出了根据本公开的实施方式的用于分析分布式数据处理系统的数据的系统的示例。
图3示出了根据本公开的实施方式的处理用户界面的示例。
图4示出了根据本公开的实施方式的用于分析分布式数据处理系统中的数据的处理的示例的流程图。
各个附图中相同的附图标记和名称指示相同的元素。
具体实施方式
在高级别,本公开的实施方式提供离线流水线分析和诊断框架,该框架收集和组织与跨不同处理区所存储的分布式数据处理流水线有关的相关数据。此外,该数据被关联并且以更结构化的形式被呈现给用户,并且可以提供关于某些性能度量的自动通知。一些示例性能分析包括但不限于:流水线在最近n个时间量中运行的次数和相对应的状态,数据处理作业的不同阶段或不同时期(phase)的运行时间,流水线的不同运行中的计数器的变化,给定流水线所遇到的独特故障和任何现有错误的数量,诸如分组、调度的流水线的处理环境的改变,流水线的不同运行中的策略,以及可能影响流水线的其他瞬态问题。分布式数据处理作业的一个示例是MapReduce作业,该作业可以包括映射(map)、洗牌(shuffle)和化简(reduce)时期。然而,其他分布式处理系统也可以受益于本公开的实施方式。
下面更详细地描述这些特征和附加特征。
图1示出了根据本公开的实施方式的分布式数据处理系统100的示例。分布式数据处理系统100可以包括数据处理器102,数据处理器102可以包括一个或多个计算机。数据处理器102可以例如跨处理区104、106和108处的存储节点110来存储数据。传统的处理区可以存储大量数据。一些数据被冗余地跨多个处理区存储,使得即使整个处理区故障,数据也可以被恢复。数据处理器102可以使用网络112来与处理区104、106和108进行通信。
存储节点可以包括一个或多个计算机存储介质。在一些实施方式中,存储节点是数据服务器,例如,包括数据处理装置和可以在其上存储数据的多个硬盘驱动器的服务器。一组存储节点可以包括机架、子网、处理区或者服务器或存储节点的各种其他集合。
处理区可以包括存储节点的分组。处理区被设计为相对地独立于其他处理区。例如,处理区可以具有独立的资源,诸如是电力、网络、环境控制、安全等或其任何组合。处理区可以包括例如网络系统、备用电源、气候控制、安全等或其任何组合。处理区可以包括或限于单个设施或建筑物或者一个或多个设施,或者在一些情况下可以包括或限于单个设施的一部分。在图1中,处理区104、106和108被示为具有三个存储节点;但是,每个处理区可以具有更多或更少的存储节点。数据可以被存储在数据块中,每个数据块包括指定数量的数据。在一些实施方式中,数据块可以是来自文件的数据的连续部分。在一些其他实施方式中,数据块可以是来自文件的数据的一个或多个非连续部分。在一些实施方式中,在处理区104、106和108使用元数据来跟踪存储的数据。例如,元数据可以指定文件的哪些部分被存储在哪些处理区。另外,可以指定数据块被存储在某些处理区。例如,可以基于处理区的地理位置来指定数据被存储在处理区。
在分布式数据处理系统中,例如图1的分布式数据处理系统100,特定的分布式数据处理作业可以包括创建多个子作业的主作业,该多个子作业可以跨越多个处理区104、106和108。这些作业可以被称为批处理作业。因为子作业跨越多个处理区,所以使用传统的系统和处理难以访问不同位置的数据。特别地,可能无法获得整个作业的合并数据,以使用这些传统的系统和处理来提供准确的性能分析和诊断。特别地,例如,一旦完成分布式数据处理作业,上面所描述的元数据就可能被丢失或被删除。因此,可能难以确定各种子作业与主作业之间的相关性。
例如,在典型的MapReduce系统中,MapReduce框架会自动地将作业拆分为多个子作业,该多个子作业有时被并行地执行。主作业与子作业之间的关系不容易获得,特别是对于已经终止的作业。此外,例如,难以跟踪和关联关于MapReduce作业正在处理的对象和操作的数量的计数器,该计数器用作作业行为的指示器并且有助于调试作业,以及关于用于构建MapReduce作业二进制的代码版本的信息。此外,例如,作为大规模数据处理MapReduce系统的一部分的MapReduce作业通常被定期地运行,但是例如作为开发处理的一部分,当将改变引入MapReduce系统时,难以查看相同的作业随时间的相对性能。此外,难以获得关于MapReduce作业与分布式运行时环境交互的信息。然而,本公开的实施方式使得能够克服这些困难或挑战中的每一个,从而提供如下面更详细地描述的用于大规模数据处理系统的性能和诊断的相关联的功能。
即使当数据跨不同的处理区被存储时,本公开的实施方式提供用于收集和关联关于每个子作业的相关信息,确定各个子作业与主作业之间的关系,确定不同的作业如何相对于彼此执行,以及使得开发者能够识别在每个作业中执行哪个阶段或时期的方式。另外,本公开的实施方式可以收集和分组与相同流水线的不同运行相关的数据,以提供增强的诊断和分析能力。例如,如下面更详细地描述的,可以从与分布式数据处理作业相关联的数据确定足迹或模式,该分布式数据处理作业可以用于将跨不同的处理区所存储的子作业识别为与主作业相关联。例如,足迹或模式可以包括唯一地识别与主作业相关联的子作业的公共前缀。以该方式,可以识别与子作业相关联的数据,并且将该数据彼此相关联以及与主作业相关联,并且可以从该数据确定性能信息。
图2示出了根据本公开的实施方式的用于分析分布式数据处理系统的数据的系统200的示例。作为分布式数据处理的示例,图2中示出了处理流水线210。流水线210可以与分布式数据处理作业信息数据库220和流水线信息数据库230中的一个或两个进行通信并且存储数据。如上面所描述的,这些数据库可以跨处理区被存储在存储设备中。例如,与流水线210相关联的数据的一部分可以被存储在一个处理区,并且与流水线210相关联的数据的另一部分可以被存储在另一处理区。此外,例如,数据的那些部分中的每一个可以与流水线210的相应子作业相关联。
来自分布式数据处理作业信息数据库220和流水线信息数据库230中的一个或两个的数据可以由数据处理器240访问。数据处理器240的主要功能中的一个是数据收集和处理流水线250,该数据收集和处理流水线250收集和处理所有流水线相关信息,并且将该数据写入处理数据库260。数据收集和处理流水线250可以从数个源收集信息,该数个源包括可以由数据处理器240访问的分布式数据处理作业信息数据库220和流水线信息数据库230。另外,数据收集和处理流水线250可以从外部服务和处理环境280收集信息。处理用户界面(UI)270从被存储在处理数据库260中由数据收集和处理流水线250所收集和处理的数据中提供用于显示的信息。
处理流水线250可以从多个源收集与每个作业有关的信息,包括日志文件、日志数据库、事件日志和运行时环境设置,然后该信息可以被呈现在处理UI 270上。例如,处理流水线250可以以预定时间间隔收集信息。由处理流水线250所识别和收集的信息可以被存储在处理数据库260中。该数据还可以被优化用于在被存储之前或之后与其他数据组合,以使得能够更有效地处理数据用于在处理UI 270上呈现。
处理流水线250可以收集的信息类型的一些示例包括但不限于:每个作业的运行时间;每个作业运行的存储器使用、CPU时间和盘使用;关于每个作业运行的每个阶段或时期的信息;每个阶段或时期所经过的时间,以及每个阶段或时期的存储器使用、CPU时间和盘使用;主作业与子作业或阶段之间的“父子关系”,该父子关系可以从系统写入日志信息的日志文件和日志数据库中收集和重建;在每个阶段或时期中所记录的任何计数器信息,该计数器信息可以从日志文件或数据库中收集,或者从不同的数据库中收集,其中由于计数器信息的数量很大,因此它可能被存储在不同的数据库。
用于显示由处理流水线250所确定的性能信息的处理UI 270可以以使得用户能够选择性地查看与作业相关联的信息的不同细节水平的方式来构建。例如,处理UI 270可以包括显示的信息的层次结构,使得用户可以选择性地查看关于系统或作业的更高级别信息,并且进行选择以查看关于系统或作业或者关于系统或作业的一部分的更详细信息。参考图3更详细地描述要被显示的信息的该交互式层次结构,图3示出了上面已经被描述的处理UI的示例。
图3示出了根据本公开的实施方式的处理UI 300的示例。例如,处理UI 300可以包括仪表板UI 305。仪表板UI 305可以包括信息级别的交互式层次结构,该信息级别允许用户选择性地向下钻取作业的详细信息。该处理UI 300使得用户能够更容易地观察特定作业的所有运行的状态,比较不同的运行,比较不同的作业等或其任何组合。
例如,第一级别UI 310可以显示与用户相关联的所有不同的作业或者用户已经选择要被显示的所有不同的作业。第一级别UI 310还可以显示在特定时间帧中已经通过和失败的作业的总数。此外,例如,第一级别UI可以显示按状态的数个执行,并且可以显示按作业流的总持续时间。作为处理UI 300的一部分,用户可以选择每个不同的作业,这可以提供下一级别信息的显示,即第二级别UI 320。
第二级别UI 320可以显示关于特定时间帧上由特定作业的运行所消耗的经过时间和资源的历史数据。第二级别UI 320还可以显示任意数量的以下性能度量:流水线运行持续时间、流水线CPU使用时间、流水线存储器使用、流水线盘使用、实例或流水线运行的数量、按运行的阶段持续时间、n个最长的平均阶段持续时间的列表、以及按名称的阶段持续时间的列表。此外,例如,因为可以在第二级别UI 320上呈现过去作业运行的实例的列表,所以用户可以选择那些实例中的任何一个,这可以提供下一级别信息的显示,即第三级别UI 330。
第三级别UI 330可以显示关于作业的一个特定运行实例的信息。例如,第三级别UI 330可以显示关于作业内的每个阶段的运行时间、CPU使用时间、存储器使用和盘使用的信息,以及作业的二进制构建版本。第三级别UI 330还可以显示流水线状态、流水线开始时间和持续时间、流水线阶段以及与作业的实例相关联的计数器值。另外,可以在第三级别UI330上显示每个阶段的开始和停止的时间线。
作为第二级别UI 320的另一特征,用户可以从显示的那些运行中选择两个不同的运行,并且选择为彼此比较这些运行。例如,该选择可以使得比较UI被显示,在该比较UI中关于两个所选运行的信息被并排显示以便于比较。比较UI可以是第二级别UI 320的一部分,或者可以是在处理UI 300内所显示的单独的UI。
图4示出了根据本公开的实施方式的用于分布式数据处理系统中的数据分析的处理400的示例的流程图。尽管使用以特定顺序发生的步骤来示出和描述处理400,但是那些步骤中的一个或多个可以以与所示出和描述的顺序不同的顺序发生。
一旦完成大规模数据处理作业,与作业有关的信息就可以跨不同的处理区被存储,并且难以识别、提取和分析。根据本公开的实施方式,可以在410访问被存储在第一处理区的一个或多个存储设备中的数据。在410所访问的数据可以是与已经被执行的特定分布式数据处理作业相关联的数据。
在420,可以从被存储在第一处理区的存储设备中的数据检测识别信息,该识别信息识别与特定分布式数据处理作业相关联的特定子作业。识别信息可以包括唯一地识别与特定分布式数据处理作业相关联的子作业的模式。例如,模式可以是在数据中所识别的公共前缀,该公共前缀对于与特定分布式数据处理作业相关联的其他子作业可以是公共的。
响应于检测到识别与特定分布式数据处理作业相关联的特定子作业的识别信息,可以在430将识别信息与被存储在第二处理区的存储设备中的数据进行比较。与第一处理区类似,第二处理区可以包括一个或多个存储设备,在该一个或多个存储设备上存储关于一个或多个子作业的数据。在440,基于识别与特定分布式数据处理作业相关联的特定子作业的识别信息与被存储在第二处理区的存储设备中的数据之间的比较的结果,可以将附加子作业识别为与特定分布式数据处理作业相关联。
在450,对于特定分布式数据处理作业,与特定子作业相关联的特定输出数据可以和与附加子作业相关联的附加输出数据相关联。例如,可以确定子作业之间的一个或多个关系以及每个子作业与主作业之间的各个关系。
此外,在460,可以基于与特定子作业相关联的特定输出数据和与附加子作业相关联的附加输出数据,确定特定分布式数据处理作业的性能数据。性能数据可以包括:运行时间、存储器使用、CPU时间、盘使用、每个子作业与特定分布式数据处理作业之间的关系、与特定分布式数据处理作业相关联的一个或多个计数器、处理状态等或其任何组合。
一旦确定了特定分布式数据处理作业的性能数据,就可以在470基于与特定子作业相关联的特定输出数据和与附加子作业相关联的附加输出数据,提供该性能数据用于显示。例如,可以从收集的数据计算各种性能信息和度量,并且可以在交互式UI上显示各种性能信息和度量。此外,例如,可以将特定分布式数据处理作业的性能数据与性能阈值进行比较,并且可以基于特定分布式数据处理作业的性能数据与性能阈值的比较的结果来提供通知。例如,通知可以包括听觉警报、触觉警报、视觉警报、电子消息等或其任何组合。
在某些实施方式中,通知可以用于自动地调整以下中的至少一个:运行时间、存储器使用、CPU时间、盘使用、每个子作业与特定数据处理作业之间的关系、与特定分布式数据处理作业相关联的一个或多个计数器,性能度量和/或处理状态依赖于通知、特别是到数据处理器的信号而改变。另外或替代地,改变可以归因于与性能阈值有关的比较的结果的依赖。
如上所述,用于在270显示而提供的性能数据可以经由包括性能数据的显示的UI来提供。UI可以包括交互式层次结构。以该方式,UI可以基于用户的选择,选择性地显示关于不同作业、流水线的不同运行、不同子作业等的不同级别的细节或信息。例如,如上面参考图3所描述的,UI可以包括用户可以交互的不同层次结构级别的显示,并且该不同层次结构级别的显示可以基于用户期望的信息的类型来选择性地显示。
在本公开的实施方式中,特定分布式数据处理作业可以与特定分布式数据处理流水线相关联。因此,例如,对于特定分布式数据处理作业,将与特定子作业相关联的特定输出数据和与附加子作业相关联的附加输出数据相关联可以包括,将特定子作业和附加子作业与特定流水线相关联。另外,例如,对于特定流水线的第一运行,可以确定流水线性能数据,并且对于特定流水线的第二运行,可以确定流水线性能数据。
因此,可以在特定流水线的不同运行之间进行比较,并且可以在UI上提供性能数据,使得可以并排比较特定流水线的不同运行。因此,用户可以更容易地识别资源消耗的偏差、延迟、差异等或其任何组合。识别相同流水线的不同运行之间的关系使得能够进行比较,这对于分布式数据处理流水线提供更有效的问题诊断。
因此,本公开的实施方式实现了技术优点,诸如是当跨处理区存储子作业数据时识别与主作业有关的子作业数据、跨处理区存储的子作业数据的自动收集和关联、更有效且更快速地处理性能数据的收集和关联、有关作业性能指标的自动通知或警报、以及包括直观的用户界面的作业性能的分析和诊断。此外,本公开的实施方式的某些优点和技术效果包括用于用户观察所有作业运行的状态的交互式UI、并排比较两个作业运行的能力以更容易地调查作业中任何性能退化的可能根本原因、自动地识别性能随时间降低的作业、以及识别作业内运行最长时间或消耗最多计算资源的阶段。因此,可以更容易和快速地诊断和校正分布式数据处理作业中的缺陷或问题,从而降低分布式数据处理系统的处理时间并且提高性能。
已经描述了数个实施方式。然而,应该理解的是,在不脱离本公开的精神和范围的情况下,可以进行各种修改。例如,可以使用上面示出的各种形式的流程,其中重新排序、添加或移除步骤。
本说明书中所描述的本发明的实施方式和所有功能操作可以以数字电子电路来实施,或者以包括本说明书中所公开的结构及其结构等同物的计算机软件、固件或硬件来实施,或者以它们中的一个或多个的组合来实施。本发明的实施方式可以被实施为一个或多个计算机程序产品,即,计算机可读介质上所编码的一个或多个计算机程序指令的模块,用于由数据处理装置执行或控制数据处理装置的操作。计算机可读介质可以是机器可读存储设备、机器可读存储基板、存储器设备、影响机器可读传播信号的物质的组合、或者它们中的一个或多个的组合。
术语“数据处理装置”包括用于处理数据的所有装置、设备和机器,包括例如可编程处理器、计算机或者多个处理器或计算机。除了硬件之外,该装置还可以包括为所讨论的计算机程序创建执行环境的代码,例如,构成处理器固件、协议栈、数据库管理系统、操作系统、或者它们中的一个或多个的组合的代码。传播的信号是人工生成的信号,例如,机器生成的电、光或电磁信号,该信号被生成为对信息进行编码,用于传送到合适的接收器装置。
虽然本公开包含许多细节,但是这些细节不应该被解释为对本发明或可能被要求保护的范围的限制,而是应该被解释为对本发明的特定实施方式特定的特征的描述。本说明书中在单独实施方式的情境中所描述的某些特征也可以组合地在单个实施方式中实施。相反,在单个实施方式的情境中所描述的各种特征也可以单独地或以任何合适的子组合在多个实施方式中被实施。此外,尽管上面可以将特征描述为以某些组合起作用并且甚至最初如此要求保护,但是在一些情况下,可以从所要求保护的组合中删除来自该组合的一个或多个特征,并且所要求保护的组合可以指向子组合或子组合的变型。
类似地,虽然在附图中以特定顺序示出了操作,但是这不应该被理解为要求以所示的特定顺序或按顺序进行这样的操作,或者进行所有示出的操作,以实现期望的结果。在某些情况下,多任务和并行处理可能是有利的。此外,上面所描述的实施方式中的各种系统组件的分离不应该被理解为在所有实施方式中都要求这样的分离,并且应该理解的是,描述的程序组件和系统通常可以被集成在单个软件产品中或者被打包到多个软件产品中。
因此,已经描述了本公开的特定实施方式。其他实施方式在以下权利要求的范围内。例如,权利要求中所叙述的动作可以以不同的顺序进行并且仍然实现期望的结果。已经描述了数个实施方式。然而,应该理解的是,在不脱离本公开的精神和范围的情况下,可以进行各种修改。例如,可以使用上面示出的各种形式的流程,其中重新排序、添加或移除步骤。因此,其他实施方式在以下权利要求的范围内。

Claims (23)

1.一种用于分布式计算系统中的数据分析的计算机实施的方法,其特征在于,所述方法包括:
访问存储在第一处理区的存储设备中的数据,所述数据与已经执行的特定分布式数据处理作业相关联;
从存储在所述存储设备中的所述数据检测识别信息,所述识别信息识别与所述特定分布式数据处理作业相关联的特定子作业;
响应于检测到识别与所述特定分布式数据处理作业相关联的特定子作业的所述识别信息,将所述识别信息与存储在第二处理区的存储设备中的数据进行比较;
基于将所述识别信息与存储在所述第二处理区的所述存储设备中的数据进行比较的结果,将附加子作业识别为与所述特定分布式数据处理作业相关联;
对于所述特定分布式数据处理作业,将与所述特定子作业相关联的特定输出数据和与所述附加子作业相关联的附加输出数据相关联;
基于与所述特定子作业相关联的所述特定输出数据和与所述附加子作业相关联的所述附加输出数据,确定所述特定分布式数据处理作业的性能数据;以及
基于与所述特定子作业相关联的所述特定输出数据和与所述附加子作业相关联的所述附加输出数据,提供用于显示的所述特定分布式数据处理作业的所述性能数据。
2.根据权利要求1所述的方法,其特征在于,还包括:
将所述特定分布式数据处理作业的性能数据与性能阈值进行比较;以及
基于将所述特定分布式数据处理作业的性能数据与所述性能阈值进行比较的结果,提供通知。
3.根据权利要求2所述的方法,其特征在于,所述通知包括以下中的一个或多个:听觉警报、触觉警报、视觉警报或电子消息。
4.根据权利要求1至3中至少一项所述的方法,其特征在于,所述性能数据包括以下中的一个或多个:运行时间、存储器使用、CPU时间、盘使用、每个子作业与所述特定分布式数据处理作业之间的关系、与所述特定分布式数据处理作业相关联的一个或多个计数器、或处理状态。
5.根据权利要求2至4中至少一项所述的方法,其特征在于,所述运行时间、所述存储器使用、所述CPU时间、所述盘使用、每个子作业与所述特定数据处理作业之间的所述关系、与所述特定分布式数据处理作业相关联的一个或多个所述计数器、性能度量和/或所述处理状态根据所述通知、特别是到数据处理器的信号而改变,和/或根据与所述性能阈值有关的所述比较的所述结果而改变。
6.根据权利要求1至5中至少一项所述的方法,其特征在于,还包括:
显示包括所述性能数据的显示的用户界面,
其中,所述用户界面包括交互式分层结构。
7.根据权利要求1至6中至少一项所述的方法,其特征在于,所述识别信息包括在所述数据中所识别的公共前缀。
8.根据权利要求1至7中至少一项所述的方法,其特征在于,
其中,所述特定分布式数据处理作业与特定流水线相关联;
其中,对于所述特定分布式数据处理作业,将与所述特定子作业相关联的特定输出数据和与所述附加子作业相关联的附加输出数据相关联包括,将所述特定子作业和所述附加子作业与所述特定流水线相关联;以及
所述方法还包括:
确定所述特定流水线的第一运行的流水线性能数据;以及
确定所述特定流水线的第二运行的流水线性能数据。
9.一种系统,其特征在于,包括:
一个或多个处理器;以及
存储器,所述存储器存储可操作的指令,所述指令在被执行时使得所述一个或多个处理器进行操作,所述操作包括:
访问存储在第一处理区的存储设备中的数据,所述数据与已经执行的特定分布式数据处理作业相关联;
从存储在所述存储设备中的所述数据检测识别信息,所述识别信息识别与所述特定分布式数据处理作业相关联的特定子作业;
响应于检测到识别与所述特定分布式数据处理作业相关联的特定子作业的所述识别信息,将所述识别信息与存储在第二处理区的存储设备中的数据进行比较;
基于将所述识别信息与存储在所述第二处理区的所述存储设备中的数据进行比较的结果,将附加子作业识别为与所述特定分布式数据处理作业相关联;
对于所述特定分布式数据处理作业,将与所述特定子作业相关联的特定输出数据和与所述附加子作业相关联的附加输出数据相关联;
基于与所述特定子作业相关联的所述特定输出数据和与所述附加子作业相关联的所述附加输出数据,确定所述特定分布式数据处理作业的性能数据;以及
基于与所述特定子作业相关联的所述特定输出数据和与所述附加子作业相关联的所述附加输出数据,提供用于显示的所述特定分布式数据处理作业的所述性能数据。
10.根据权利要求9所述的系统,其特征在于,所述操作还包括:
将所述特定分布式数据处理作业的性能数据与性能阈值进行比较;以及
基于将所述特定分布式数据处理作业的性能数据与所述性能阈值进行比较的结果,提供通知。
11.根据权利要求10所述的系统,其特征在于,所述通知包括以下中的一个或多个:听觉警报、触觉警报、视觉警报或电子消息。
12.根据权利要求9所述的系统,其特征在于,所述性能数据包括以下中的一个或多个:运行时间、存储器使用、CPU时间、盘使用、每个子作业与所述特定分布式数据处理作业之间的关系、与所述特定分布式数据处理作业相关联的一个或多个计数器、或处理状态。
13.根据权利要求12所述的系统,其特征在于,所述运行时间、所述存储器使用、所述CPU时间、所述盘使用、每个子作业与所述特定数据处理作业之间的所述关系、与所述特定分布式数据处理作业相关联的一个或多个所述计数器、性能度量和/或所述处理状态根据通知、特别是到所述一个或多个数据处理器的信号而改变,和/或根据与所述性能阈值有关的所述比较的所述结果而改变。
14.根据权利要求9至13c9中至少一项所述的系统,其特征在于,所述操作还包括:
显示包括所述性能数据的显示的用户界面,
其中,所述用户界面包括交互式分层结构。
15.根据权利要求9至1498中至少一项所述的系统,其特征在于,所述识别信息包括在所述数据中所识别的公共前缀。
16.根据权利要求9所述的系统,其特征在于,所述特定分布式数据处理作业与特定流水线相关联;
其中,对于所述特定分布式数据处理作业,将与所述特定子作业相关联的特定输出数据和与所述附加子作业相关联的附加输出数据相关联包括,将所述特定子作业和所述附加子作业与所述特定流水线相关联;以及
所述操作还包括:
确定所述特定流水线的第一运行的流水线性能数据;以及
确定所述特定流水线的第二运行的流水线性能数据。
17.一种计算机可读存储设备,其特征在于,所述计算机可读存储设备存储可由一个或多个处理器执行的指令,当所述指令执行时,使得所述一个或多个处理器在分布式计算系统中进行操作,所述操作包括:
访问存储在第一处理区的存储设备中的数据,所述数据与已经执行的特定分布式数据处理作业相关联;
从存储在所述存储设备中的所述数据检测识别信息,所述识别信息识别与所述特定分布式数据处理作业相关联的特定子作业;
响应于检测到识别与所述特定分布式数据处理作业相关联的特定子作业的所述识别信息,将所述识别信息与存储在第二处理区的存储设备中的数据进行比较;
基于将所述识别信息与存储在所述第二处理区的所述存储设备中的数据进行比较的结果,将附加子作业识别为与所述特定分布式数据处理作业相关联;
对于所述特定分布式数据处理作业,将与所述特定子作业相关联的特定输出数据和与所述附加子作业相关联的附加输出数据相关联;
基于与所述特定子作业相关联的所述特定输出数据和与所述附加子作业相关联的所述附加输出数据,确定所述特定分布式数据处理作业的性能数据;以及
基于与所述特定子作业相关联的所述特定输出数据和与所述附加子作业相关联的所述附加输出数据,提供用于显示的所述特定分布式数据处理作业的所述性能数据。
18.根据权利要求17所述的计算机可读存储设备,其特征在于,所述操作还包括:
将所述特定分布式数据处理作业的性能数据与性能阈值进行比较;以及
基于将所述特定分布式数据处理作业的性能数据与所述性能阈值进行比较的结果,提供通知。
19.根据权利要求18所述的计算机可读存储设备,其特征在于,所述通知包括以下中的一个或多个:听觉警报、触觉警报、视觉警报或电子消息。
20.根据权利要求117所述的计算机可读存储设备,其特征在于,所述性能数据包括以下中的一个或多个:运行时间、存储器使用、CPU时间、盘使用、每个子作业与所述特定分布式数据处理作业之间的关系、与所述特定分布式数据处理作业相关联的一个或多个计数器、或处理状态。
21.根据权利要求20所述计算机可读存储设备,其特征在于,所述运行时间、所述存储器使用、所述CPU时间、所述盘使用、每个子作业与所述特定数据处理作业之间的所述关系、与所述特定分布式数据处理作业相关联的一个或多个所述计数器、性能度量和/或所述处理状态根据通知、特别是到数据处理器的信号而改变,和/或根据与所述性能阈值有关的所述比较的所述结果而改变。
22.根据权利要求17至21中至少一项所述的计算机可读存储设备,其特征在于,还包括:
显示包括所述性能数据的显示的用户界面,
其中,所述用户界面包括交互式分层结构。
23.根据权利要求17至22中至少一项所述的计算机可读存储设备,其特征在于,所述特定分布式数据处理作业与特定流水线相关联;
其中,对于所述特定分布式数据处理作业,将与所述特定子作业相关联的特定输出数据和与所述附加子作业相关联的附加输出数据相关联包括,将所述特定子作业和所述附加子作业与所述特定流水线相关联;以及
所述操作还包括:
确定所述特定流水线的第一运行的流水线性能数据;以及
确定所述特定流水线的第二运行的流水线性能数据。
CN201780089600.1A 2017-02-14 2017-10-18 分析大规模数据处理作业的方法、系统以及计算机可读存储设备 Active CN110537170B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310203436.XA CN116089482A (zh) 2017-02-14 2017-10-18 分析大规模数据处理作业

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/432,375 2017-02-14
US15/432,375 US10514993B2 (en) 2017-02-14 2017-02-14 Analyzing large-scale data processing jobs
PCT/US2017/057154 WO2018151767A1 (en) 2017-02-14 2017-10-18 Analyzing large-scale data processing jobs

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202310203436.XA Division CN116089482A (zh) 2017-02-14 2017-10-18 分析大规模数据处理作业

Publications (2)

Publication Number Publication Date
CN110537170A true CN110537170A (zh) 2019-12-03
CN110537170B CN110537170B (zh) 2023-03-28

Family

ID=60269923

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201780089600.1A Active CN110537170B (zh) 2017-02-14 2017-10-18 分析大规模数据处理作业的方法、系统以及计算机可读存储设备
CN202310203436.XA Pending CN116089482A (zh) 2017-02-14 2017-10-18 分析大规模数据处理作业

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202310203436.XA Pending CN116089482A (zh) 2017-02-14 2017-10-18 分析大规模数据处理作业

Country Status (5)

Country Link
US (4) US10514993B2 (zh)
EP (4) EP3798848B1 (zh)
CN (2) CN110537170B (zh)
DE (1) DE202017106569U1 (zh)
WO (1) WO2018151767A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7590620B1 (en) * 2004-06-18 2009-09-15 Google Inc. System and method for analyzing data records
US10514993B2 (en) 2017-02-14 2019-12-24 Google Llc Analyzing large-scale data processing jobs
US11012317B2 (en) * 2017-08-18 2021-05-18 Salesforce.Com, Inc. Visualization for monitoring infrastructure entities
US20190042308A1 (en) * 2018-08-31 2019-02-07 Intel Corporation Technologies for providing efficient scheduling of functions
US11609905B2 (en) * 2021-03-23 2023-03-21 Opsera Inc. Persona based analytics across DevOps
US20230418792A1 (en) * 2022-06-28 2023-12-28 Hewlett Packard Enterprise Development Lp Method to track and clone data artifacts associated with distributed data processing pipelines

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130204948A1 (en) * 2012-02-07 2013-08-08 Cloudera, Inc. Centralized configuration and monitoring of a distributed computing cluster
US20150269006A1 (en) * 2014-03-18 2015-09-24 International Business Machines Corporation Bottleneck detection for performance management
CN105511957A (zh) * 2014-09-25 2016-04-20 国际商业机器公司 用于生成作业告警的方法和系统
CN106233259A (zh) * 2014-04-30 2016-12-14 国际商业机器公司 在分散存储网络中检索多世代存储数据

Family Cites Families (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001055862A1 (en) * 2000-01-28 2001-08-02 Ibeam Broadcasting Corporation Method and system for real-time distributed data mining and analysis for networks
US7237243B2 (en) * 2001-06-11 2007-06-26 Microsoft Corporation Multiple device management method and system
US7093259B2 (en) * 2001-12-20 2006-08-15 Cadence Design Systems, Inc. Hierarchically structured logging for computer work processing
US7076397B2 (en) 2002-10-17 2006-07-11 Bmc Software, Inc. System and method for statistical performance monitoring
US7246159B2 (en) 2002-11-01 2007-07-17 Fidelia Technology, Inc Distributed data gathering and storage for use in a fault and performance monitoring system
US20050071842A1 (en) * 2003-08-04 2005-03-31 Totaletl, Inc. Method and system for managing data using parallel processing in a clustered network
KR20090039803A (ko) * 2003-09-15 2009-04-22 아브 이니티오 소프트웨어 엘엘시 데이터 프로파일링
JP4168281B2 (ja) * 2004-09-16 2008-10-22 日本電気株式会社 並列処理システム、インタコネクションネットワーク、ノード及びネットワーク制御プログラム
US8108878B1 (en) * 2004-12-08 2012-01-31 Cadence Design Systems, Inc. Method and apparatus for detecting indeterminate dependencies in a distributed computing environment
JP4611830B2 (ja) * 2005-07-22 2011-01-12 優 喜連川 データベース管理システム及び方法
US8327286B2 (en) * 2008-03-13 2012-12-04 Microsoft Corporation Unifying application launchers and switchers
US8869165B2 (en) * 2008-03-20 2014-10-21 International Business Machines Corporation Integrating flow orchestration and scheduling of jobs and data activities for a batch of workflows over multiple domains subject to constraints
US20110119680A1 (en) * 2009-11-16 2011-05-19 Yahoo! Inc. Policy-driven schema and system for managing data system pipelines in multi-tenant model
CA2793537A1 (en) * 2010-04-13 2011-10-20 Et International, Inc. Runspace method, system and apparatus
US20110276966A1 (en) * 2010-05-06 2011-11-10 Arm Limited Managing task dependency within a data processing system
US9367601B2 (en) 2012-03-26 2016-06-14 Duke University Cost-based optimization of configuration parameters and cluster sizing for hadoop
US9836711B2 (en) * 2012-05-17 2017-12-05 Hitachi, Ltd. Job execution system, job execution program, and job execution method
US9235446B2 (en) 2012-06-22 2016-01-12 Microsoft Technology Licensing, Llc Parallel computing execution plan optimization
US9413849B2 (en) * 2013-12-05 2016-08-09 International Business Machines Corporation Distributing an executable job load file to compute nodes in a parallel computer
US10372492B2 (en) * 2013-12-11 2019-08-06 Dropbox, Inc. Job-processing systems and methods with inferred dependencies between jobs
US10310903B2 (en) * 2014-01-17 2019-06-04 Red Hat, Inc. Resilient scheduling of broker jobs for asynchronous tasks in a multi-tenant platform-as-a-service (PaaS) system
AU2015247375B2 (en) * 2014-04-17 2020-03-26 Ab Initio Technology Llc Integrated monitoring and control of processing environment
US10705877B2 (en) * 2014-05-29 2020-07-07 Ab Initio Technology Llc Workload automation and data lineage analysis
US10122605B2 (en) 2014-07-09 2018-11-06 Cisco Technology, Inc Annotation of network activity through different phases of execution
GB2513779B (en) * 2014-08-14 2015-05-13 Imp Io Ltd A method and system for scalable job processing
WO2016090010A1 (en) * 2014-12-03 2016-06-09 Hakman Labs LLC Workflow definition, orchestration and enforcement via a collaborative interface according to a hierarchical checklist
US9684546B2 (en) * 2014-12-16 2017-06-20 Microsoft Technology Licensing, Llc Job scheduling and monitoring in a distributed computing environment
US9684689B2 (en) * 2015-02-03 2017-06-20 Ca, Inc. Distributed parallel processing system having jobs processed by nodes based on authentication using unique identification of data
US9430290B1 (en) * 2015-03-31 2016-08-30 International Business Machines Corporation Determining storage tiers for placement of data sets during execution of tasks in a workflow
US11429442B2 (en) * 2015-06-29 2022-08-30 Vmware, Inc. Parallel and distributed computing using multiple virtual machines
US20170249762A1 (en) * 2016-02-29 2017-08-31 Microsoft Technology Licensing, Llc Critical Path Detection in Job
US10037230B2 (en) * 2016-07-29 2018-07-31 Hewlett Packard Enterprise Development Lp Managing data processing resources
US20180123918A1 (en) * 2016-10-28 2018-05-03 Linkedin Corporation Automatically detecting latency bottlenecks in asynchronous workflows
US20180173776A1 (en) * 2016-12-21 2018-06-21 Sap Se Mapping 1:Many Relationships for Elements in a Database System
US10514993B2 (en) 2017-02-14 2019-12-24 Google Llc Analyzing large-scale data processing jobs

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130204948A1 (en) * 2012-02-07 2013-08-08 Cloudera, Inc. Centralized configuration and monitoring of a distributed computing cluster
US20150269006A1 (en) * 2014-03-18 2015-09-24 International Business Machines Corporation Bottleneck detection for performance management
CN106233259A (zh) * 2014-04-30 2016-12-14 国际商业机器公司 在分散存储网络中检索多世代存储数据
CN105511957A (zh) * 2014-09-25 2016-04-20 国际商业机器公司 用于生成作业告警的方法和系统

Also Published As

Publication number Publication date
WO2018151767A1 (en) 2018-08-23
EP3583503A1 (en) 2019-12-25
EP3798848A1 (en) 2021-03-31
EP4020218B1 (en) 2023-10-18
EP3798848B1 (en) 2022-04-06
EP4020218A1 (en) 2022-06-29
DE202017106569U1 (de) 2018-05-15
US20240020215A1 (en) 2024-01-18
US20180232295A1 (en) 2018-08-16
US20210064505A1 (en) 2021-03-04
US10860454B2 (en) 2020-12-08
EP3583503B1 (en) 2020-12-23
CN110537170B (zh) 2023-03-28
EP4276628A3 (en) 2024-01-24
EP4276628A2 (en) 2023-11-15
US10514993B2 (en) 2019-12-24
CN116089482A (zh) 2023-05-09
US20200117570A1 (en) 2020-04-16

Similar Documents

Publication Publication Date Title
CN110537170A (zh) 分析大规模数据处理作业
Arisholm et al. A systematic and comprehensive investigation of methods to build and evaluate fault prediction models
Wienand et al. Detecting incorrect numerical data in dbpedia
Tan et al. Visual, log-based causal tracing for performance debugging of mapreduce systems
US20160283304A1 (en) Performance prediction method, performance prediction system and program
CN111858254B (zh) 数据的处理方法、装置、计算设备和介质
Ostrowski et al. Diagnosing latency in multi-tier black-box services
Liu et al. Multi-task hierarchical classification for disk failure prediction in online service systems
Ouyang et al. Mitigating stragglers to avoid QoS violation for time-critical applications through dynamic server blacklisting
WO2019046996A1 (en) JAVA SOFTWARE LATENCY ANOMALY DETECTION
Gros et al. Mogym: Using formal models for training and verifying decision-making agents
Falcone On decentralized monitoring
CN101741624B (zh) 互联网组合服务性能容错系统
Allcock et al. Challenges of hpc monitoring
Tian et al. Analyzing and improving reliability: A tree-based approach
CN103782245A (zh) 技术系统的操控
Andrei et al. Data-driven modelling and probabilistic analysis of interactive software usage
Hofer et al. Grid application fault diagnosis using wrapper services and machine learning
JPWO2019012572A1 (ja) データリニエージ検出装置、データリニエージ検出方法、及びデータリニエージ検出プログラム
Jia et al. A predictive control approach for fault management of computing systems
US11182269B2 (en) Proactive change verification
JP2008269579A (ja) マルチタスク処理装置およびその方法
Rogal PreCog: a robust machine learning system to predict failure in a virtualized environment
Hofer et al. Grid application fault diagnosis using wrapper services and machine learning
Omoregbee et al. A State-Size Inclusive Approach to Optimizing Stream Processing Applications

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant