CN104462179A - 处理大数据的方法、执行其的装置以及储存其的存储媒介 - Google Patents

处理大数据的方法、执行其的装置以及储存其的存储媒介 Download PDF

Info

Publication number
CN104462179A
CN104462179A CN201410496053.7A CN201410496053A CN104462179A CN 104462179 A CN104462179 A CN 104462179A CN 201410496053 A CN201410496053 A CN 201410496053A CN 104462179 A CN104462179 A CN 104462179A
Authority
CN
China
Prior art keywords
icon
workflow
action
described multiple
mapping
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410496053.7A
Other languages
English (en)
Other versions
CN104462179B (zh
Inventor
李周烈
姜绚湘
金基道
吴石根
朴锺元
崔燉廷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LG N Sys Inc
LG CNS Co Ltd
Original Assignee
LG N Sys Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LG N Sys Inc filed Critical LG N Sys Inc
Publication of CN104462179A publication Critical patent/CN104462179A/zh
Application granted granted Critical
Publication of CN104462179B publication Critical patent/CN104462179B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/30Creation or generation of source code
    • G06F8/34Graphical or visual programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/04817Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance using icons
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0633Workflow analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Stored Programmes (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种处理大数据的方法,所述方法包括以下步骤:在调色板上布置多个动作图标和表示所述多个动作图标的非循环顺序的多个流程图标以产生工作流程;检查所述多个布置的动作图标和所述多个流程图标的语法,所述多个流程图标中的每个从属于相对应的动作图标;以及当发现特定图标的语法错误时,图形地产生表示特定图标的语法错误的报警标记。因此,所述方法和装置可以利用Hadoop有效地管理用于处理不规则大数据的工作流程。

Description

处理大数据的方法、执行其的装置以及储存其的存储媒介
相关申请的交叉引用
本申请要求2013年9月24日提交的申请号为10-2013-0113502的韩国专利申请的先前申请日的权益以及优先权,其全部内容通过引用合并于此。
技术领域
实施例可以涉及大数据处理技术,并且更具体地涉及利用Hadoop有效地管理用于处理不规则大数据的工作流程的处理大数据的方法、执行所述方法的装置、以及储存所述方法的存储媒介。
背景技术
大数据在数字环境中产生,并且对应于包括数值数据和字母、图像数据的大规模数据,且大数据的大小是庞大的。Hadoop是支持用于处理大数据的分配程序的基于java的平台。Hadoop包括HDFS(Hadoop分布式文件系统),并且分布式存储的数据经由映射-归约(map-reduce)并行处理。
韩国专利登记号10-1218087公开了一种Hadoop映射-归约中的用于二进制数据分析的输入格式提取方法和一种利用所述方法的用于二进制数据的分析方法。在所述二进制数据分析方法中,当在Hadoop环境下分配式处理具有固定长度的二进制数据时,可以在没有数据格式转换处理的情况下处理所述二进制数据,由此需要相对较小的存储空间,且可以缩短处理时间。
韩国专利公开号10-2012-0085400公开了一种利用基于Hadoop的并行算法的数据包分析系统以及能降低数据包处理成本的方法。所述数据包分析方法通过对多个服务器执行并行算法来执行数据包分析,使得所述数据包分析方法可以不需要高成本服务器并且降低处理成本。
发明内容
实施例可以提供一种能利用Hadoop有效地管理用于处理不规则大数据的工作流程的处理大数据的方法。
实施例可以提供一种能根据提供用于产生工作流程的元数据的语法错误来提供报警标记的处理大数据的方法。
实施例可以提供一种能通过从任务跟踪器受信于动作图标执行来提供映射-归约处理的完成时间的处理大数据的方法。
在至少一个实施例中,一种处理大数据的方法包括以下步骤:在调色板上布置多个动作图标和表示所述多个动作图标的非循环顺序的多个流程图标以产生工作流程;检查所述多个布置的动作图标和所述多个流程图标的语法,所述多个流程图标中的每个从属于相对应的动作图标;以及当发现特定图标的语法错误时,图形地产生表示特定图标的语法错误的报警标记。
在至少一个实施例中,布置所述多个动作图标和所述多个流程图标可以包括:当在一对动作图标之间布置特定的流程图标时,检查所述一对动作图标的顺序处理可用性。
布置所述多个动作图标和所述多个流程图标还可以包括:当在工作流程中选择特定图标时从图标窗口提供用于特定动作图标的元数据,以及储存用于元数据的顺序执行过程。布置所述多个动作图标和所述多个流程图标还可以包括:接收与用于特定动作图标的映射-归约操作相关的Hadoop设定参数。
布置所述多个动作图标和所述多个流程图标还可以包括:设定与用于特定动作图标的映射-归约工作相关的Hadoop分布式存储的输入-输出位置。
在至少一个实施例中,所述多个动作图标中的一部分可以分别包括大数据处理工作,而所述多个工作图标中的其他部分可以分别包括流程处理工作。
在至少一个实施例中,检查语法可以包括:检查用在所述多个布置的动作图标及其从属流程图标中的执行过程是否被定义和可用。
在至少一个实施例中,图形地产生报警标记还可以包括:确定特定图标的语法错误的类型以确定与所述语法错误的类型相对应的报警标记。
在至少一个实施例中,所述方法还可以包括根据针对特定图标弹出的图标窗口的移动速度来调节图标窗口的透明度。
在至少一个实施例中,所述方法还可以包括:通过工作流程工作环境中包括的工作监控菜单来提供用于产生的工作流程的处理工作信息。
所述方法还可以包括:通过工作流程工作环境下包括的文件元数据菜单来产生用于所述多个动作图标的工作流程。
所述方法还可以包括:检查在文件元数据菜单上定义的元数据是否改变,并且当检查出元数据的改变时通过工作流程工作环境中包括的元数据的影响分析屏幕来提供与改变的元数据相关的工作流程列表。
在至少一个实施例中,所述方法还可以包括:当完成对产生的工作流程的语法检查时将工作流程转换成工作流程定义文件,以及将工作流程定义文件储存在工作流程数据库中。
所述方法还可以包括将工作流程定义文件转换成执行代码并且分析执行代码以确定动作图标,以及将确定出的动作图标的执行代码传送至任务跟踪器以接收是否完成了对于确定出的动作图标的执行。
在至少一个实施例中,所述方法还可以包括:当完成对动作图标的映射-归约处理时,将相对应的映射-归约处理的结果储存在映射-归约数据库中。
在至少一个实施例中,一种处理大数据的装置包括:工作流程写入单元,其被配置成在调色板上布置多个动作图标和表示所述多个动作图标的非循环顺序的多个流程图标以产生工作流程;图标语法检查单元,其被配置成检查所述多个布置的动作图标和所述多个流程图标的语法,所述多个流程图标中的每个从属于相对应的动作图标;以及报警标记发生单元,其被配置成当发现特定图标的语法错误时图形地产生表示特定图标的语法错误的报警标记。
所述多个动作图标的一部分可以分别包括大数据处理工作,而所述多个动作图标的其他部分可以分别包括流程处理工作。
在至少一个实施例中,所述装置还可以包括:窗口透明度调节单元,其被配置成根据针对特定图标弹出的图标窗口的移动速度来调节图标窗口的透明度。
在至少一个实施例中,所述装置还可以包括:工作流程数据库储存单元,其被配置成当对于产生的工作流程的语法检查完成时将工作流程转换成工作流程定义文件,并且将工作流程定义文件储存在工作流程数据库中。
所述装置还可以包括:执行完成传送单元,其被配置成将工作流程定义文件转换成执行代码,分析执行代码以确定动作图标,以及将确定出的动作图标的执行代码传送至任务跟踪器以接收是否完成了对确定出的动作图标的执行。
所述装置还可以包括:映射-归约数据库储存单元,其被配置成当对于动作图标的映射-归约处理完成时将相对应的映射-归约处理的结果储存在映射-归约数据库中。
在至少一个实施例中,一种机器可读的非暂存媒介,其储存用于在装置中执行的处理大数据的方法的计算机程序,所述机器可读的非暂存媒介在其上储存有机器可执行的指令,所述指令用于:在调色板上布置多个动作图标和表示所述多个动作图标的非循环顺序的多个流程图标以产生工作流程;检查所述多个布置的动作图标和所述多个流程图标的语法,所述多个流程图标中的每个从属于相对应的动作图标;以及当发现特定图标的语法错误时图形地产生表示特定图标的语法错误的报警标记。
实施例可以利用Hadoop来有效地管理用于处理不规则大数据的工作流程。
实施例可以根据提供用于产生工作流程的元数据的语法错误来提供报警标记。
实施例可以通过从任务跟踪器受信于动作图标执行来提供映射-归约处理的完成时间。
附图说明
可以参照附图来详细地描述设置方式和实施例,附图中的相似附图标记表示相似元件,其中:
图1是大数据处理系统的框图;
图2是图1中的处理大数据的装置的映射-归约接口的框图;
图3是图1中的处理大数据的装置的工作流程引擎的框图;
图4是示出在图1中的处理大数据的装置上执行的处理大数据的过程的流程图;
图5是示出图1中的处理大数据的装置的工作流程设计屏幕的图;
图6是示出在图1中的处理大数据的装置的工作流程设计屏幕上执行的图标窗口的图;
图7是示出图1中的处理大数据的装置的工作监控菜单的图;
图8是示出图1中的处理大数据的装置的文件元数据菜单的图;以及
图9是示出图1中的处理大数据的装置的元数据的影响分析屏幕的图。
具体实施方式
本发明的说明仅是用于结构或功能说明的实施例,所以本发明的范围不应当被解释为限于实施例中说明的实施例。即,由于可以在不脱离实施例的特点的情况下用若干形式来实施实施例,所以还应当理解的是,描述的实施例不受在前描述的任何细节所限,除非另外说明,而是应该在所附权利要求中限定的范围内广义地解释。因此,落入权利要求范围内的各种变化和修改或此范围的等同形式应旨在包含在所附权利要求中。
在本公开中描述的术语可以被理解如下。
尽管可以利用诸如“第一”和“第二”等术语来描述各种部件,但是这些部件不可被理解为限于以上术语。以上术语用于区分一个部件与另一个部件。例如,在不脱离本发明的权利范围的情况下,第一部件可以被称作为第二部件,类似地,第二部件可以被称作为第一部件。
术语“和/或”应当被理解为包括可对一个或更多个相关项进行的全部组合。例如,术语“第一项、第二项、和/或第三项”的意思不仅是指第一项、第二项或第三项,还指可对第一项、第二项或第三项中的两个或更多个进行的所有组合项。
将理解的是,当一个元件被称为与另一个元件“连接”时,其可以是与另一个元件直接连接,或还可以存在中间元件。相反,当一个元件被称为与另一个元件“直接连接”时,不存在中间元件。另外,除非明确相反地描述,否则词语“包括”及其变型将被理解成表明包括所陈述的元素,但不排除任何其他元素。此外,描述部件之间关系的其他表达,诸如“在…之间”、“直接在…之间”或“与…相邻”、“与…直接相邻”也可以被类似地解释。
本公开中的单数形式“一个”和“所述”也旨在包括复数形式,除非上下文另有明确指示。还将理解的是,诸如“包括”或“具有”等术语旨在表示说明书中所公开的特征、数目、操作、动作、部件、部分或其组合的存在,而不旨在排除一个或更多个其他特征、数目、操作、动作、部件、部分或其组合可存在或可增加的可能性。
相应的步骤或操作中的标识字母(例如,a、b、c等)是用于解释,并非描述任何特定的顺序。相应的操作可以从所提及的顺序变化,除非在上下文中明确地提及。即,相应的步骤可以采用与所描述的相同的顺序来执行,可以大体上同时地执行,或可以采用相反的顺序来执行。
本发明可以被实施为机器可读媒介上的机器可读代码。机器可读媒介包括用于储存机器可读数据的任何类型的记录设备。机器可读记录媒介的实例包括:只读存储器(ROM)、随机存取存储器(RAM)、光盘只读存储器(CD-ROM)、磁带、软盘和光学数据存储器。所述媒介也可以是载波(例如,互联网传输)。计算机可读记录媒介可以分布在以分散式方式储存和执行机器可读代码的网络化机器系统之中。
本申请中使用的术语仅用于描述特定的实施例,并非旨在限制本发明。除非另有限定,否则本文中使用的所有术语、包括技术术语或科学术语,都具有与本发明所属技术领域的普通技术人员所通常理解的相同的含义。如在通用词典中定义的这些术语要被解释成具有与相关领域中的语境含义相同的含义,而不被解释成具有不切实际或过于正式的含义,除非在本申请中被清楚地定义。
图1是大数据处理系统的框图。
参见图1,大数据处理系统包括:大数据处理装置100、作业跟踪器200、任务跟踪器300以及Hadoop分布式文件系统400。
大数据处理装置100可以将动作图标和流程图标布置在画布(canvas)上,用于通过映射-归约接口110来处理大数据以产生工作流程,并且可以将产生的工作流程储存在Hadoop分布式文件系统400中。
在至少一个实施例中,大数据处理装置100可以将包括工作流程的映射-归约代码和至少一个输入-输出数据位置的JAR(Java存储服务器)文件输入至作业跟踪器200以请求工作流程的执行。
大数据处理装置100可以自动地从作业跟踪器200中接收数据处理进展状态。这里,大数据处理装置100可以将工作流程的引起完成执行的映射-归约处理的结果储存在Hadoop分布式文件系统400中。
作业跟踪器200可以从大数据处理装置100中接收包括工作流程的映射-归约代码和所述至少一个输入-输出数据位置的JAR(Java存储服务器)文件以分成小的单位并且分配至至少一个任务跟踪器300。
任务跟踪器300可以基于从作业跟踪器200中接收的工作流程的信息来并行地处理映射-归约。这里,任务跟踪器300可以在预定时间报告作业跟踪器200的数据处理进展状态。
Hadoop分布式文件系统400可以将引起完成执行的映射-归约处理的结果储存在作业跟踪器200中。
图2是图1中的处理大数据的装置的映射-归约接口的框图。
参见图2,映射-归约接口110包括:工作流程发生单元111、图标语法检查单元112、报警标记发生单元113、窗口透明度调节单元114以及映射-归约控制单元115。
工作流程发生单元111在调色板(palette)上布置多个动作图标和表示所述多个动作图标的非循环顺序的多个流程图标上以产生工作流程。
在至少一个实施例中,在图5中,工作流程发生单元111可以通过调色板520(“Palette”)中的工作流程屏幕510(“Workflow”)在画布550上布置所述多个动作图标中的分别包括流程处理工作(这里,流程处理工作可以对应于从大数据处理装置提供的、与Hadoop不相关的操作)的第一动作图标521和分别包括大数据处理工作(这里,大数据处理工作可以对应于基于Hadoop的操作)的第二动作图标522。
在至少一个实施例中,当在一对动作图标之间布置特定的流程图标时,工作流程发生单元111可以检查这对动作图标的顺序处理可用性。例如,在图5中,当在Start动作图标521-1和HDFSOutput动作图标522-5之间布置流程图标530时,工作流程发生单元111可以拒绝Start动作图标521-1和HDFSOutput动作图标522-5之间的顺序处理可用性。这里,由于仅在HDFSInput动作图标522-1出现在HDFSOutput动作图标522-5之前时工作流程发生单元111才可顺序地处理工作流程,因此在没有HDFSInput动作图标522-1的情况下,工作流程发生单元111可拒绝Start动作图标521-1和HDFSOutput动作图标522-5之间的顺序处理可用性。
在至少另一个实施例中,当布置用于特定动作图标的流程图标时,工作流程发生单元111可以检查用于特定动作图标的流程图标的数目。例如,在图5中,工作流程发生单元111可以检查用于第一动作图标521中所包括的Decision动作图标521-3的流程图标530的数目。当所述流程图标530的数目为2时,工作流程发生单元111可以确定顺序处理是可能的,而当所述流程图标530的数目不为2时,工作流程发生单元111可以确定顺序处理是不可能的。
当选择工作流程中的特定动作图标时,工作流程发生单元111可以在图标窗口中设定用于特定动作图标的元数据。这里,处理大数据可以参考所设定的元数据。
在至少一个实施例中,当选择特定动作图标时,工作流程发生单元111可以接收针对在图标窗口提供的输入元数据的输出元数据的信息。例如,在图6a中,当选择Aggregate动作图标时,工作流程发生单元111可以在用于设定Aggregate动作图标的映射-归约输入参数的图标窗口的Aggregate标签处提供输入元数据611以接收用于输出元数据612的操作、表达和执行顺序。
工作流程发生单元111可以接收与用于特定动作图标的映射-归约操作相关的Hadoop设定参数。例如,在图6b中,当选择Aggregate动作图标时,工作流程发生单元111可以从图标窗口的Hadoop Configuration标签620中接收用于设定映射-归约工作的操作模式的键621(“Key”)和值(“Value”)。这里,键621可以使用在Hadoop上定义的名称。
工作流程发生单元111可以设定与用于特定动作图标的映射-归约工作相关的Hadoop分布式存储的输入-输出位置。例如,在图6c中,当选择Aggregate动作图标时,工作流程发生单元111可以在图标窗口的In/Out标签630接收特定动作图标的名称(例如,“Expression”)和Hadoop分布式存储的输入位置以被接收作为用于设定映射-归约工作的输入-输出目录的输入信息631,并且可以接收Hadoop分布式存储的输出位置作为输出信息632。
图标语法检查单元112检查所述多个布置的动作图标和所述多个流程图标的语法,所述多个流程图标中的每个从属于相对应的动作图标。
在至少一个实施例中,图标语法检查单元112可以检查在所述多个布置的动作图标及其从属流程图标中使用的执行过程是否被定义或可用。例如,执行过程可以对应于图6a中的输出元数据612,并且执行过程是否可用可以检查要确定的图6a中的用于输出元数据612的操作和表达。
当发现特定图标的语法错误时,报警标记发生单元113图形地产生表示特定图标的语法错误的报警标记。
在至少一个实施例中,报警标记发生单元113可以确定特定图标的语法错误的类型,并且确定与语法错误的类型相对应的报警标记。例如,在图5中,当发现输入至Aggregate动作图标522-3中的语法错误时(例如,语法错误可以对应于至少一个打字错误和不包括手工方式的值),报警标记发生单元113可以在Aggregate动作图标522-3的右下侧产生报警标记540-1,以及当未在Relocate动作图标522-4的语法输入项输入语法时,报警标记发生单元113可以在Relocate动作图标522-3的右下侧产生报警540-2。
当发现语法错误时,报警标记发生单元113可以图形地产生与特定图标的图标参考颜色不同的颜色,用于表示特定图标的语法错误。例如,当发现语法错误时(例如,语法错误可以对应于至少一个打字错误和不包括手工方式的值),报警标记发生单元113可以产生与特定图标的图标参考颜色(例如,白色)不同的橙色,以及当未在特定图标输入语法时,报警标记发生单元113可以产生与特定图标的图标参考颜色(例如,白色)不同的红色。
窗口透明度调节单元114根据针对特定图标弹出的图标窗口的移动速度来调节图标窗口的透明度。
在至少一个实施例中,当针对特定图标弹出的图标窗口的移动速度慢时,窗口透明度调节单元114可以增加图标窗口的透明度。这里,窗口透明度调节单元114可以增加图标窗口的透明度,使得可以看到位于图标窗口之后的动作图标和流程图标。
在至少另一个实施例中,当针对特定图标弹出的图标窗口的移动速度快时,窗口透明度调节单元114可以降低图标窗口的透明度。
映射-归约控制单元115可以控制映射-归约接口110的整体操作,并且可以控制工作流程发生单元111、图标语法检查单元112、报警标记发生单元113和窗口透明度调节单元114的控制流或数据流。
图3是图1中的处理大数据的装置的工作流程引擎的框图。
参见图3,工作流程引擎120包括:工作流程数据库储存单元121、执行完成传送单元122、映射-归约数据库储存单元123和引擎控制单元124。
当在映射-归约接口110上产生对工作流程的语法检查时,工作流程数据库储存单元121储存工作流程。
在至少另一个实施例中,当在映射-归约接口110完成对工作流程的语法检查和语法修改时,工作流程数据库储存单元121可以将工作流程定义文件以及用于工作流程的名称、产生日期或者路径储存为表格。
执行完成传送单元122分析产生的工作流程以确定动作图标,将确定的动作图标的映射-归约传送至作业跟踪器,以及接收是否完成了对确定的动作图标的执行。
当完成对特定动作图标的映射-归约处理时,映射-归约数据库储存单元123储存相对应的映射-归约处理的结果的元数据。
引擎控制单元124控制工作流程引擎120的整体操作,并且可以控制工作流程数据库储存单元121、执行完成传送单元122和映射-归约数据库储存单元123的控制流或数据流。
图4是示出在图1中的处理大数据的装置上执行的处理大数据的过程的流程图。
参见图4,工作流程发生单元111在调色板上布置多个动作图标和表示所述多个动作图标的非循环顺序的多个流程图标以产生工作流程(步骤S401)。
在至少一个实施例中,在图5中,工作流程发生单元111可以在调色板520中将所述多个动作图标中的分别包括流程处理工作的第一动作图标521和分别包括大数据处理工作的第二动作图标522布置在画布550上。例如,在图5中,工作流程发生单元111可以将第一动作图标521中包括的Start动作图标521-1和End动作图标521-2布置在画布550上以设定工作流程的开始和结束。工作流程发生单元111可以在设置于画布550上的Start动作图标521-1与End动作图标521-2之间顺序地将HDFSInput动作图标522-1、Expression动作图标522-2、Aggregate动作图标522-3、Decision动作图标521-3、Relocate动作图标522-4以及HDFSOutput动作图标522-5布置在画布550上,以经由非循环流程图标530来将第一动作图标和第二动作图标521-1、522-2、522-3、521-3、522-4、522-5和521-1连接。
在至少一个实施例中,当选择工作流程中的特定动作图标时,工作流程发生单元111可以在图标窗口提供用于特定动作图标的元数据以储存用于所述元数据的顺序执行过程。
在至少另一个实施例中,工作流程发生单元111可以接收与用于特定动作图标的映射-归约工作相关的Hadoop设定参数。
在至少另一个实施例中,工作流程发生单元111可以设定与用于特定动作图标的映射-归约工作相关的Hadoop分布式存储的输入-输出位置。
图标语法检查单元112检查所述多个布置的动作图标和所述多个流程图标的语法,所述多个流程图标中的每个从属于相应的动作图标(步骤S402)。
当发现特定图标的语法错误时,报警标记发生单元113产生表示特定图标的语法错误的报警标记(步骤S403和S404)。
图标语法检查单元112在修改完成时检查是否在特定图标上产生针对语法错误的修改以将完成信息传送至工作流程数据库储存单元121,而在修改未完成时在报警标记发生单元113上连续地产生报警标记(步骤S404和S405)。
工作流程数据库储存单元121在对映射-归约接口110中产生的工作流程的语法检查完成时将相对应的工作流程转换成工作流程定义文件以将工作流程定义文件储存在数据库中(步骤S406和S407)。
引擎控制单元124将在工作流程数据库储存单元121中接收的工作流程定义文件转换成执行代码(步骤S408)。
执行完成传送单元122分析执行代码以确定动作图标并且将确定的动作图标传送至作业跟踪器,以接收是否完成动作图标的执行(步骤S409和S410)。
当完成对特定动作图标的映射-归约处理时,映射-归约数据库储存单元123储存相对应的映射-归约处理的结果的元数据(步骤S411和S412)。
此外,大数据处理装置100可以为经由工作流程工作环境中包括的工作监控菜单产生的工作流程提供处理工作信息。例如,在图7中,大数据处理装置100可以为经由工作监控菜单710(“Monitoring”)产生的工作流程提供ID、状态(例如,SUCCEEDED/KILLED)、开始时间、结束时间、产生时间、或者最新变化时间中的至少一个。
大数据处理装置100可以在工作流程工作环境中包括的文件元数据菜单中定义用于产生所述多个动作图标的工作流程的元数据。例如,在图8中,大数据处理装置100可以经由文件元数据菜单820(“File Metadata”)定义由动作图标处理的大数据的元数据的属性值(例如,列英文名称、区别类型或者是否包括主键)。
大数据处理装置100可以检查在文件元数据菜单上定义的元数据是否改变,以在元数据改变时提供与经由用于元数据的影响分析屏幕而改变的元数据相关的工作流程列表。例如,在图9中,当元数据改变时,大数据处理装置100可以为包括经由用于元数据的影响分析屏幕而改变的元数据的工作流程提供名称、路径、输入元数据911或输出元数据912中的至少一个。
尽管本文件提供了本发明的优选实施例的描述,但本领域的技术人员将理解的是,在不脱离所附权利要求限定的技术原理和范围的情况下,可以采用各种方式来修改或改变本发明。
附图标记描述:
100:大数据处理装置
110:映射-归约接口
111:工作流程发生单元
112:图标语法检查单元
113:报警标记发生单元
114:窗口透明度调节单元
115:映射-归约控制单元
120:工作流程引擎
121:工作流程数据库储存单元
122:执行完成传送单元
123:映射-归约数据库储存单元
124:引擎控制单元
200:作业跟踪器
300:任务跟踪器
400:Hadoop分布式文件系统

Claims (22)

1.一种处理大数据的方法,所述方法包括:
在调色板上布置多个动作图标和表示所述多个动作图标的非循环顺序的多个流程图标以产生工作流程;
检查所述多个布置的动作图标和所述多个流程图标的语法,所述多个流程图标中的每个从属于相对应的动作图标;以及
当发现特定图标的语法错误时,图形地产生表示所述特定图标的语法错误的报警标记。
2.如权利要求1所述的方法,其中,布置所述多个动作图标和所述多个流程图标包括:当在一对动作图标之间布置特定流程图标时,检查所述一对动作图标的顺序处理可用性。
3.如权利要求1所述的方法,其中,布置所述多个动作图标和所述多个流程图标还包括:
当选择所述工作流程中的特定动作图标时,从图标窗口提供用于所述特定动作图标的元数据;以及
储存用于所述元数据的顺序执行过程。
4.如权利要求3所述的方法,其中,布置所述多个动作图标和所述多个流程图标还包括:接收与用于所述特定动作图标的映射-归约操作相关的Hadoop设定参数。
5.如权利要求4所述的方法,其中,布置所述多个动作图标和所述多个流程图标还包括:设定与用于所述特定动作图标的映射-归约工作相关的Hadoop分布式存储的输入-输出位置。
6.如权利要求1所述的方法,其中,所述多个动作图标中的一部分分别包括大数据处理工作,而所述多个动作图标中的其他部分分别包括流程处理工作。
7.如权利要求1所述的方法,其中,检查所述语法包括:检查用在所述多个布置的动作图标及其从属流程图标中的执行过程是否被定义或可用。
8.如权利要求1所述的方法,其中,图形地产生所述报警标记还包括:确定所述特定图标的语法错误的类型,以确定与所述语法错误的类型相对应的所述报警标记。
9.如权利要求1所述的方法,还包括:
根据针对所述特定图标弹出的图标窗口的移动速度来调节所述图标窗口的透明度。
10.如权利要求1所述的方法,还包括:
经由工作流程工作环境中包括的工作监控菜单来提供用于产生的工作流程的处理工作信息。
11.如权利要求1所述的方法,还包括:
经由工作流程工作环境中包括的文件元数据菜单来定义用于产生所述多个动作图标的工作流程的元数据。
12.如权利要求11所述的方法,还包括:
检查在所述文件元数据菜单中定义的所述元数据是否改变;以及
当检查出所述元数据的改变时,经由所述工作流程工作环境中包括的所述元数据的影响分析屏幕来提供与改变的元数据相关的工作流程列表。
13.如权利要求1所述的方法,还包括:
当完成对产生的工作流程的语法检查时将所述工作流程转换成工作流程定义文件,以及将所述工作流程定义文件储存在工作流程数据库中。
14.如权利要求13所述的方法,还包括:
将所述工作流程定义文件转换成执行代码,并且分析所述执行代码以确定动作图标;以及
将用于确定出的动作图标的执行代码传送至作业跟踪器以接收是否完成了所述确定出的动作图标的执行。
15.如权利要求14所述的方法,还包括:
当完成对所述动作图标的映射-归约处理时,将相对应的映射-归约处理的结果储存在映射-归约数据库中。
16.一种处理大数据的装置,所述装置包括:
工作流程写入单元,其被配置成在调色板上布置多个动作图标和表示所述多个动作图标的非循环顺序的多个流程图标以产生工作流程;
图标语法检查单元,其被配置成检查所述多个布置的动作图标和所述多个流程图标的语法,所述多个流程图标中的每个从属于相对应的动作图标;以及
报警标记发生单元,其被配置成当发现特定图标的语法错误时,图形地产生表示所述特定图标的语法错误的报警标记。
17.如权利要求16所述的装置,其中,所述多个动作图标中的一部分分别包括大数据处理工作,而所述多个动作图标中的其他部分分别包括流程处理工作。
18.如权利要求16所述的装置,还包括:
窗口透明度调节单元,其被配置成根据针对所述特定图标弹出的图标窗口的移动速度来调节所述图标窗口的透明度。
19.如权利要求16所述的装置,还包括:
工作流程数据库储存单元,其被配置成当对于产生的工作流程的语法检查完成时将所述工作流程转换成工作流程定义文件,并且将所述工作流程定义文件储存在工作流程数据库中。
20.如权利要求19所述的装置,还包括:
执行完成传送单元,其被配置成将所述工作流程定义文件转换成执行代码,分析所述执行代码以确定动作图标,以及将用于确定出的动作图标的执行代码传送至作业跟踪器以接收是否完成了对所述确定出的动作图标的执行。
21.如权利要求20所述的装置,还包括:
映射-归约数据库储存单元,其被配置成当对于所述动作图标的映射-归约处理完成时,将相对应的映射-归约处理的结果储存在映射-归约数据库中。
22.一种机器可读的非暂存媒介,其储存用于在处理大数据的装置中执行的处理大数据的方法的计算机程序,所述机器可读的非暂存媒介在其上储存有机器可执行的指令,所述指令用于:
在调色板上布置多个动作图标和表示所述多个动作图标的非循环顺序的多个流程图标以产生工作流程;
检查所述多个布置的动作图标和所述多个流程图标的语法错误,所述多个流程图标中的每个从属于相对应的动作图标;以及
当发现所述特定图标的语法错误时,图形地产生表示所述特定图标的语法错误的报警标记。
CN201410496053.7A 2013-09-24 2014-09-24 处理大数据的方法、执行其的装置以及储存其的存储媒介 Active CN104462179B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2013-0113502 2013-09-24
KR20130113502A KR20150033453A (ko) 2013-09-24 2013-09-24 빅데이터 처리 방법, 이를 수행하는 빅데이터 처리 장치 및 이를 저장하는 기록매체

Publications (2)

Publication Number Publication Date
CN104462179A true CN104462179A (zh) 2015-03-25
CN104462179B CN104462179B (zh) 2020-08-18

Family

ID=52692192

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410496053.7A Active CN104462179B (zh) 2013-09-24 2014-09-24 处理大数据的方法、执行其的装置以及储存其的存储媒介

Country Status (3)

Country Link
US (1) US10175954B2 (zh)
KR (1) KR20150033453A (zh)
CN (1) CN104462179B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019114636A1 (zh) * 2017-12-12 2019-06-20 上海葡萄纬度科技有限公司 编程玩具的反向编程的方法及系统、设备、介质
CN116308141A (zh) * 2023-02-28 2023-06-23 华能信息技术有限公司 一种动态流程模型列表生成方法及系统

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101678480B1 (ko) 2015-07-08 2016-11-22 주식회사 유비콤테크놀로지 R 언어 기반 빅데이터 처리용 fpga 시스템 및 방법
US9961068B2 (en) 2015-07-21 2018-05-01 Bank Of America Corporation Single sign-on for interconnected computer systems
KR20180080924A (ko) * 2017-01-05 2018-07-13 주식회사 엑셈 빅 데이터 처리 서버의 데이터 처리 결과를 모니터링 하기 위한 장치 및 방법
CN108134697B (zh) * 2017-12-21 2021-01-19 四川管理职业学院 一种Hadoop架构云平台风险评估与预警方法
US11275485B2 (en) * 2018-06-15 2022-03-15 Sap Se Data processing pipeline engine
US11790224B2 (en) * 2018-10-20 2023-10-17 Oracle International Corporation Machine learning from the integration flow metadata
CN113590106B (zh) * 2021-06-25 2022-04-08 许继电气股份有限公司 工业控制图形化编程环境运行态数据监测系统及方法
US20240020282A1 (en) * 2022-07-15 2024-01-18 Microsoft Technology Licensing, Llc Systems and methods for large-scale data processing

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6243092B1 (en) * 1997-12-02 2001-06-05 Aspect Communications Transaction flow editing tool
JP2004303115A (ja) * 2003-04-01 2004-10-28 Hitachi Ltd ワークフローシステム構築方法
CN102193831A (zh) * 2010-03-12 2011-09-21 复旦大学 一种建立层次化的映射/归约并行编程模型的方法
US20120226639A1 (en) * 2011-03-01 2012-09-06 International Business Machines Corporation Systems and Methods for Processing Machine Learning Algorithms in a MapReduce Environment

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040088208A1 (en) * 2002-10-30 2004-05-06 H. Runge Bernhard M. Creating and monitoring automated interaction sequences using a graphical user interface
US20060092467A1 (en) * 2004-09-01 2006-05-04 Dumitrescu Tiberiu A Print job workflow system
US7464366B2 (en) * 2004-10-01 2008-12-09 Microsoft Corporation Programming interface for a componentized and extensible workflow model
WO2006110485A2 (en) * 2005-04-07 2006-10-19 Insightful Corporation Method and system for handling large data sets in a statistical language
US8429630B2 (en) * 2005-09-15 2013-04-23 Ca, Inc. Globally distributed utility computing cloud
US20070101287A1 (en) * 2005-11-03 2007-05-03 International Business Machines Corporation Pop-up windows in a computer system
US10997531B2 (en) * 2007-09-11 2021-05-04 Ciambella Ltd. System, method and graphical user interface for workflow generation, deployment and/or execution
US8555265B2 (en) * 2010-05-04 2013-10-08 Google Inc. Parallel processing of data
US10176444B2 (en) * 2010-05-28 2019-01-08 International Business Machines Corporation Computer-implemented method, computer program product and system for analyzing a control-flow in a business process model
US8621421B2 (en) * 2010-06-10 2013-12-31 Microsoft Corporation Workflow visualization
KR20120085400A (ko) 2011-01-24 2012-08-01 충남대학교산학협력단 하둡 기반 병렬 연산에 의한 패킷분석 시스템 및 방법
KR101218087B1 (ko) 2011-01-19 2013-01-09 충남대학교산학협력단 하둡 맵리듀스에서 바이너리 형태의 데이터 분석을 위한 입력포맷 추출방법 및 이를 이용한 바이너리 데이터의 분석방법
US9086923B2 (en) * 2011-09-16 2015-07-21 Rutgers, The State University Of New Jersey Autonomic workflow management in dynamically federated, hybrid cloud infrastructures
US9361323B2 (en) * 2011-10-04 2016-06-07 International Business Machines Corporation Declarative specification of data integration workflows for execution on parallel processing platforms
US9172608B2 (en) * 2012-02-07 2015-10-27 Cloudera, Inc. Centralized configuration and monitoring of a distributed computing cluster
US8856291B2 (en) * 2012-02-14 2014-10-07 Amazon Technologies, Inc. Providing configurable workflow capabilities
US9367601B2 (en) * 2012-03-26 2016-06-14 Duke University Cost-based optimization of configuration parameters and cluster sizing for hadoop
US9558351B2 (en) * 2012-05-22 2017-01-31 Xockets, Inc. Processing structured and unstructured data using offload processors
WO2014004741A1 (en) * 2012-06-26 2014-01-03 Medio Systems, Inc. Distributed, real-time online analytical processing (olap)
US9201638B2 (en) * 2012-08-07 2015-12-01 Nec Laboratories America, Inc. Compiler-guided software accelerator for iterative HADOOP® jobs
US20140047342A1 (en) * 2012-08-07 2014-02-13 Advanced Micro Devices, Inc. System and method for allocating a cluster of nodes for a cloud computing system based on hardware characteristics
US9047181B2 (en) * 2012-09-07 2015-06-02 Splunk Inc. Visualization of data from clusters
US9471651B2 (en) * 2012-10-08 2016-10-18 Hewlett Packard Enterprise Development Lp Adjustment of map reduce execution
US20140173618A1 (en) * 2012-10-14 2014-06-19 Xplenty Ltd. System and method for management of big data sets
US9607067B2 (en) * 2013-01-25 2017-03-28 International Business Machines Corporation Synchronization of time between different simulation models
US9152469B2 (en) * 2013-01-28 2015-10-06 Hewlett-Packard Development Company, L.P. Optimizing execution and resource usage in large scale computing
IN2013CH01044A (zh) * 2013-03-12 2015-08-14 Yahoo Inc
US9256460B2 (en) * 2013-03-15 2016-02-09 International Business Machines Corporation Selective checkpointing of links in a data flow based on a set of predefined criteria
US9336288B2 (en) * 2013-06-03 2016-05-10 Bank Of America Corporation Workflow controller compatibility

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6243092B1 (en) * 1997-12-02 2001-06-05 Aspect Communications Transaction flow editing tool
JP2004303115A (ja) * 2003-04-01 2004-10-28 Hitachi Ltd ワークフローシステム構築方法
CN102193831A (zh) * 2010-03-12 2011-09-21 复旦大学 一种建立层次化的映射/归约并行编程模型的方法
US20120226639A1 (en) * 2011-03-01 2012-09-06 International Business Machines Corporation Systems and Methods for Processing Machine Learning Algorithms in a MapReduce Environment

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
席永涛等: "面向Hadoop平台的工作流建模与实施", 《电脑知识与技术》 *
易小华等: "面向MapReduce的数据处理流程开发方法", 《计算机科学与探索》 *
赵曦: "一种基于云计算架构的业务流程优化研究", 《微电子学与计算机》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019114636A1 (zh) * 2017-12-12 2019-06-20 上海葡萄纬度科技有限公司 编程玩具的反向编程的方法及系统、设备、介质
CN116308141A (zh) * 2023-02-28 2023-06-23 华能信息技术有限公司 一种动态流程模型列表生成方法及系统

Also Published As

Publication number Publication date
CN104462179B (zh) 2020-08-18
US20150089415A1 (en) 2015-03-26
KR20150033453A (ko) 2015-04-01
US10175954B2 (en) 2019-01-08

Similar Documents

Publication Publication Date Title
CN104462179A (zh) 处理大数据的方法、执行其的装置以及储存其的存储媒介
US20210318851A1 (en) Systems and Methods for Dataset Merging using Flow Structures
Bangsow Manufacturing simulation with plant simulation and simtalk: usage and programming with examples and solutions
US8570326B2 (en) Rule based visualization mechanism
CN109117141B (zh) 简化编程的方法、装置、电子设备、计算机可读存储介质
CN107463356A (zh) 任务流程的执行方法和装置
Mourtzis et al. Recycling and retrofitting for industrial equipment based on augmented reality
US20130014082A1 (en) Method of configuring business logic supporting multi-tenancy
CN110249312A (zh) 数据集成作业转换
US20090164432A1 (en) System and method for generating a product report
CN104915390A (zh) 一种etl数据血统查询系统及查询方法
CN113672692B (zh) 数据处理方法、装置、计算机设备和存储介质
CN107464083A (zh) 一种物料清单的生成方法、装置及设备
Meier et al. A process model for systematically setting up the data basis for data-driven projects in manufacturing
CN103186384A (zh) 一种面向业务组件的软件设计分析系统及其使用方法
KR20200023882A (ko) 스마트 공장의 공정 데이터의 가공방법
Schuh et al. Module-based release management for technical changes
CN102521397B (zh) 一种数据传输方法
Hoos et al. Context-aware decision information packages: an approach to human-centric smart factories
CN109117431A (zh) 用于将来自源应用的源数据合并至目标应用的目标数据的系统和方法
US8060488B2 (en) System and method for classifying and defining relationships between product information data
RU2012122603A (ru) Способ слияния данных и обеспечения информации в компьютерной системе
Raţiu et al. Taming cross-tool traceability in the wild
Ribeiro et al. Improving productive processes using a process mining approach
Mehdi et al. A simulator testbed for MT-Connect based machines in a scalable and federated multi-enterprise environment

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant