CN106502720B - 一种数据处理方法和装置 - Google Patents

一种数据处理方法和装置 Download PDF

Info

Publication number
CN106502720B
CN106502720B CN201610851705.3A CN201610851705A CN106502720B CN 106502720 B CN106502720 B CN 106502720B CN 201610851705 A CN201610851705 A CN 201610851705A CN 106502720 B CN106502720 B CN 106502720B
Authority
CN
China
Prior art keywords
component
data processing
action type
big data
execution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610851705.3A
Other languages
English (en)
Other versions
CN106502720A (zh
Inventor
郭昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Haier Uplus Intelligent Technology Beijing Co Ltd
Original Assignee
Haier Uplus Intelligent Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Haier Uplus Intelligent Technology Beijing Co Ltd filed Critical Haier Uplus Intelligent Technology Beijing Co Ltd
Priority to CN201610851705.3A priority Critical patent/CN106502720B/zh
Publication of CN106502720A publication Critical patent/CN106502720A/zh
Application granted granted Critical
Publication of CN106502720B publication Critical patent/CN106502720B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/445Program loading or initiating
    • G06F9/44505Configuring for program initiating, e.g. using registry, configuration files

Abstract

本发明公开了一种数据处理方法和装置,此方法包括:设置用于描述大数据处理的各个环节的操作类型,设置各操作类型对应的组件;接收用户选定的操作类型、操作类型的执行顺序、各操作类型对应的组件、组件执行顺序和各组件的参数;构建配置文件;根据配置文选取用户选定的各操作类型对应的组件,根据各组件的参数装配组件,并将装配后的组件按照组件执行顺序组成相应操作类型的执行模块,按照操作类型的执行顺序设置各执行模块的执行顺序生成并执行大数据处理程序体。本发明可以根据不同用户的处理需要将预设的组件进行组合提供不同用户处理所需的程序体,可以节省编写相关组件的程序的步骤,极大地提高数据分析、处理的效率。

Description

一种数据处理方法和装置
技术领域
本发明涉及数据处理领域,尤其涉及一种数据处理方法和装置。
背景技术
目前,在进行大数据分析时,借助开源项目Hadoop搭建的数据存储及分析平台,用来存储设备及用户数据,每天接收并存储数据八亿六千万条,已经平稳运行三年多,积累大量数据。在设备上报数据的描述文件时,描述设备上报的数据项及含义,不同设备使用多组不同编码描述设备数据项。大数据平台存储的数据来源于近百种不同的设备(ID文档不同)。在进行数据处理时,大数据平台使用Hadoop系统的分布式数据处理接口编写数据分析及处理任务,编写好的任务需要提交至大数据平台,并分发到多组服务器上进行处理,环境多,过程复杂。
大数据平台积累的大量数据,属于原始数据,由于数据量巨大、数据混杂,无法有效使用。数据分析师根据分析制定数据清洗规则(包括过滤、去重、分组、合并等等),制定不同分类多组规则(不同ID文档不同规则、不同数据使用角度不同规则)。大数据平台人员根据这些规则,编写程序完成数据的清洗,并保存到不同的结果数据集(数据仓库)。数据分析师每制定一份规则,均需要由开发人员编写复合大数据平台数据计算分析接口的程序,进行数据分析、处理或转换;复合该接口的程序编制复杂、调试困难,导致产出率低、出错率高。
因此,以数据清洗为例,现有技术中的大数据处理存在下述问题:(1)对应每个数据的清洗规则,均需编写一个数据处理任务的程序,以完成该规则的数据清洗;(2)对于大数据分布式的存储系统,没有通用的数据清洗工具;(3)数据分析的需求变化快,数据种类繁多(仅ID文档就有近百份),程序编写困难,工作量大,效率不高;(4)数据分析任务程序编写复杂,过程环节多。
发明内容
为了解决现有技术中大数据处理存在的问题,本发明提供了一种数据处理方法和装置。
本发明提供了一种数据处理方法,所述方法包括:
设置用于描述大数据处理的各个环节的操作类型,设置各操作类型对应的组件;
获知用户需执行大数据处理后,接收用户选定的操作类型、操作类型的执行顺序、各操作类型对应的组件、组件执行顺序和各组件的参数;
根据所述用户选定的操作类型、各操作类型的执行顺序、各操作类型对应的组件及组件执行顺序和各组件的参数构建配置文件;
加载所述配置文件,根据所述配置文选取所述用户选定的各操作类型对应的组件,根据各组件的参数装配组件,并将装配后的组件按照所述组件执行顺序组成相应操作类型的执行模块,按照所述操作类型的执行顺序设置各执行模块的执行顺序生成大数据处理程序体;
将所述大数据处理程序体发送至少一个服务器并指示所述服务器执行所述大数据处理程序体。
上述数据处理方法还具有以下特点:
所述设置各操作类型对应的组件包括:操作类型具有多种实现方式时,设置此操作类型所对应的组件包括各种实现方式下的组件。
上述数据处理方法还具有以下特点:
所述组件的参数包括组件的初始化参数值和组件的数据处理规则;
所述根据各组件的参数装配组件包括:根据所述组件的初始化参数值对所述组件的参数进行初始化设置,根据所述数据处理规则设置所述组件的数据处理方式。
上述数据处理方法还具有以下特点:
所述方法还包括:获知用户需执行大数据处理后,接收用户选定的服务器的数量;所述配置文件中包括所述服务器的数量;
所述按照所述操作类型的执行顺序设置各执行模块的执行顺序生成大数据处理程序体和执行所述大数据处理程序体包括:程序主体按照所述操作类型的执行顺序设置各执行模块的执行顺序生成大数据处理程序体后,根据所述配置文件中所述服务器的数量,确定相应数量的服务器,向各服务器发送所述大数据处理程序体并指示所述服务器执行所述大数据处理程序体。
上述数据处理方法还具有以下特点:
所述大数据处理是大数据清洗;所述操作类型包括以下的至少一种:关键字映射、字段赋值、取值、数据格式化、记录归并、计算器、结果记录拆分。
本发明还提供了一种数据处理装置,包括:
设置模块,用于设置用于描述大数据处理的各个环节的操作类型,设置各操作类型对应的组件;
交互模块,用于获知用户需执行大数据处理后,接收用户选定的操作类型、操作类型的执行顺序、各操作类型对应的组件、组件执行顺序和各组件的参数;
配置文件构建模块,用于根据所述用户选定的操作类型、各操作类型的执行顺序、各操作类型对应的组件及组件执行顺序和各组件的参数构建配置文件;
处理模块,用于加载所述配置文件,根据所述配置文选取所述用户选定的各操作类型对应的组件,根据各组件的参数装配组件,并将装配后的组件按照所述组件执行顺序组成相应操作类型的执行模块,按照所述操作类型的执行顺序设置各执行模块的执行顺序生成大数据处理程序体;
分发模块,用于将所述大数据处理程序体发送至少一个服务器并指示所述服务器执行所述大数据处理程序体。
上述数据处理装置还具有以下特点:
所述设置模块,还用于在操作类型具有多种实现方式时,设置此操作类型所对应的组件包括各种实现方式下的组件。
上述数据处理装置还具有以下特点:
所述组件的参数包括组件的初始化参数值和组件的数据处理规则;
所述处理模块,还用于根据以下方式执行根据各组件的参数装配组件:根据所述组件的初始化参数值对所述组件的参数进行初始化设置,根据所述数据处理规则设置所述组件的数据处理方式。
上述数据处理装置还具有以下特点:
所述交互模块,还用于接收用户选定的服务器的数量;所述配置文件中包括所述服务器的数量;
所述配置文件构建模块,还用于根据所述用户选定的操作类型、各操作类型的执行顺序、各操作类型对应的组件及组件执行顺序、各组件的参数和服务器的数量构建配置文件;
所述分发模块,还用于根据所述配置文件中所述服务器的数量,确定相应数量的服务器向各服务器发送所述大数据处理程序体。
上述数据处理装置还具有以下特点:
所述大数据处理是大数据清洗;所述操作类型包括以下的至少一种:关键字映射、字段赋值、取值、数据格式化、记录归并、计算器、结果记录拆分。
本发明中的数据处理方法和装置,可以实现下述有益效果:
(1)通过预先设置的涵盖整个数据处理环节的操作类型和相应组件,根据不同用户的处理需要将组件进行组合提供不同用户处理所需的程序体。对于多功能、多数据格式(不同ID文档等)的情况,可以加快应对需求变动的效率,节省编写相关组件的程序的步骤,极大地提高数据分析、处理的效率,尤其对于需要编写复杂程序代码的大数据处理任务,可以极大地简化任务的开发过程,加速产出可以进行数据分析的产物,从而提高数据处理效率。
(2)可以与大数据分布式系统很好地集成。
(3)组件及程序结构通用化强,通过不同组件组合可以完成丰富的数据清洗及处理功能,可作为通用工具使用。
附图说明
构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是实施例中数据处理方法的流程图;
图2是实施例中数据处理装置的结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
图1是实施例中数据处理方法的流程图;参考图1,数据处理方法包括:
步骤101,设置用于描述大数据处理的各个环节的操作类型,设置各操作类型对应的组件;
步骤102,获知用户需执行大数据处理后,接收用户选定的操作类型、操作类型的执行顺序、各操作类型对应的组件、组件执行顺序和各组件的参数;
步骤103,根据上述用户选定的操作类型、各操作类型的执行顺序、各操作类型对应的组件及组件执行顺序和各组件的参数构建配置文件;
步骤104,加载配置文件,根据配置文选取用户选定的各操作类型对应的组件,根据各组件的参数装配组件,并将装配后的组件按照组件执行顺序组成相应操作类型的执行模块,按照操作类型的执行顺序设置各执行模块的执行顺序生成大数据处理程序体;
步骤105,将大数据处理程序体发送至少一个服务器并指示服务器执行此大数据处理程序体。
具体的,
本方法中的大数据处理典型的为大数据清洗,步骤101中操作类型包括以下的至少一种:关键字映射、字段赋值、取值、数据格式化、记录归并、计算器、结果记录拆分。本方法可以适用于除大数据清洗之外的其它大数据处理方式。
步骤101中的设置可以涵盖数据处理过程的每个环节的数据处理功能。设置各操作类型对应的组件时,操作类型只具有一种实现方式时,设置此操作类型所对应的组件指设置此操作类型的实现方式下的组件;其中,组件为实现该操作类型中某一特定功能的代码文件。操作类型具有多种实现方式时,设置此操作类型所对应的组件包括各种实现方式下的组件。例如操作类型为关键字映射时,实现方式包括parquet文件映射功能和json文件映射功能,则此操作类型所对应的组件包括这两种实现方式下的组件。操作类型的每个实现方式可以对应于一个组件或一个以上组件,当操作类型对应于一个以上组件时,需获知组件执行顺序。
步骤102中,组件的参数包括组件的初始化参数值和组件的数据处理规则。例如组件的数据处理规则包括对提取的数据按整数处理还是按浮点数处理等规则。步骤104中,根据各组件的参数装配组件具体包括:根据组件的初始化参数值对所述组件的参数进行初始化设置,根据数据处理规则设置组件的数据处理方式。
步骤102中,获知用户需执行大数据处理后,还接收用户选定的服务器的数量;步骤103中根据上述用户选定的操作类型、各操作类型的执行顺序、各操作类型对应的组件及组件执行顺序、各组件的参数和服务器的数量构建配置文件。步骤104中,按照操作类型的执行顺序设置各执行模块的执行顺序生成大数据处理程序体和执行大数据处理程序体具体包括:程序主体按照操作类型的执行顺序设置各执行模块的执行顺序生成大数据处理程序体后,根据配置文件中服务器的数量,确定相应数量的服务器,向各服务器发送所述大数据处理程序体并指示所述服务器执行大数据处理程序体。
其中,步骤103中通过页面交互将用户选定的信息生成配置文件,该配置文件的代码形式的文件,使程序主体可以直接解析该配置文件。
图2是实施例中数据处理装置的结构图,参考图2,数据处理装置包括:
设置模块201,用于设置用于描述大数据处理的各个环节的操作类型,设置各操作类型对应的组件;
交互模块202,用于获知用户需执行大数据处理后,接收用户选定的操作类型、操作类型的执行顺序、各操作类型对应的组件、各组件的参数;
配置文件构建模块203,用于根据所述用户选定的操作类型、各操作类型的执行顺序、各操作类型对应的组件及组件执行顺序和各组件的参数构建配置文件;
处理模块204,用于加载所述配置文件,根据所述配置文选取所述用户选定的各操作类型对应的组件,根据各组件的参数装配组件,并将装配后的组件按照所述组件执行顺序组成相应操作类型的执行模块,按照所述操作类型的执行顺序设置各执行模块的执行顺序生成大数据处理程序体;
分发模块205,用于将所述大数据处理程序体发送至少一个服务器并指示所述服务器执行所述大数据处理程序体。
其中,
设置模块201还用于在操作类型具有多种实现方式时,设置此操作类型所对应的组件包括各种实现方式下的组件。
交互模块202接收到的组件的参数包括组件的初始化参数值和组件的数据处理规则。处理模块204还用于根据以下方式执行根据各组件的参数装配组件:根据所述组件的初始化参数值对所述组件的参数进行初始化设置,根据所述数据处理规则设置所述组件的数据处理方式。
交互模块202还用于接收用户选定的服务器的数量;所述配置文件中包括所述服务器的数量。配置文件构建模块203还用于根据所述用户选定的操作类型、各操作类型的执行顺序、各操作类型对应的组件及组件执行顺序、各组件的参数和服务器的数量构建配置文件。分发模块205还用于根据所述配置文件中所述服务器的数量,确定相应数量的服务器向各服务器发送所述大数据处理程序体。
本装置所执行的大数据处理典型的是大数据清洗;操作类型包括以下的至少一种:关键字映射、字段赋值、取值、数据格式化、记录归并、计算器、结果记录拆分。
本发明中的数据处理方法和装置,可以实现下述有益效果:
(1)通过预先设置的涵盖整个数据处理环节的操作类型和相应组件,根据不同用户的处理需要将组件进行组合提供不同用户处理所需的程序体。对于多功能、多数据格式(不同ID文档等)的情况,可以加快应对需求变动的效率,节省编写相关组件的程序的步骤,极大地提高数据分析、处理的效率,尤其对于需要编写复杂程序代码的大数据处理任务,可以极大地简化任务的开发过程,加速产出可以进行数据分析的产物,从而提高数据处理效率。
(2)可以与大数据分布式系统很好地集成。
(3)组件及程序结构通用化强,通过不同组件组合可以完成丰富的数据清洗及处理功能,可作为通用工具使用。
上面描述的内容可以单独地或者以各种方式组合起来实施,而这些变型方式都在本发明的保护范围之内。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的物品或者设备中还存在另外的相同要素。
以上实施例仅用以说明本发明的技术方案而非限制,仅仅参照较佳实施例对本发明进行了详细说明。本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,均应涵盖在本发明的权利要求范围当中。

Claims (8)

1.一种数据处理方法,其特征在于,所述方法包括:
设置用于描述大数据处理的各个环节的操作类型,设置各操作类型对应的组件;
获知用户需执行大数据处理后,接收用户选定的操作类型、操作类型的执行顺序、各操作类型对应的组件、组件执行顺序和各组件的参数;
根据所述用户选定的操作类型、各操作类型的执行顺序、各操作类型对应的组件及组件执行顺序和各组件的参数构建配置文件;
加载所述配置文件,根据所述配置文选取所述用户选定的各操作类型对应的组件,根据各组件的参数装配组件,并将装配后的组件按照所述组件执行顺序组成相应操作类型的执行模块,按照所述操作类型的执行顺序设置各执行模块的执行顺序生成大数据处理程序体;
将所述大数据处理程序体发送至少一个服务器并指示所述服务器执行所述大数据处理程序体,
其中,所述大数据处理是大数据清洗;所述操作类型包括以下的至少一种:关键字映射、字段赋值、取值、数据格式化、记录归并、计算器、结果记录拆分。
2.如权利要求1所述的数据处理方法,其特征在于,
所述设置各操作类型对应的组件包括:操作类型具有多种实现方式时,设置此操作类型所对应的组件包括各种实现方式下的组件。
3.如权利要求1所述的数据处理方法,其特征在于,
所述组件的参数包括组件的初始化参数值和组件的数据处理规则;
所述根据各组件的参数装配组件包括:根据所述组件的初始化参数值对所述组件的参数进行初始化设置,根据所述数据处理规则设置所述组件的数据处理方式。
4.如权利要求1所述的数据处理方法,其特征在于,
所述方法还包括:获知用户需执行大数据处理后,接收用户选定的服务器的数量;所述配置文件中包括所述服务器的数量;
所述按照所述操作类型的执行顺序设置各执行模块的执行顺序生成大数据处理程序体和执行所述大数据处理程序体包括:程序主体按照所述操作类型的执行顺序设置各执行模块的执行顺序生成大数据处理程序体后,根据所述配置文件中所述服务器的数量,确定相应数量的服务器,向各服务器发送所述大数据处理程序体并指示所述服务器执行所述大数据处理程序体。
5.一种数据处理装置,其特征在于,包括:
设置模块,用于设置用于描述大数据处理的各个环节的操作类型,设置各操作类型对应的组件;
交互模块,用于获知用户需执行大数据处理后,接收用户选定的操作类型、操作类型的执行顺序、各操作类型对应的组件、组件执行顺序和各组件的参数;
配置文件构建模块,用于根据所述用户选定的操作类型、各操作类型的执行顺序、各操作类型对应的组件及组件执行顺序和各组件的参数构建配置文件;
处理模块,用于加载所述配置文件,根据所述配置文选取所述用户选定的各操作类型对应的组件,根据各组件的参数装配组件,并将装配后的组件按照所述组件执行顺序组成相应操作类型的执行模块,按照所述操作类型的执行顺序设置各执行模块的执行顺序生成大数据处理程序体;
分发模块,用于将所述大数据处理程序体发送至少一个服务器并指示所述服务器执行所述大数据处理程序体,
其中,所述大数据处理是大数据清洗;所述操作类型包括以下的至少一种:关键字映射、字段赋值、取值、数据格式化、记录归并、计算器、结果记录拆分。
6.如权利要求5所述的数据处理装置,其特征在于,
所述设置模块,还用于在操作类型具有多种实现方式时,设置此操作类型所对应的组件包括各种实现方式下的组件。
7.如权利要求5所述的数据处理装置,其特征在于,
所述组件的参数包括组件的初始化参数值和组件的数据处理规则;
所述处理模块,还用于根据以下方式执行根据各组件的参数装配组件:根据所述组件的初始化参数值对所述组件的参数进行初始化设置,根据所述数据处理规则设置所述组件的数据处理方式。
8.如权利要求5所述的数据处理装置,其特征在于,
所述交互模块,还用于接收用户选定的服务器的数量;所述配置文件中包括所述服务器的数量;
所述配置文件构建模块,还用于根据所述用户选定的操作类型、各操作类型的执行顺序、各操作类型对应的组件及组件执行顺序、各组件的参数和服务器的数量构建配置文件;
所述分发模块,还用于根据所述配置文件中所述服务器的数量,确定相应数量的服务器向各服务器发送所述大数据处理程序体。
CN201610851705.3A 2016-09-26 2016-09-26 一种数据处理方法和装置 Active CN106502720B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610851705.3A CN106502720B (zh) 2016-09-26 2016-09-26 一种数据处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610851705.3A CN106502720B (zh) 2016-09-26 2016-09-26 一种数据处理方法和装置

Publications (2)

Publication Number Publication Date
CN106502720A CN106502720A (zh) 2017-03-15
CN106502720B true CN106502720B (zh) 2019-11-08

Family

ID=58290665

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610851705.3A Active CN106502720B (zh) 2016-09-26 2016-09-26 一种数据处理方法和装置

Country Status (1)

Country Link
CN (1) CN106502720B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109033324A (zh) * 2018-07-18 2018-12-18 北京京安佳新技术有限公司 一种数据处理系统及方法
CN109684319B (zh) * 2018-12-25 2021-06-04 北京小米移动软件有限公司 数据清洗系统、方法、装置及存储介质
CN109829096B (zh) * 2019-03-15 2021-11-26 北京金山数字娱乐科技有限公司 一种数据采集方法、装置、电子设备及存储介质
CN111241447A (zh) * 2020-01-13 2020-06-05 浙江省北大信息技术高等研究院 一种网页数据采集方法、系统及存储介质
CN111522601A (zh) * 2020-04-22 2020-08-11 北京思特奇信息技术股份有限公司 一种灵活配置多个组件任务的后端运行方法及系统
CN112597134B (zh) * 2020-12-29 2024-02-09 中国工商银行股份有限公司 分布式配置中心的配置方法、装置、电子设备和介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101183371A (zh) * 2007-12-12 2008-05-21 中兴通讯股份有限公司 一种快速完成大数据处理的方法和报表系统
CN104424018A (zh) * 2013-08-23 2015-03-18 阿里巴巴集团控股有限公司 分布式计算事务处理方法及装置
CN104573063A (zh) * 2015-01-23 2015-04-29 四川中科腾信科技有限公司 一种基于大数据的数据分析方法
CN105913316A (zh) * 2016-04-15 2016-08-31 中国银行股份有限公司 一种规则配置方法和装置
CN105930523A (zh) * 2016-05-25 2016-09-07 中国科学院新疆理化技术研究所 大数据背景下基于动态可配置规则的数据清洗框架

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101183371A (zh) * 2007-12-12 2008-05-21 中兴通讯股份有限公司 一种快速完成大数据处理的方法和报表系统
CN104424018A (zh) * 2013-08-23 2015-03-18 阿里巴巴集团控股有限公司 分布式计算事务处理方法及装置
CN104573063A (zh) * 2015-01-23 2015-04-29 四川中科腾信科技有限公司 一种基于大数据的数据分析方法
CN105913316A (zh) * 2016-04-15 2016-08-31 中国银行股份有限公司 一种规则配置方法和装置
CN105930523A (zh) * 2016-05-25 2016-09-07 中国科学院新疆理化技术研究所 大数据背景下基于动态可配置规则的数据清洗框架

Also Published As

Publication number Publication date
CN106502720A (zh) 2017-03-15

Similar Documents

Publication Publication Date Title
CN106502720B (zh) 一种数据处理方法和装置
EP3447642B1 (en) System and method for predicting application performance for large data size on big data cluster
Ananthanarayanan et al. {GRASS}: Trimming stragglers in approximation analytics
Chen et al. MRGIS: A MapReduce-Enabled high performance workflow system for GIS
CN105593818A (zh) 用于调度分布式工作流程任务的装置和方法
CN109324793A (zh) 支持算法组件化的处理系统及方法
US10509683B2 (en) Modeling resource usage for a job
CN107003868B (zh) 处理包含联合类型操作的查询
CN105550268A (zh) 大数据流程建模分析引擎
CN107203424A (zh) 一种在分布式集群中调度深度学习作业的方法和装置
CN108415845A (zh) Ab测试系统指标置信区间的计算方法、装置和服务器
US9977655B2 (en) System and method for automatic extraction of software design from requirements
CN103019855B (zh) MapReduce作业执行时间预测方法
WO2012049802A1 (en) Automated analysis of composite applications
CN103077192B (zh) 一种数据处理方法及其系统
CN109871311A (zh) 一种推荐测试用例的方法和装置
CN109445774A (zh) 基于图元化操作的业务处理方法及装置
CN109214692B (zh) 基于用户时序行为的电子书评分方法及电子设备
CN106155822A (zh) 一种处理能力评估方法及装置
Schwarz et al. ABMland-a tool for agent-based model development on urban land use change
Li et al. Bigprovision: a provisioning framework for big data analytics
CN102055780A (zh) 磁盘阵列测试系统及方法
CN104714983B (zh) 分布式索引的生成方法及装置
Kroß et al. Pertract: model extraction and specification of big data systems for performance prediction by the example of apache spark and hadoop
CN110019207A (zh) 数据处理方法和装置以及脚本显示方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant