CN107526706A - 一种分布式计算平台中的数据处理方法和装置 - Google Patents

一种分布式计算平台中的数据处理方法和装置 Download PDF

Info

Publication number
CN107526706A
CN107526706A CN201710662723.1A CN201710662723A CN107526706A CN 107526706 A CN107526706 A CN 107526706A CN 201710662723 A CN201710662723 A CN 201710662723A CN 107526706 A CN107526706 A CN 107526706A
Authority
CN
China
Prior art keywords
data
distributed computing
computing platform
handling component
pending
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710662723.1A
Other languages
English (en)
Other versions
CN107526706B (zh
Inventor
倪传蕾
马庆祥
张馨予
陈茁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201710662723.1A priority Critical patent/CN107526706B/zh
Publication of CN107526706A publication Critical patent/CN107526706A/zh
Application granted granted Critical
Publication of CN107526706B publication Critical patent/CN107526706B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • G06F15/163Interprocessor communication
    • G06F15/17Interprocessor communication using an input/output type connection, e.g. channel, I/O port

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multi Processors (AREA)
  • Stored Programmes (AREA)

Abstract

本发明公开了一种分布式计算平台中的数据处理方法和装置,分布式计算平台中的数据通信是以指定编程语言实现的,所述方法包括:获取待处理的数据;将所述待处理的数据通过标准数据通道发送给相应的数据处理组件,通知所述数据处理组件完成数据处理,接收所述数据处理组件通过标准数据通道返回的数据处理结果;其中,所述数据处理组件是通过非指定编程语言生成的;将所述数据处理结果发送至数据输出目标。该技术方案通过改进了数据传输方式,使得分布式计算平台中能够应用的通过多种不同编程语言生成的数据处理组件,用户不需要针对分布式计算平台的开发语言,为各业务重新编写以指定编程语言实现的数据处理组件,节约了时间和资源。

Description

一种分布式计算平台中的数据处理方法和装置
技术领域
本发明涉及分布式计算技术领域,具体涉及一种分布式计算平台中的数据处理方法和装置。
背景技术
分布式计算平台由于可以在利用分布式集群中的物理资源执行大数据处理任务而得到了广泛应用。在实际应用中,往往一个分布式计算平台会接入多个业务线,而各业务线使用的编程语言往往不同,这样对于使用某一指定编程语言开发的分布式计算平台,使用其他编程语言的业务线通常不能直接将编写好的业务逻辑作为计算任务的一部分提交到分布式计算平台中。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的分布式计算平台中的数据处理方法和装置。
依据本发明的一个方面,提供了一种分布式计算平台中的数据处理方法,其中,所述分布式计算平台中的数据通信是以指定编程语言实现的,该方法包括:
获取待处理的数据;
将所述待处理的数据通过标准数据通道发送给相应的数据处理组件,通知所述数据处理组件完成数据处理,接收所述数据处理组件通过标准数据通道返回的数据处理结果;其中,所述数据处理组件是通过非指定编程语言生成的;
将所述数据处理结果发送至数据输出目标。
可选地,所述标准数据通道包括如下的一种或多种:标准输入、标准输出、标准错误。
可选地,所述获取待处理的数据包括:
接收所述分布式计算平台中启动的数据源发送的待处理的数据,和/或接收分布式计算平台中的数据处理装置发送的数据处理结果;
其中,所述分布式计算平台中启动的数据源中的数据是根据提交到所述分布式计算平台的计算任务,从外部数据源获取的。
可选地,所述计算任务中包括如下的至少一种配置信息:
外部数据源地址,计算拓扑结构,数据处理逻辑。
可选地,该方法还包括:
根据所述计算拓扑结构确定相应的数据处理组件和/或数据输出目标;
所述数据输出目标为分布式计算平台中的数据处理装置,和/或所述计算任务指定的最终数据输出目标。
可选地,所述数据处理组件是根据所述数据处理逻辑生成的。
可选地,所述将所述待处理的数据通过标准数据通道发送给相应的数据处理组件包括:
为所述待处理的数据添加数据标识;
所述接收所述数据处理组件通过标准数据通道返回的数据处理结果包括:根据数据标识确定与待处理的数据对应的数据处理结果。
可选地,所述分布式计算平台为Storm,所述指定编程语言为JAVA;
所述数据处理组件为Bolt,所述方法是由继承Bolt的组件执行的。
依据本发明的另一方面,提供了一种分布式计算平台中的数据处理装置,其中,所述分布式计算平台中的数据通信是以指定编程语言实现的,该装置包括:
数据传输单元,适于获取待处理的数据;
数据处理单元,适于将所述待处理的数据通过标准数据通道发送给相应的数据处理组件,通知所述数据处理组件完成数据处理,以及适于接收所述数据处理组件通过标准数据通道返回的数据处理结果;其中,所述数据处理组件是通过非指定编程语言生成的;
所述数据传输单元,还适于将所述数据处理结果发送至数据输出目标。
可选地,所述标准数据通道包括如下的一种或多种:标准输入、标准输出、标准错误。
可选地,所述数据传输单元,适于接收所述分布式计算平台中启动的数据源发送的待处理的数据,和/或接收分布式计算平台中的数据处理装置发送的数据处理结果;
其中,所述分布式计算平台中启动的数据源中的数据是根据提交到所述分布式计算平台的计算任务,从外部数据源获取的。
可选地,所述计算任务中包括如下的至少一种配置信息:
外部数据源地址,计算拓扑结构,数据处理逻辑。
可选地,所述数据传输单元,还适于根据所述计算拓扑结构确定相应的数据处理组件和/或数据输出目标;
所述数据输出目标为分布式计算平台中的数据处理装置,和/或所述计算任务指定的最终数据输出目标。
可选地,所述数据处理组件是根据所述数据处理逻辑生成的。
可选地,所述数据传输单元,适于为所述待处理的数据添加数据标识,以及根据数据标识确定与待处理的数据对应的数据处理结果。
可选地,所述分布式计算平台为Storm,所述指定编程语言为JAVA,所述数据处理组件为Bolt,所述装置是通过继承Bolt的组件实现的。
由上述可知,本发明的技术方案,在获取到待处理的数据后,通过标准数据通道传递数据给相应的数据处理组件,通知其完成数据处理后以标准数据通道返回数据处理结果,最后将数据处理结果发到下一个目标点。该技术方案通过改进了数据传输方式,使得分布式计算平台中能够应用的通过多种不同编程语言生成的数据处理组件,用户不需要针对分布式计算平台的开发语言,为各业务重新编写以指定编程语言实现的数据处理组件,节约了时间和资源。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了分布式计算平台Storm中执行的一个计算任务的拓扑结构示意图;
图2示出了根据本发明一个实施例的一种分布式计算平台中的数据处理方法的流程示意图;
图3示出了根据本发明一个实施例的在Storm中执行的一个计算任务的拓扑结构示意图;
图4示出了根据本发明一个实施例的一种分布式计算平台中的数据处理装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
经过分析发现,在分布式计算平台中,以非指定编程语言(指定编程语言在此指代开发分布式计算平台使用的编程语言)编写的计算逻辑虽然可以被执行,但是,分布式计算平台中的数据通信是由指定编程语言实现的,因此通过默认方式的数据通信传递的数据是无法被非指定编程语言生成的计算逻辑所识别的,这就是问题的症结。
例如,图1示出了分布式计算平台Storm中执行的一个计算任务的拓扑结构示意图。如图1所示,Spout是Storm中启动的数据源,用于从外部数据源获取数据;Bolt是数据处理组件,用于执行相应的数据处理。在图1中示出的数据处理任务需要执行多项数据处理,因此在Storm中对应启动了多个Bolt,由每个Bolt执行一项数据处理。Storm是使用JAVA开发的,因此如果各Bolt是通过JAVA生成的,那么Spout与Bolt、Bolt与Bolt之间的数据通信是无碍的;但是如果其中一个Bolt不是通过JAVA生成的,那么他无法识别发送给他的数据,因此也就无法形成数据通路。
因此发明人想到,如果对分布式计算平台中的数据通信方式进行改进,使得以非指定编程语言编写的计算逻辑可以识别接收到的数据,那么就可以在分布式计算平台中正常地使用这些计算逻辑,减少了开发人员的任务量。
图2示出了根据本发明一个实施例的一种分布式计算平台中的数据处理方法的流程示意图,其中,所述分布式计算平台中的数据通信是以指定编程语言实现的。如图2所示,该方法包括:
步骤S210,获取待处理的数据。
步骤S220,将待处理的数据通过标准数据通道发送给相应的数据处理组件,通知数据处理组件完成数据处理,接收数据处理组件通过标准数据通道返回的数据处理结果;其中,数据处理组件是通过非指定编程语言生成的。
步骤S230,将数据处理结果发送至数据输出目标。
可见,图2所示的方法,在获取到待处理的数据后,通过标准数据通道传递数据给相应的数据处理组件,通知其完成数据处理后以标准数据通道返回数据处理结果,最后将数据处理结果发到下一个目标点。该技术方案通过改进了数据传输方式,使得分布式计算平台中能够应用的通过多种不同编程语言生成的数据处理组件,用户不需要针对分布式计算平台的开发语言,为各业务重新编写以指定编程语言实现的数据处理组件,节约了时间和资源。
在本发明的一个实施例中,上述方法中,标准数据通道包括如下的一种或多种:标准输入、标准输出、标准错误。
举例而言,将待处理的数据通过标准输入发送给数据处理组件,数据处理组件将正常的数据处理结果通过标准数据返回,将错误信息通过标准错误返回。
在本发明的一个实施例中,上述方法中,获取待处理的数据包括:接收分布式计算平台中启动的数据源发送的待处理的数据,和/或接收分布式计算平台中的数据处理装置发送的数据处理结果;其中,分布式计算平台中启动的数据源中的数据是根据提交到分布式计算平台的计算任务,从外部数据源获取的。
也就是说,当目标数据处理组件是执行数据处理的第一个节点时,那么不需要利用其它数据处理组件的数据处理结果,所需的数据是分布式计算平台中启动的数据源发送的待处理数据,因此需要将这些数据通过标准输入发送给目标数据输出组件;而当目标数据处理组件是执行数据处理的中间节点或是最终节点时,需要利用前面的数据处理组件的数据处理结果。在本实施例中,分布式计算平台中的数据处理装置可以执行上述实施例中的分布式计算平台中的数据处理方法,因此可以获取到数据处理组件的数据处理结果再进行下发。
在上面的实施例中提及了分布式计算平台中的计算任务,在本发明的一个实施例中,计算任务中包括如下的至少一种配置信息:外部数据源地址,计算拓扑结构,数据处理逻辑。
根据外部数据源地址,在分布式计算平台中启动的数据源就可以获取到待处理的数据再进行下发。数据处理逻辑可以是用户利用PHP、C++等编程语言自行开发的,分布式计算平台可以对应生成多个数据处理组件,也就是说数据处理组件是根据数据处理逻辑生成的。
计算拓扑结构是指数据处理流程中各节点的先后关系,以及分布式计算平台中的数据处理装置与数据处理组件的对应关系。
在本发明的一个实施例中,上述方法还包括:根据计算拓扑结构确定相应的数据处理组件和/或数据输出目标;数据输出目标为分布式计算平台中的数据处理装置,和/或计算任务指定的最终数据输出目标。
也就是说,通过计算拓扑结构,可以确定将数据处理结果发送到哪里。如果数据处理结果只是中间结果,还需要进行进一步处理,那么就要将其输出到另一分布式计算平台中的数据处理装置,由其通过类似上述实施例中的分布式计算平台中的数据处理方法将数据处理结果发送给数据处理组件进行处理等等;而如果数据处理结果是最终结果,那么通常是输出到指定的地址或者数据库中,这些都是计算任务在计算拓扑结构中指定的。
在本发明的一个实施例中,上述方法中,将待处理的数据通过标准数据通道发送给相应的数据处理组件包括:为待处理的数据添加数据标识;接收数据处理组件通过标准数据通道返回的数据处理结果包括:根据数据标识确定与待处理的数据对应的数据处理结果。
在本实施例中,由于标识数据通道可以复用,因此通过为待处理的数据添加数据标识,使得数据处理组件返回的数据处理结果能够被识别出是否是与待处理的数据对应的。
上例中的数据标识与前述实施例中的计算任务的配置信息可以被作为头信息写入待处理的数据。
在本发明的一个实施例中,上述方法中,分布式计算平台为Storm,指定编程语言为JAVA;数据处理组件为Bolt,方法是由继承Bolt的组件执行的。
图3示出了根据本发明一个实施例的在Storm中执行的一个计算任务的拓扑结构示意图。图3所示的Spout和Bolt是在Storm中根据计算任务启动的,这一点与图1类似。与之不同的是为每个Bolt启动一个对应的Streaming Bolt,这个Streaming Bolt是通过继承Bolt来实现的,用于执行上述实施例中的分布式计算平台中的数据处理方法。
数据从Spout发射到Streaming Bolt而不是直接发送到Bolt,这样各StreamingBolt通过标准输入将待处理数据发送给Bolt进行处理,由Bolt通过标准输出返回数据处理结果,Streaming Bolt将数据处理结果发送给下一个Streaming Bolt或者是最终的目标数据库。
对于用户而言,只需在计算任务中添加如前所述的头信息即可,就可以直接将用PHP、C++等非JAVA语言开发的数据处理逻辑包含在计算任务中提交到Storm了。
图4示出了根据本发明一个实施例的一种分布式计算平台中的数据处理装置的结构示意图,其中,分布式计算平台中的数据通信是以指定编程语言实现的。如图4所示,分布式计算平台中的数据处理装置400包括:
数据传输单元410,适于获取待处理的数据。
数据处理单元420,适于将待处理的数据通过标准数据通道发送给相应的数据处理组件,通知数据处理组件完成数据处理,以及适于接收数据处理组件通过标准数据通道返回的数据处理结果;其中,数据处理组件是通过非指定编程语言生成的。
数据传输单元410,还适于将数据处理结果发送至数据输出目标。
可见,图4所示的装置,在获取到待处理的数据后,通过标准数据通道传递数据给相应的数据处理组件,通知其完成数据处理后以标准数据通道返回数据处理结果,最后将数据处理结果发到下一个目标点。该技术方案通过改进了数据传输方式,使得分布式计算平台中能够应用的通过多种不同编程语言生成的数据处理组件,用户不需要针对分布式计算平台的开发语言,为各业务重新编写以指定编程语言实现的数据处理组件,节约了时间和资源。
在本发明的一个实施例中,上述装置中,标准数据通道包括如下的一种或多种:标准输入、标准输出、标准错误。
在本发明的一个实施例中,上述装置中,数据传输单元410,适于接收分布式计算平台中启动的数据源发送的待处理的数据,和/或接收分布式计算平台中的数据处理装置发送的数据处理结果;其中,分布式计算平台中启动的数据源中的数据是根据提交到分布式计算平台的计算任务,从外部数据源获取的。
在本发明的一个实施例中,上述装置中,计算任务中包括如下的至少一种配置信息:外部数据源地址,计算拓扑结构,数据处理逻辑。
在本发明的一个实施例中,上述装置中,数据传输单元410,还适于根据计算拓扑结构确定相应的数据处理组件和/或数据输出目标;数据输出目标为分布式计算平台中的数据处理装置,和/或计算任务指定的最终数据输出目标。
在本发明的一个实施例中,上述装置中,数据处理组件是根据数据处理逻辑生成的。
在本发明的一个实施例中,上述装置中,数据传输单元410,适于为待处理的数据添加数据标识,以及根据数据标识确定与待处理的数据对应的数据处理结果。
在本发明的一个实施例中,上述装置中,分布式计算平台为Storm,指定编程语言为JAVA,数据处理组件为Bolt,装置是通过继承Bolt的组件实现的。
需要说明的是,上述各装置实施例的具体实施方式与前述对应方法实施例的具体实施方式相同,在此不再赘述。
综上所述,本发明的技术方案,在获取到待处理的数据后,通过标准数据通道传递数据给相应的数据处理组件,通知其完成数据处理后以标准数据通道返回数据处理结果,最后将数据处理结果发到下一个目标点。该技术方案通过改进了数据传输方式,使得分布式计算平台中能够应用的通过多种不同编程语言生成的数据处理组件,用户不需要针对分布式计算平台的开发语言,为各业务重新编写以指定编程语言实现的数据处理组件,节约了时间和资源。
需要说明的是:
在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据分布式计算平台中的数据处理装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
本发明的实施例公开了A1、一种分布式计算平台中的数据处理方法,其中,所述分布式计算平台中的数据通信是以指定编程语言实现的,该方法包括:
获取待处理的数据;
将所述待处理的数据通过标准数据通道发送给相应的数据处理组件,通知所述数据处理组件完成数据处理,接收所述数据处理组件通过标准数据通道返回的数据处理结果;其中,所述数据处理组件是通过非指定编程语言生成的;
将所述数据处理结果发送至数据输出目标。
A2、如A1所述的方法,其中,所述标准数据通道包括如下的一种或多种:标准输入、标准输出、标准错误。
A3、如A1所述的方法,其中,所述获取待处理的数据包括:
接收所述分布式计算平台中启动的数据源发送的待处理的数据,和/或接收分布式计算平台中的数据处理装置发送的数据处理结果;
其中,所述分布式计算平台中启动的数据源中的数据是根据提交到所述分布式计算平台的计算任务,从外部数据源获取的。
A4、如A3所述的方法,其中,所述计算任务中包括如下的至少一种配置信息:
外部数据源地址,计算拓扑结构,数据处理逻辑。
A5、如A4所述的方法,其中,该方法还包括:
根据所述计算拓扑结构确定相应的数据处理组件和/或数据输出目标;
所述数据输出目标为分布式计算平台中的数据处理装置,和/或所述计算任务指定的最终数据输出目标。
A6、如A4所述的方法,其中,所述数据处理组件是根据所述数据处理逻辑生成的。
A7、如A1所述的方法,其中,所述将所述待处理的数据通过标准数据通道发送给相应的数据处理组件包括:
为所述待处理的数据添加数据标识;
所述接收所述数据处理组件通过标准数据通道返回的数据处理结果包括:根据数据标识确定与待处理的数据对应的数据处理结果。
A8、如A1-A7中任一项所述的方法,其中,所述分布式计算平台为Storm,所述指定编程语言为JAVA;
所述数据处理组件为Bolt,所述方法是由继承Bolt的组件执行的。
本发明的实施例还公开了B9、一种分布式计算平台中的数据处理装置,其中,所述分布式计算平台中的数据通信是以指定编程语言实现的,该装置包括:
数据传输单元,适于获取待处理的数据;
数据处理单元,适于将所述待处理的数据通过标准数据通道发送给相应的数据处理组件,通知所述数据处理组件完成数据处理,以及适于接收所述数据处理组件通过标准数据通道返回的数据处理结果;其中,所述数据处理组件是通过非指定编程语言生成的;
所述数据传输单元,还适于将所述数据处理结果发送至数据输出目标。
B10、如B9所述的装置,其中,所述标准数据通道包括如下的一种或多种:标准输入、标准输出、标准错误。
B11、如B9所述的装置,其中,
所述数据传输单元,适于接收所述分布式计算平台中启动的数据源发送的待处理的数据,和/或接收分布式计算平台中的数据处理装置发送的数据处理结果;
其中,所述分布式计算平台中启动的数据源中的数据是根据提交到所述分布式计算平台的计算任务,从外部数据源获取的。
B12、如B11所述的装置,其中,所述计算任务中包括如下的至少一种配置信息:
外部数据源地址,计算拓扑结构,数据处理逻辑。
B13、如B12所述的装置,其中,
所述数据传输单元,还适于根据所述计算拓扑结构确定相应的数据处理组件和/或数据输出目标;
所述数据输出目标为分布式计算平台中的数据处理装置,和/或所述计算任务指定的最终数据输出目标。
B14、如B12所述的装置,其中,所述数据处理组件是根据所述数据处理逻辑生成的。
B15、如B9所述的装置,其中,
所述数据传输单元,适于为所述待处理的数据添加数据标识,以及根据数据标识确定与待处理的数据对应的数据处理结果。
B16、如B9-B15中任一项所述的装置,其中,所述分布式计算平台为Storm,所述指定编程语言为JAVA,所述数据处理组件为Bolt,所述装置是通过继承Bolt的组件实现的。

Claims (10)

1.一种分布式计算平台中的数据处理方法,其中,所述分布式计算平台中的数据通信是以指定编程语言实现的,该方法包括:
获取待处理的数据;
将所述待处理的数据通过标准数据通道发送给相应的数据处理组件,通知所述数据处理组件完成数据处理,接收所述数据处理组件通过标准数据通道返回的数据处理结果;其中,所述数据处理组件是通过非指定编程语言生成的;
将所述数据处理结果发送至数据输出目标。
2.如权利要求1所述的方法,其中,所述标准数据通道包括如下的一种或多种:标准输入、标准输出、标准错误。
3.如权利要求1所述的方法,其中,所述获取待处理的数据包括:
接收所述分布式计算平台中启动的数据源发送的待处理的数据,和/或接收分布式计算平台中的数据处理装置发送的数据处理结果;
其中,所述分布式计算平台中启动的数据源中的数据是根据提交到所述分布式计算平台的计算任务,从外部数据源获取的。
4.如权利要求3所述的方法,其中,所述计算任务中包括如下的至少一种配置信息:
外部数据源地址,计算拓扑结构,数据处理逻辑。
5.如权利要求4所述的方法,其中,该方法还包括:
根据所述计算拓扑结构确定相应的数据处理组件和/或数据输出目标;
所述数据输出目标为分布式计算平台中的数据处理装置,和/或所述计算任务指定的最终数据输出目标。
6.如权利要求4所述的方法,其中,所述数据处理组件是根据所述数据处理逻辑生成的。
7.如权利要求1所述的方法,其中,所述将所述待处理的数据通过标准数据通道发送给相应的数据处理组件包括:
为所述待处理的数据添加数据标识;
所述接收所述数据处理组件通过标准数据通道返回的数据处理结果包括:根据数据标识确定与待处理的数据对应的数据处理结果。
8.如权利要求1-7中任一项所述的方法,其中,所述分布式计算平台为Storm,所述指定编程语言为JAVA;
所述数据处理组件为Bolt,所述方法是由继承Bolt的组件执行的。
9.一种分布式计算平台中的数据处理装置,其中,所述分布式计算平台中的数据通信是以指定编程语言实现的,该装置包括:
数据传输单元,适于获取待处理的数据;
数据处理单元,适于将所述待处理的数据通过标准数据通道发送给相应的数据处理组件,通知所述数据处理组件完成数据处理,以及适于接收所述数据处理组件通过标准数据通道返回的数据处理结果;其中,所述数据处理组件是通过非指定编程语言生成的;
所述数据传输单元,还适于将所述数据处理结果发送至数据输出目标。
10.如权利要求9所述的装置,其中,所述标准数据通道包括如下的一种或多种:标准输入、标准输出、标准错误。
CN201710662723.1A 2017-08-04 2017-08-04 一种分布式计算平台中的数据处理方法和装置 Active CN107526706B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710662723.1A CN107526706B (zh) 2017-08-04 2017-08-04 一种分布式计算平台中的数据处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710662723.1A CN107526706B (zh) 2017-08-04 2017-08-04 一种分布式计算平台中的数据处理方法和装置

Publications (2)

Publication Number Publication Date
CN107526706A true CN107526706A (zh) 2017-12-29
CN107526706B CN107526706B (zh) 2021-07-13

Family

ID=60680769

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710662723.1A Active CN107526706B (zh) 2017-08-04 2017-08-04 一种分布式计算平台中的数据处理方法和装置

Country Status (1)

Country Link
CN (1) CN107526706B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110377356A (zh) * 2019-06-14 2019-10-25 北京奇艺世纪科技有限公司 任务处理方法、装置、系统及计算机可读存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102915229A (zh) * 2011-08-02 2013-02-06 腾讯科技(深圳)有限公司 一种分布式计算方法及系统
CN104050261A (zh) * 2014-06-16 2014-09-17 深圳先进技术研究院 基于Storm的可变逻辑的通用数据处理系统及方法
US9135565B1 (en) * 2011-04-20 2015-09-15 Google Inc. Multiple reference point shortest path algorithm
CN105468626A (zh) * 2014-09-04 2016-04-06 腾讯科技(北京)有限公司 数据处理方法及系统
CN105791016A (zh) * 2016-03-09 2016-07-20 浪潮通信信息系统有限公司 一种基于流式计算的分布式故障管理告警处理系统
US20160269428A1 (en) * 2013-11-01 2016-09-15 Hangzhou H3C Technologies Co., Ltd. Data processing
CN106021411A (zh) * 2016-05-13 2016-10-12 大连理工大学 一种具有集群自适应性的Storm任务部署与配置平台
CN106126721A (zh) * 2016-06-30 2016-11-16 北京奇虎科技有限公司 一种实时计算平台的数据处理方法和装置
CN106407017A (zh) * 2016-10-31 2017-02-15 华南理工大学 面向rfid的复杂事件规则动态调度与数据恢复方法
US20170168814A1 (en) * 2015-12-15 2017-06-15 Impetus Technologies, Inc. System and Method for Registration of a Custom Component in a Distributed Computing Pipeline

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9135565B1 (en) * 2011-04-20 2015-09-15 Google Inc. Multiple reference point shortest path algorithm
CN102915229A (zh) * 2011-08-02 2013-02-06 腾讯科技(深圳)有限公司 一种分布式计算方法及系统
US20160269428A1 (en) * 2013-11-01 2016-09-15 Hangzhou H3C Technologies Co., Ltd. Data processing
CN104050261A (zh) * 2014-06-16 2014-09-17 深圳先进技术研究院 基于Storm的可变逻辑的通用数据处理系统及方法
CN105468626A (zh) * 2014-09-04 2016-04-06 腾讯科技(北京)有限公司 数据处理方法及系统
US20170168814A1 (en) * 2015-12-15 2017-06-15 Impetus Technologies, Inc. System and Method for Registration of a Custom Component in a Distributed Computing Pipeline
CN105791016A (zh) * 2016-03-09 2016-07-20 浪潮通信信息系统有限公司 一种基于流式计算的分布式故障管理告警处理系统
CN106021411A (zh) * 2016-05-13 2016-10-12 大连理工大学 一种具有集群自适应性的Storm任务部署与配置平台
CN106126721A (zh) * 2016-06-30 2016-11-16 北京奇虎科技有限公司 一种实时计算平台的数据处理方法和装置
CN106407017A (zh) * 2016-10-31 2017-02-15 华南理工大学 面向rfid的复杂事件规则动态调度与数据恢复方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
WENJUN QIAN ET AL: "S-Storm: A Slot-Aware Scheduling Strategy for Even Scheduler in Storm", 《 2016 IEEE 18TH INTERNATIONAL CONFERENCE ON HIGH PERFORMANCE COMPUTING AND COMMUNICATIONS; IEEE 14TH INTERNATIONAL CONFERENCE ON SMART CITY; IEEE 2ND INTERNATIONAL CONFERENCE ON DATA SCIENCE AND SYSTEMS (HPCC/SMARTCITY/DSS)》 *
杜春涛 编著: "《面向对象程序设计 Java语言》", 31 August 2007, 中国铁道出版社 *
杨秋吉 等: ""面向Storm的数据流编程模型与编译优化方法研究"", 《计算机工程与科学》 *
杨秋吉: "面向Storm的数据流编程模型与优化方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110377356A (zh) * 2019-06-14 2019-10-25 北京奇艺世纪科技有限公司 任务处理方法、装置、系统及计算机可读存储介质

Also Published As

Publication number Publication date
CN107526706B (zh) 2021-07-13

Similar Documents

Publication Publication Date Title
CN108121795B (zh) 用户行为预测方法及装置
US9912610B2 (en) Data-plane stateful processing units in packet processing pipelines
US20180234340A1 (en) Data-plane stateful processing units in packet processing pipelines
CN110554958B (zh) 图数据库测试方法、系统、设备和存储介质
US10523764B2 (en) Data-plane stateful processing units in packet processing pipelines
CN111950225B (zh) 一种芯片布局方法、装置、存储介质和电子设备
US10318595B2 (en) Analytics based on pipes programming model
CN108062303A (zh) 垃圾短信的识别方法及装置
CN107798617A (zh) 保险业务处理方法和装置
US20200082284A1 (en) Anomaly detection for non-stationary data
US20160266958A1 (en) Preventing cascade failures in computer systems
CN104966190A (zh) 一种网络支付方法和装置
CN109426510A (zh) 软件处理方法、装置、电子设备及计算机可读存储介质
US9529572B1 (en) Composable application session parameters
CN114004700A (zh) 业务数据处理方法、装置、电子设备及存储介质
CN106648839A (zh) 数据处理的方法和装置
CN107526706A (zh) 一种分布式计算平台中的数据处理方法和装置
US11699097B2 (en) Machine learning model with conditional execution of multiple processing tasks
CN110275880B (zh) 数据分析方法、装置、服务器及可读存储介质
CN111105176B (zh) 数据处理方法、装置、设备和存储介质
US20200311598A1 (en) Exposing payload data from non-integrated machine learning systems
CN113762421B (zh) 分类模型的训练方法、流量分析方法、装置及设备
Roungas et al. Harnessing Web 3.0 and R to Mitigate Simulation Validation Restrictions.
CN105528335B (zh) 确定新闻之间相关性的方法和装置
CN109091870A (zh) 一种处理数据的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant