CN106559278B - 数据处理状态监控方法和装置 - Google Patents

数据处理状态监控方法和装置 Download PDF

Info

Publication number
CN106559278B
CN106559278B CN201510624732.2A CN201510624732A CN106559278B CN 106559278 B CN106559278 B CN 106559278B CN 201510624732 A CN201510624732 A CN 201510624732A CN 106559278 B CN106559278 B CN 106559278B
Authority
CN
China
Prior art keywords
processing
source data
data
state
subdata
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510624732.2A
Other languages
English (en)
Other versions
CN106559278A (zh
Inventor
李希文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN201510624732.2A priority Critical patent/CN106559278B/zh
Priority to US15/762,789 priority patent/US10680974B2/en
Priority to PCT/CN2016/074367 priority patent/WO2017049861A1/zh
Priority to EP16847749.5A priority patent/EP3352418B1/en
Publication of CN106559278A publication Critical patent/CN106559278A/zh
Application granted granted Critical
Publication of CN106559278B publication Critical patent/CN106559278B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/70Admission control; Resource allocation
    • H04L47/82Miscellaneous aspects
    • H04L47/822Collecting or measuring resource availability data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/02Capturing of monitoring data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/70Admission control; Resource allocation
    • H04L47/80Actions related to the user profile or the type of traffic
    • H04L47/801Real time traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/40Support for services or applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Debugging And Monitoring (AREA)
  • Computer And Data Communications (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种数据处理状态监控方法,所述方法包括以下步骤:接收最后一层工作节点处理子数据处理完成时反馈的处理信息,其中所述子数据是按预置层级处理源数据的工作节点分解所述源数据获得;根据所述处理信息更新所述源数据的处理状态。本发明还公开了一种数据处理状态监控装置。本发明中只在最后一层处理所述源数据的工作节点处理完成时,才发送反馈路径信息,能够减少处理过程中反馈信息占用的网络资源,并且可以避免因处理大量的反馈信息可能造成的消息阻塞的问题。

Description

数据处理状态监控方法和装置
技术领域
本发明涉及通信技术领域,尤其涉及一种数据处理状态监控方法和装置。
背景技术
STORM是一种分布式实时计算系统,可以简单可靠地处理流数据。STORM可以应用在实时分析、在线机器学习、连续计算、分布式远程过程调用协议RPC(Remote ProcedureCall Protocol)调用、ETL(Extract Transform Load,用来描述将数据从来源端经过抽取、转换、加载至目的端的过程)等方面。STORM有可扩展、容错、数据处理的可靠性高等特点。
目前在STROM中处理数据一般采用如下方案:
STORM系统中当一个数据被创建或者处理的时候,系统都为该数据分配一个64bit的随机值作为ID。这些随机的ID是用来跟踪由创建数据的处理过程,从而生成该数据的有向无环图(tuple tree或tuple DAG)。
每个数据都知道它所在的有向无环图中对应的根数据的ID。每个节点进行处理时,可能会新生成一个对应的数据,对应有向无环图中的根数据的ID就拷贝到这个数据中,每当一个节点处理完了以后,这节点就会发消息给管理中心,通知管理中心这个数据处理完了,即每个节点每处理完一个数据后,就会向管理中心反馈一次,更新有向无环图的状态。
这种方式会使得各个节点在处理时向管理中心反馈大量的信息,会大量占用网络资源。
发明内容
本发明的主要目的在于提出一种数据处理状态监控方法和装置,旨在减少处理过程中反馈信息占用的网络资源。
为实现上述目的,本发明提供的一种数据处理状态监控方法,所述方法包括以下步骤:
接收最后一层工作节点处理子数据处理完成时反馈的处理信息,其中所述子数据是是按预置层级处理源数据的工作节点分解所述源数据获得;
根据所述处理信息更新所述源数据的处理状态。
优选地,所述处理信息包括所述子数据的标识,所述标识包括所述源数据分解的数量和所述子数据对应的序号。
优选地,所述根据所述处理信息更新所述源数据的处理状态的步骤包括:
根据所述源数据分解的数量和所述子数据对应的序号进行计算,获得计算结果;
根据所述计算结果更新所述源数据的处理状态。
优选地,所述根据所述处理信息更新所述源数据的处理状态的步骤之后包括:
根据所述处理信息判断所述处理状态是否达到完备状态;
当所述处理状态达到完备状态时,判定所述源数据处理完成。
优选地,所述根据所述处理信息更新所述源数据的处理状态的步骤之后还包括:
当在预置时间内没有接收到最后一层处理所述源数据的工作节点处理完成时发送的处理信息时,判定所述源数据处理失败。
优选地,所述方法还包括:
在判定所述源数据处理完成或者处理失败时,通知产生所述源数据的工作节点。
此外,为实现上述目的,本发明还提供一种数据处理状态监控装置,所述装置包括:
接收模块,用于接收最后一层工作节点处理子数据处理完成时反馈的处理信息,其中所述子数据是按预置层级处理源数据的工作节点分解所述源数据获得;
更新模块,用于根据所述处理信息更新所述源数据的处理状态。
优选地,所述处理信息包括所述子数据的标识,所述标识包括所述源数据的分解的数量和对应的序号。
优选地,所述更新模块包括:
计算单元,用于根据所述源数据的分解的数量和对应的序号进行计算,获得计算结果;
更新单元,用于根据所述计算结果更新所述源数据的处理状态。
优选地,所述装置还包括:
判断模块,用于根据所述处理信息判断所述处理状态是否达到完备状态;
第一判定模块,用于当所述处理状态达到完备状态时,判定所述源数据处理完成。
优选地,所述装置还包括:
第二判定模块,用于当在预置时间内没有接收到最后一层处理所述源数据的工作节点处理完成时发送的处理信息时,判定所述源数据处理失败。
优选地,所述装置还包括:
通知模块,用于在判定所述源数据处理完成或者处理失败时,通知产生所述源数据的工作节点。
本发明通过接收最后一层工作节点处理子数据处理完成时反馈的处理信息,其中所述子数据是按预置层级处理源数据的工作节点分解所述源数据获得;根据所述处理信息更新所述源数据的处理状态。通过上述方式,本发明中只在最后一层处理所述源数据的工作节点,处理完成时,才发送反馈路径信息,不用在每个节点处理完成时就反馈处理信息,减少了处理过程中反馈信息占用的网络资源,并且可以避免因处理大量的反馈信息可能造成的消息阻塞的问题,能够提高实时计算系统的整体性能。
附图说明
图1为本发明数据处理状态监控方法第一实施例的流程示意图;
图2为本发明实施例中工作节点的ID产生示意图;
图3为本发明实施例中根据所述处理信息更新所述源数据的处理状态的步骤的细化流程示意图;
图4为本发明数据处理状态监控装置第一实施例的功能模块示意图;
图5为本发明实施例中更新模块的细化功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种数据处理状态监控方法。
参照图1,图1为本发明数据处理状态监控方法第一实施例的流程示意图。
在本实施例中,该数据处理状态监控方法包括:
步骤S10,接收最后一层工作节点处理子数据处理完成时反馈的处理信息;
本发明主要应用在分布式实时计算系统STORM中,当然本领域人员可以根据本发明思想应用在其他系统中。
在分布式实时计算系统STORM中,第一层包括有一个工作节点,第一层中工作节点用于产生源数据,可以从外部数据源中读取数据,转换为内部的源数据,或者用户在第一节点生成源数据,获得源数据后将所述源数据分解成至少一个子数据,按着预置层级依层级随机发送给后续层级进行处理,每层级中每个工作节点处理的数据的数量可能不同。比如第一层中工作节点将所述源数据分解成3个第一子数据发送给第二层级中3个工作节点进行处理,第二层中3个工作节点分别将接收到的第一子数据可能还会分成至少一个第二子数据,发送给第三层中工作节点进行处理。
在本实施例中每个节点在创建或者处理数据时,都可以在所处理的数据中添加对应的节点的ID,ID用于表示每个节点的标识,包括所述源数据分解的数量和对应的序号,产生规则如图2所示:第一层级的节点创建数据时,在所述源数据中添加对应的ID为(1,1),然后按着预置层级进行传递,如果第一层层级将所述源数据分解为3个子数据,分别发送给第二层中工作节点,则第二层中工作节点处理的子数据对应产生的ID分布为((1,1),(3,1))、((1,1),(3,2))、((1,1),(3,3));然后如果第二层中工作节点分别将获得的3个子数据再分为2个对应的子数据,则在第三层中工作节点要处理子数据的数量为5个,对于ID为((1,1),(3,1))的子数据处理过后传输给第三层中某个工作节点中时,分解为2个子数据,对应添加的ID分别为((1,1),(3,1),(2,1))和((1,1),(3,1),(2,2)),对于ID为((1,1),(3,2))的子数据处理过后传输给第三层中某个节点中时,未进行分解,对应添加的ID可以为((1,1),(3,2),(1,1)),对于ID为((1,1),(3,3))的子数据处理过后传输给第三层中某个节点中时,分解为3个子数据,对应添加的ID则可以为((1,1),(3,3),(3,1))、((1,1),(3,3),(3,2))和((1,1),(3,3),(3,3))。即在本实施例中在产生的子数据中添加的ID还包括上个源数据的ID。最后一层工作节点在处理完成时向管理中心反馈的路径信息,则可以为自身的ID。当然还可以设置其他ID产生规则,比如因为每个工作节点只知道自身处理数据分成的子数据的数量,则同样以图2中工作节点的拓扑结构为例,第一层工作节点中数据添加的ID与上述相同,为(1,1),第二层工作节点记录第一层工作将数据分解的数量为3,添加在数据中ID则可以为(3,1)、(3,2)和(3,3),并标记为第二层级,以此类推。最后一层工作节点处理完成时反馈的处理信息则包括每层级分解的数量和对应的序号。
第一层中工作节点产生源数据,按照预置层级,依层级将所述源数据发送给后续层级中的工作节点,后续层级中工作节点根据接收到的源数据进行对应的处理,包括但不限于过滤、函数操作、合并、写数据库等操作。比如第一层中工作节点将所述源数据发送给第二层级中的2个工作节点,第二层中工作节点都进行对应的过滤操作,然后拆分为6个子数据随机发送给第三层中的多个工作节点,第三层中多个工作节点进行对应的函数操作,然后写入数据库中。
在最后一层处理对应子数据的工作节点处理完成时,向管理中心或者服务器反馈自身工作节点处理子数据的处理信息。本实施例中反馈最后一层工作节点处理的子数据的ID。管理中心或者服务器接收到所述处理信息后进入步骤S20。
步骤S20,根据所述处理信息更新所述源数据的处理状态;
在本实施例中,管理中心或者服务器可以根据在步骤S10中工作节点在处理过程中反馈的处理的子数据的ID,通过ID的产生规则进行分析,可以知道所述子数据经过的层级、每个层级分解的子数据的数量和对应的序号,从而知道所述源数据的处理状态。具体实施中如果接收到的不是ID,比如流转关系,则根据所述流转关系中包括每个层级工作节点的分解成对应子数据的数量和序号,然后管理中心或者服务器可以根据反馈的流转信息知道所述源数据的处理状态。
本实施例中,在第一次接收到最后一层工作节点反馈的处理信息时,可以同时新建一个对应所述源数据的有向无环图,即处理状态树。具体实施中也可以不新建对应所述源数据的有向无环图,比如工作节点在产生所述源数据时,同时生成对应的状态树,发送给管理中心或者服务器。在处理过程中,每次获得所述处理信息时,对应更新所述处理状态树。
步骤S30,根据所述处理信息判断所述处理状态是否达到完备状态;
根据接收到的所述处理信息,判断所述处理状态是否达到完备状态,所述完备状态时指所述待处理数据处理完成时,对应所述待处理数据的状态树的状态。本实施例中在每次接收到一个最后一层工作节点反馈的ID,根据ID产生规则分析,可以知道接收到的ID对应的子数据的序号、层级和上一层级分解的数量,从而判断倒数第二层的子数据是否处理完成。以此类推从而知道所述待处理数据的处理状态是否达到完备状态。比如根据ID:((1,1),(3,3),(2,2)),可以知道所述待处理数据经过3个层级,第一层将所述源数据分为3个子数据,3个子数据中序号为3的数据又分为2个子数据,在接收到包括(1,1),(3,3)的ID时,判断第二层中序号为3个子数据处理完成,其他数据进行类似判断。
步骤S40,当所述处理状态达到完备状态时,判定所述源数据处理完成。
根据步骤S30的判断结果,当所述待处理数据的处理状态达到完备状态时,判定所述源数据处理完成。
进一步地,在所述源数据处理完成时,通知产生所述源数据的工作节点,所述源数据处理完成。当然在所述源数据处理完成时,也可以不通知产生所述源数据的工作节点,比如在判定所述源数据处理失败时,通知产生所述源数据的工作节点所述源数据处理失败的消息。如果在预置时间内,产生所述源数据的工作节点没有接收到处理失败的信息,则判定所述源数据处理完成。
如果管理中心或者服务器在预置时间内没有接收到最后一层工作节点反馈的处理信息,则判定所述待处理数据处理失败。本发明可以在第一层工作节点产生待处理数据时开始计时,当然也可以在第一次接收到最后一层工作节点发送的处理信息时,开始计时。
具体实施中也可以在所述源数据处理成功和失败时都通知产生所述源数据的工作节点。在更多的实施中还可以在每次更新状态时,通知产生所述源数据的工作节点。
本发明通过接收最后一层工作节点处理子数据处理完成时反馈的处理信息,其中所述子数据是按预置层级处理源数据的工作节点分解所述源数据获得;根据所述处理信息更新所述源数据的处理状态。通过上述方式,本发明中只在最后一层处理所述源数据的工作节点,处理完成时,才发送反馈路径信息,不用在每个节点处理完成时就反馈处理信息,减少了处理过程中反馈信息占用的网络资源,并且可以避免因处理大量的反馈信息可能造成的消息阻塞的问题,能够提高实时计算系统的整体性能。
参照图3,图3为本发明实施例中根据所述处理信息更新所述源数据的处理状态的步骤的细化流程示意图。
基于本发明数据处理状态监控方法第一实施例,步骤S20可以包括:
步骤S21,根据所述源数据分解的数量和所述子数据对应的序号进行计算,获得计算结果;
管理中心或者服务器可以根据接收到的最后一层工作节点发送的路径进行计算,获得计算结果,比如根据接收到的ID:((1,1),(3,2),(2,2)),获得对应的源数据经过的路径为第一层中将所述待处理数据分解为3个第一子数据发送至第二层中工作节点进行处理,将序号为2的第一子数据分为2个第二子数据发送到第三层进行处理,此时接收到的一个序号为2的第二子数据的处理信息。然后进入步骤S22。
步骤S22,根据所述计算结果更新所述源数据的处理状态。
根据步骤S21获得的结算结果,更新所述源数据的处理状态,即更新所述源数据的有向无环图。
本发明进一步提供一种数据处理状态监控装置。
参照图4,图4为本发明数据处理状态监控装置第一实施例的功能模块示意图。
在本实施例中,该数据处理状态监控装置包括:
接收模块10,用于接收最后一层工作节点处理子数据处理完成时反馈的处理信息,其中所述子数据是按预置层级处理源数据的工作节点分解所述源数据获得。
本发明主要应用在分布式实时计算系统STORM中,当然本领域人员可以根据本发明思想应用在其他系统中。
在分布式实时计算系统STORM中,第一层包括有一个工作节点,第一层中工作节点用于产生源数据,可以从外部数据源中读取数据,转换为内部的源数据,或者用户在第一节点生成源数据,获得源数据后将所述源数据分解成至少一个子数据,按着预置层级依层级随机发送给后续层级进行处理,每层级中每个工作节点处理的数据的数量可能不同。比如第一层中工作节点将所述源数据分解成3个第一子数据发送给第二层级中3个工作节点进行处理,第二层中3个工作节点分别将接收到的第一子数据可能还会分成至少一个第二子数据,发送给第三层中工作节点进行处理。
在本实施例中每个节点在创建或者处理数据时,都可以在所处理的数据中添加对应的节点的ID,ID用于表示每个节点的标识,包括所述源数据分解的数量和对应的序号,产生规则如图2所示:第一层级的节点创建数据时,在所述源数据中添加对应的ID为(1,1),然后按着预置层级进行传递,如果第一层层级将所述源数据分解为3个子数据,分别发送给第二层中工作节点,则第二层中工作节点处理的子数据对应产生的ID分布为((1,1),(3,1))、((1,1),(3,2))、((1,1),(3,3));然后如果第二层中工作节点分别将获得的3个子数据再分为2个对应的子数据,则在第三层中工作节点要处理子数据的数量为5个,对于ID为((1,1),(3,1))的子数据处理过后传输给第三层中某个工作节点中时,分解为2个子数据,对应添加的ID分别为((1,1),(3,1),(2,1))和((1,1),(3,1),(2,2)),对于ID为((1,1),(3,2))的子数据处理过后传输给第三层中某个节点中时,未进行分解,对应添加的ID可以为((1,1),(3,2),(1,1)),对于ID为((1,1),(3,3))的子数据处理过后传输给第三层中某个节点中时,分解为3个子数据,对应添加的ID则可以为((1,1),(3,3),(3,1))、((1,1),(3,3),(3,2))和((1,1),(3,3),(3,3))。即在本实施例中在产生的子数据中添加的ID还包括上个源数据的ID。最后一层工作节点在处理完成时向管理中心反馈的路径信息,则可以为自身的ID。当然还可以设置其他ID产生规则,比如因为每个工作节点只知道自身处理数据分成的子数据的数量,则同样以图2中工作节点的拓扑结构为例,第一层工作节点中数据添加的ID与上述相同,为(1,1),第二层工作节点记录第一层工作将数据分解的数量为3,添加在数据中ID则可以为(3,1)、(3,2)和(3,3),并标记为第二层级,以此类推。最后一层工作节点处理完成时反馈的处理信息则包括每层级分解的数量和对应的序号。
第一层中工作节点产生源数据,按照预置层级,依层级将所述源数据发送给后续层级中的工作节点,后续层级中工作节点根据接收到的源数据进行对应的处理,包括但不限于过滤、函数操作、合并、写数据库等操作。比如第一层中工作节点将所述源数据发送给第二层级中的2个工作节点,第二层中工作节点都进行对应的过滤操作,然后拆分为6个子数据随机发送给第三层中的多个工作节点,第三层中多个工作节点进行对应的函数操作,然后写入数据库中。
在最后一层处理对应子数据的工作节点处理完成时,向管理中心或者服务器反馈自身工作节点处理子数据的处理信息。本实施例中反馈最后一层工作节点处理的子数据的ID。
更新模块20,用于根据所述处理信息更新所述源数据的处理状态。
在本实施例中,管理中心或者服务器可以根据在步骤S10中工作节点在处理过程中反馈的处理的子数据的ID,通过ID的产生规则进行分析,可以知道所述子数据经过的层级、每个层级分解的子数据的数量和对应的序号,从而知道所述源数据的处理状态。具体实施中如果接收到的不是ID,比如流转关系,则根据所述流转关系中包括每个层级工作节点的分解成对应子数据的数量和序号,然后管理中心或者服务器可以根据反馈的流转信息知道所述源数据的处理状态。
本实施例中,在第一次接收到最后一层工作节点反馈的处理信息时,可以同时新建一个对应所述源数据的有向无环图,即处理状态树。具体实施中也可以不新建对应所述源数据的有向无环图,比如工作节点在产生所述源数据时,同时生成对应的状态树,发送给管理中心或者服务器。在处理过程中,每次获得所述处理信息时,对应更新所述处理状态树。
判断模块30,用于根据所述处理信息判断所述处理状态是否达到完备状态。
根据接收到的所述处理信息,判断所述处理状态是否达到完备状态,所述完备状态时指所述待处理数据处理完成时,对应所述待处理数据的状态树的状态。本实施例中在每次接收到一个最后一层工作节点反馈的ID,根据ID产生规则分析,可以知道接收到的ID对应的子数据的序号、层级和上一层级分解的数量,从而判断倒数第二层的子数据是否处理完成。以此类推从而知道所述待处理数据的处理状态是否达到完备状态。比如根据ID:((1,1),(3,3),(2,2)),可以知道所述待处理数据经过3个层级,第一层将所述源数据分为3个子数据,3个子数据中序号为3的数据又分为2个子数据,在接收到包括(1,1),(3,3)的ID时,判断第二层中序号为3个子数据处理完成,其他数据进行类似判断。
第一判断模块40,用于当所述处理状态达到完备状态时,判定所述源数据处理完成。
根据判断模块30的判断结果,当所述待处理数据的处理状态达到完备状态时,判定所述源数据处理完成。
进一步地,所述装置还可以包括第二判断模块(图未示),用于当在预置时间内没有接收到最后一层处理所述源数据的工作节点处理完成时发送的处理信息时,判定所述源数据处理失败。
如果管理中心或者服务器在预置时间内没有接收到最后一层工作节点反馈的处理信息,则判定所述待处理数据处理失败。本发明可以在第一层工作节点产生待处理数据时开始计时,当然也可以在第一次接收到最后一层工作节点发送的处理信息时,开始计时。
进一步地,所述装置还包括通知模块(图未示),用于在判定所述源数据处理完成或者处理失败时,通知产生所述源数据的工作节点。
在所述源数据处理完成时,通知产生所述源数据的工作节点,所述源数据处理完成。当然在所述源数据处理完成时,也可以不通知产生所述源数据的工作节点,比如在判定所述源数据处理失败时,通知产生所述源数据的工作节点所述源数据处理失败的消息。具体实施中也可以在所述源数据处理成功和失败时都通知产生所述源数据的工作节点。在更多的实施中还可以在每次更新状态时,通知产生所述源数据的工作节点。
本发明通过接收最后一层工作节点处理子数据处理完成时反馈的处理信息,其中所述子数据是按预置层级处理源数据的工作节点分解所述源数据获得;根据所述处理信息更新所述源数据的处理状态。通过上述方式,本发明中只在最后一层处理所述源数据的工作节点,处理完成时,才发送反馈路径信息,不用在每个节点处理完成时就反馈处理信息,减少了处理过程中反馈信息占用的网络资源,并且可以避免因处理大量的反馈信息可能造成的消息阻塞的问题,能够提高实时计算系统的整体性能。
参阅图5,图5为本发明实施例中更新模块的细化功能模块示意图。
基于本发明数据处理状态监控装置第一实施例,更新模块20可以包括:
计算单元21,用于根据所述源数据分解的数量和所述子数据对应的序号进行计算,获得计算结果。
管理中心或者服务器可以根据接收到的最后一层工作节点发送的路径进行计算,获得计算结果,比如根据接收到的ID:((1,1),(3,2),(2,2)),获得对应的源数据经过的路径为第一层中将所述待处理数据分解为3个第一子数据发送至第二层中工作节点进行处理,将序号为2的第一子数据分为2个第二子数据发送到第三层进行处理,此时接收到的一个序号为2的第二子数据的处理信息。
更新单元22,用于根据所述计算结果更新所述源数据的处理状态。
根据计算单元21获得的结算结果,更新所述源数据的处理状态,即更新所述源数据的有向无环图。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种数据处理状态监控方法,其特征在于,所述方法包括以下步骤:
接收最后一层工作节点处理子数据处理完成时反馈的处理信息,其中所述子数据是按预置层级处理源数据的工作节点分解所述源数据获得,所述处理信息包括所述子数据的标识,所述标识包括所述源数据分解的数量和所述子数据对应的序号;
根据所述处理信息更新所述源数据的处理状态。
2.如权利要求1所述的方法,其特征在于,所述根据所述处理信息更新所述源数据的处理状态的步骤包括:
根据所述源数据分解的数量和所述子数据对应的序号进行计算,获得计算结果;
根据所述计算结果更新所述源数据的处理状态。
3.如权利要求1所述的方法,其特征在于,所述根据所述处理信息更新所述源数据的处理状态的步骤之后包括:
根据所述处理信息判断所述处理状态是否达到完备状态;
当所述处理状态达到完备状态时,判定所述源数据处理完成。
4.如权利要求1所述的方法,其特征在于,所述根据所述处理信息更新所述源数据的处理状态的步骤之后还包括:
当在预置时间内没有接收到最后一层处理所述源数据的工作节点处理完成时发送的处理信息时,判定所述源数据处理失败。
5.如权利要求3或4所述的方法,其特征在于,所述方法还包括:
在判定所述源数据处理完成或者处理失败时,通知产生所述源数据的工作节点。
6.一种数据处理状态监控装置,其特征在于,所述装置包括:
接收模块,用于接收最后一层工作节点处理子数据处理完成时反馈的处理信息,其中所述子数据是按预置层级处理源数据的工作节点分解所述源数据获得,所述处理信息包括所述子数据的标识,所述标识包括所述源数据的分解的数量和对应的序号;
更新模块,用于根据所述处理信息更新所述源数据的处理状态。
7.如权利要求6所述的装置,其特征在于,所述更新模块包括:
计算单元,用于根据所述源数据分解的数量和所述子数据对应的序号进行计算,获得计算结果;
更新单元,用于根据所述计算结果更新所述源数据的处理状态。
8.如权利要求6所述的装置,其特征在于,所述装置还包括:
判断模块,用于根据所述处理信息判断所述处理状态是否达到完备状态;
第一判定模块,用于当所述处理状态达到完备状态时,判定所述源数据处理完成。
9.如权利要求6所述的装置,其特征在于,所述装置还包括:
第二判定模块,用于当在预置时间内没有接收到最后一层处理所述源数据的工作节点处理完成时发送的处理信息时,判定所述源数据处理失败。
10.如权利要求8或9所述的装置,其特征在于,所述装置还包括:
通知模块,用于在判定所述源数据处理完成或者处理失败时,通知产生所述源数据的工作节点。
CN201510624732.2A 2015-09-25 2015-09-25 数据处理状态监控方法和装置 Active CN106559278B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201510624732.2A CN106559278B (zh) 2015-09-25 2015-09-25 数据处理状态监控方法和装置
US15/762,789 US10680974B2 (en) 2015-09-25 2016-02-23 Method and device for monitoring data processing status
PCT/CN2016/074367 WO2017049861A1 (zh) 2015-09-25 2016-02-23 数据处理状态监控方法和装置
EP16847749.5A EP3352418B1 (en) 2015-09-25 2016-02-23 Data processing status monitoring method and device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510624732.2A CN106559278B (zh) 2015-09-25 2015-09-25 数据处理状态监控方法和装置

Publications (2)

Publication Number Publication Date
CN106559278A CN106559278A (zh) 2017-04-05
CN106559278B true CN106559278B (zh) 2020-09-15

Family

ID=58385810

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510624732.2A Active CN106559278B (zh) 2015-09-25 2015-09-25 数据处理状态监控方法和装置

Country Status (4)

Country Link
US (1) US10680974B2 (zh)
EP (1) EP3352418B1 (zh)
CN (1) CN106559278B (zh)
WO (1) WO2017049861A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107526816B (zh) * 2017-08-28 2020-11-24 创新先进技术有限公司 一种流式分发记录的保存方法、装置及电子设备
CN109905443B (zh) * 2017-12-08 2022-07-05 北京京东尚科信息技术有限公司 数据处理方法、系统、电子设备和计算机可读介质
CN116088938B (zh) * 2023-04-12 2023-07-18 摩尔线程智能科技(北京)有限责任公司 一种连续指令处理方法及系统、电子设备和存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1955958A (zh) * 2005-10-26 2007-05-02 腾讯科技(深圳)有限公司 一种基于目录树的分类数据存储及分类目录查询方法
CN101610185A (zh) * 2009-06-23 2009-12-23 中兴通讯股份有限公司 告警屏蔽数据的压缩方法及压缩装置
CN102244518A (zh) * 2010-05-10 2011-11-16 百度在线网络技术(北京)有限公司 并行解压缩的硬件实现的系统及方法
CN102611630A (zh) * 2012-04-12 2012-07-25 迈普通信技术股份有限公司 一种报文接收控制方法及系统
CN103108002A (zh) * 2011-11-10 2013-05-15 阿里巴巴集团控股有限公司 一种数据推送方法、系统及装置
CN103346901A (zh) * 2013-06-07 2013-10-09 中国科学院信息工程研究所 一种面向数据流处理的元组跟踪方法及系统
CN103793470A (zh) * 2013-12-31 2014-05-14 远光软件股份有限公司 一种数据处理方法和装置
CN103793349A (zh) * 2013-12-27 2014-05-14 远光软件股份有限公司 一种数据处理方法及装置
CN104281627A (zh) * 2013-07-12 2015-01-14 阿里巴巴集团控股有限公司 一种报告数据处理结果的方法、系统及事件追踪器
CN104462313A (zh) * 2014-11-28 2015-03-25 北京奇虎科技有限公司 一种数据处理中的监控方法和装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9798830B2 (en) * 2012-09-14 2017-10-24 Hitachi, Ltd. Stream data multiprocessing method
US20140304545A1 (en) * 2013-04-05 2014-10-09 Hewlett-Packard Development Company, L.P. Recovering a failure in a data processing system
US10296392B2 (en) * 2015-04-17 2019-05-21 Microsoft Technology Licensing, Llc Implementing a multi-component service using plural hardware acceleration components

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1955958A (zh) * 2005-10-26 2007-05-02 腾讯科技(深圳)有限公司 一种基于目录树的分类数据存储及分类目录查询方法
CN101610185A (zh) * 2009-06-23 2009-12-23 中兴通讯股份有限公司 告警屏蔽数据的压缩方法及压缩装置
CN102244518A (zh) * 2010-05-10 2011-11-16 百度在线网络技术(北京)有限公司 并行解压缩的硬件实现的系统及方法
CN103108002A (zh) * 2011-11-10 2013-05-15 阿里巴巴集团控股有限公司 一种数据推送方法、系统及装置
CN102611630A (zh) * 2012-04-12 2012-07-25 迈普通信技术股份有限公司 一种报文接收控制方法及系统
CN103346901A (zh) * 2013-06-07 2013-10-09 中国科学院信息工程研究所 一种面向数据流处理的元组跟踪方法及系统
CN104281627A (zh) * 2013-07-12 2015-01-14 阿里巴巴集团控股有限公司 一种报告数据处理结果的方法、系统及事件追踪器
CN103793349A (zh) * 2013-12-27 2014-05-14 远光软件股份有限公司 一种数据处理方法及装置
CN103793470A (zh) * 2013-12-31 2014-05-14 远光软件股份有限公司 一种数据处理方法和装置
CN104462313A (zh) * 2014-11-28 2015-03-25 北京奇虎科技有限公司 一种数据处理中的监控方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"a managed distributed processing pipeline with storm and mesos";gragos denam mihai bucicoiu, mircea bardac;《2013 roedunet international conference 12th edition: networking education and reserch》;20130926;全文 *
"fault tolerant data flow using curator-storm";lavanya sainik, dheeraj khajuria;《2013 IEEE 4TH INTERNATIONAL CONFERENCE ON SOFTWARE ENGINEERING AND SERVICE SCIENCE》;20140627;全文 *

Also Published As

Publication number Publication date
EP3352418A1 (en) 2018-07-25
EP3352418B1 (en) 2020-06-10
WO2017049861A1 (zh) 2017-03-30
US10680974B2 (en) 2020-06-09
EP3352418A4 (en) 2018-08-29
CN106559278A (zh) 2017-04-05
US20180302339A1 (en) 2018-10-18

Similar Documents

Publication Publication Date Title
TWI751402B (zh) 一種資料同步方法、分散式系統、電腦可讀取儲取媒體、電腦設備及分散式設備
US10282473B2 (en) Task-crawling system and task-crawling method for distributed crawler system
CN110995513B (zh) 物联网系统中的数据发送、接收方法、物联网设备及平台
CN106559278B (zh) 数据处理状态监控方法和装置
CN106462612A (zh) 用于容错通信的系统和方法
CN106936620B (zh) 一种告警事件的处理方法和处理装置
WO2016005898A1 (en) Method for processing data quality exceptions in data processing system
CN103841111A (zh) 一种防止数据重复提交的方法和服务器
CN104486125A (zh) 配置文件的备份方法及装置
CN113900810A (zh) 分布式图处理方法、系统及存储介质
CN106210159B (zh) 一种域名解析方法和设备
CN104484167A (zh) 任务处理方法及装置
CN108846085B (zh) 一种id生成方法、装置、电子设备及系统
CN112416936B (zh) 一种dcs后台多节点协同组态标记名校验方法
CN103902429A (zh) 在自动化测试中进行预警的方法、服务器和系统
CN111552494B (zh) 一种容器组的管理方法、设备、系统及介质
CN106411684B (zh) 消息处理方法及装置
CN109389271B (zh) 应用性能管理方法及系统
US20210382872A1 (en) Blockchain-based Data Storage Method, Related Device and Storage Medium
CN108933681B (zh) 一种云计算系统配置更新方法、控制中心及云计算节点
CN109684058A (zh) 一种针对多租户可线性扩展的高效爬虫平台及其使用方法
WO2017032212A1 (zh) 一种数据流处理方法和装置
CN107493308B (zh) 一种发送消息的方法和装置及分布式设备集群系统
JP2019029921A (ja) 送信装置、受信装置、及び通信方法
CN110086660B (zh) 一种数据处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant