CN111818159B - 数据处理节点的管理方法、装置、设备及存储介质 - Google Patents

数据处理节点的管理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111818159B
CN111818159B CN202010652008.1A CN202010652008A CN111818159B CN 111818159 B CN111818159 B CN 111818159B CN 202010652008 A CN202010652008 A CN 202010652008A CN 111818159 B CN111818159 B CN 111818159B
Authority
CN
China
Prior art keywords
node
processing
task
data processing
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010652008.1A
Other languages
English (en)
Other versions
CN111818159A (zh
Inventor
贺俊华
刘保原
曾翔
余伯平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010652008.1A priority Critical patent/CN111818159B/zh
Publication of CN111818159A publication Critical patent/CN111818159A/zh
Priority to PCT/CN2021/097956 priority patent/WO2022007552A1/zh
Priority to US17/743,837 priority patent/US20220269564A1/en
Application granted granted Critical
Publication of CN111818159B publication Critical patent/CN111818159B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/142Reconfiguring to eliminate the error
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/203Failover techniques using migration
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/0757Error or fault detection not based on redundancy by exceeding limits by exceeding a time limit, i.e. time-out, e.g. watchdogs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2041Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant with more than one idle spare processing component
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5077Logical partitioning of resources; Management or configuration of virtualized resources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system
    • G06F9/5088Techniques for rebalancing the load in a distributed system involving task migration
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0668Management of faults, events, alarms or notifications using network fault recovery by dynamic selection of recovery network elements, e.g. replacement by the most appropriate element after failure
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0823Errors, e.g. transmission errors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/10Active monitoring, e.g. heartbeat, ping or trace-route
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues

Abstract

本申请公开了一种数据处理节点的管理方法、装置、设备及存储介质,属于云技术和大数据领域。所述方法包括:在检测到数据处理任务对应的处理节点集群中存在异常处理节点的情况下,获取异常处理节点的异常状态信息;若异常状态信息满足条件,则确定启用处理节点集群之外的辅助节点代替异常处理节点;在确定启用辅助节点的情况下,调整数据处理任务的执行策略;基于执行策略,确定辅助节点和处理节点集群中除异常处理节点之外的剩余处理节点对应的数据处理子任务;向辅助节点和剩余处理节点发送对应的任务执行指令。本申请提供的方案,能够提高数据处理的可靠性,保证数据处理任务能够顺利且高效地完成。

Description

数据处理节点的管理方法、装置、设备及存储介质
技术领域
本申请涉及云技术和大数据领域,特别涉及一种数据处理节点的管理方法、装置、设备及存储介质。
背景技术
大数据(Big Data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
在相关技术中,计算机设备采用并行计算(Parallel Computing)的方式对大数据进行数据处理。其中,并行计算是指同时使用多种计算资源解决计算问题的过程。并行计算的基本思想是用多个处理器来协同求解同一问题,即将被求解的问题分解成若干个部分,各部分均由一个独立的处理器来计算。也就是说,对于同一数据处理任务,计算机设备可以让不同的处理节点处理该数据处理任务中的不同部分,进而实现对大数据的并行计算。
然而,在相关技术中,在数据处理任务的处理过程中,若某个处理节点出现异常,则对应的数据处理任务无法正常完成,数据处理的可靠性低。
发明内容
本申请实施例提供了一种数据处理节点的管理方法、装置、设备及存储介质,能够提高数据处理的可靠性,保证数据处理任务能够顺利完成。所述技术方案如下:
根据本申请实施例的一个方面,提供了一种数据处理节点的管理方法,所述方法包括:
在检测到数据处理任务对应的处理节点集群中存在异常处理节点的情况下,获取所述异常处理节点的异常状态信息,所述处理节点集群中包括多个处理节点,所述多个处理节点用于协同执行所述数据处理任务;
若所述异常状态信息满足条件,则确定启用所述处理节点集群之外的辅助节点代替所述异常处理节点;
在确定启用所述辅助节点的情况下,调整所述数据处理任务的执行策略,所述执行策略用于指示针对所述数据处理任务的处理方式;
基于所述执行策略,确定所述辅助节点和所述处理节点集群中除所述异常处理节点之外的剩余处理节点对应的数据处理子任务;
向所述辅助节点和所述剩余处理节点发送对应的任务执行指令,所述任务执行指令用于指示所述辅助节点和所述剩余处理节点执行对应的数据处理子任务。
根据本申请实施例的一个方面,提供了一种数据处理节点的配置方法,所述方法包括:
获取数据处理任务;
确定所述数据处理任务对应的任务信息,所述任务信息是指所述数据处理任务在执行过程中针对于数据的处理情况的相关信息;
根据所述任务信息为所述数据处理任务配置处理节点集群,以及除所述处理节点集群之外的至少一个辅助节点;
其中,所述处理节点集群中包括多个处理节点,所述多个处理节点用于协同执行所述数据处理任务;所述辅助节点用于在所述处理节点集群中存在异常处理节点的情况下,代替所述异常处理节点执行任务。
根据本申请实施例的一个方面,提供了一种数据处理节点的管理装置,所述装置包括:
信息获取模块,用于在检测到数据处理任务对应的处理节点集群中存在异常处理节点的情况下,获取所述异常处理节点的异常状态信息,所述处理节点集群中包括多个处理节点,所述多个处理节点用于协同执行所述数据处理任务;
节点启用模块,用于若所述异常状态信息满足条件,则确定启用所述处理节点集群之外的辅助节点代替所述异常处理节点;
策略调整模块,用于在确定启用所述辅助节点的情况下,调整所述数据处理任务的执行策略,所述执行策略用于指示针对所述数据处理任务的处理方式;
任务确定模块,用于基于所述执行策略,确定所述辅助节点和所述处理节点集群中除所述异常处理节点之外的剩余处理节点对应的数据处理子任务;
指令发送模块,用于向所述辅助节点和所述剩余处理节点发送对应的任务执行指令,所述任务执行指令用于指示所述辅助节点和所述剩余处理节点执行对应的数据处理子任务。
根据本申请实施例的一个方面,提供了一种数据处理节点的配置装置,所述装置包括:
任务获取模块,用于获取数据处理任务;
信息确定模块,用于确定所述数据处理任务对应的任务信息,所述任务信息是指所述数据处理任务在执行过程中针对于数据的处理情况的相关信息;
节点配置模块,用于根据所述任务信息为所述数据处理任务配置处理节点集群,以及除所述处理节点集群之外的至少一个辅助节点;
其中,所述处理节点集群中包括多个处理节点,所述多个处理节点用于协同执行所述数据处理任务;所述辅助节点用于在所述处理节点集群中存在异常处理节点的情况下,代替所述异常处理节点执行任务。
根据本申请实施例的一个方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述数据处理节点的管理方法,或实现上述数据处理节点的配置方法。
根据本申请实施例的一个方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述数据处理节点的管理方法,或实现上述数据处理节点的配置方法。
根据本申请实施例的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述数据处理节点的管理方法,或执行上述数据处理节点的配置方法。
本申请实施例提供的技术方案可以带来如下有益效果:
通过辅助节点代替异常处理节点,避免处理节点异常造成的数据处理任务失败,提高数据处理的可靠性,保证数据处理任务能够顺利完成;在确定启用辅助节点时,对数据处理任务的执行策略进行调整,重新确定辅助节点和处理节点集群中除异常处理节点之外的剩余处理节点对应的数据处理子任务,保证辅助节点和剩余处理节点的正常工作,防止因数据处理任务分配不合理造成的数据处理效率低,有利于提高各个节点的数据处理效率,进而保证整个数据处理任务的处理效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个实施例提供的数据处理系统的示意图;
图2是本申请一个实施例提供的数据处理节点的管理方法的流程图;
图3是本申请一个实施例提供的数据处理节点的配置方法的流程图;
图4是本申请一个实施例提供的数据处理节点的管理装置的框图;
图5是本申请另一个实施例提供的数据处理节点的管理装置的框图;
图6是本申请一个实施例提供的数据处理节点的配置装置的框图;
图7是本申请另一个实施例提供的数据处理节点的配置装置的框图;
图8是本申请一个实施例提供的计算机设备的结构框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
请参考图1,其示出了本申请一个实施例提供的数据处理系统的示意图。该数据处理系统可以包括策略控制节点10、管理节点20、处理节点30和辅助节点40。
策略控制节点10用于确定管理节点20、处理节点30和辅助节点40的数量。可选地,策略控制节点10在获取数据处理任务之后,对该数据处理任务所需要处理的数据进行分析,确定该数据处理任务对应的任务信息。其中,该任务信息是指该数据处理任务在执行过程中针对于数据的处理信息,如数据处理量、任务处理时长、并行计算加速度比等。在一种可能的实施方式中,策略控制节点10根据数据处理量和任务处理时长,确定处理节点30的数量;进一步的,依据数据处理节点30的数量与并行加速度比,确定辅助节点40的数量;之后,依据管理节点20对处理节点30的管理能力,以及处理节点30的数量,确定管理节点20的数量。在本申请实施例中,策略控制节点10在确定上述管理节点20、处理节点30和辅助节点40的数量之后,向管理节点10发送数据处理信息,该数据处理信息中包括上述数据处理任务,以及该数据处理任务对应的管理节点20、处理节点30和辅助节点40的数量。
管理节点20用于管理处理节点30和辅助节点40。可选地,管理节点20可以向处理节点30和辅助节点40发送任务执行指令,该任务执行指令用于控制处理节点30和辅助节点40执行对应的操作。在一种可能的实施方式中,管理节点20控制处理节点30执行上述数据处理任务。可选地,管理节点20在接收上述数据处理信息之后,根据处理节点30的数量对该数据处理任务进行划分,确定每个处理节点30对应的数据处理子任务,进一步地,向处理节点30发送任务执行指令,该任务执行指令用于控制处理节点30执行对应的数据处理子任务。在另一种可能的实施方式中,管理节点20控制辅助节点40代替处理节点30执行上述数据处理任务。可选地,管理节点20在检测到处理节点30处于异常状态时,获取该处理节点30的异常原因,并根据该异常原因确定该处理节点30的修复耗时,并在修复耗时大于阈值时,确定启用辅助节点40代替处理节点30执行对应的数据处理任务,并向辅助节点40发送任务执行指令,该任务执行指令用于控制辅助节点40执行对应的数据处理子任务。需要说明的一点是,在本申请实施例中,管理节点20可以同时启动多个辅助节点40。
处理节点30用于执行数据处理任务。在本申请实施例中,多个处理节点30可以协同处理同一数据处理任务,该多个处理节点30可以组成处理节点集群。其中,处理节点30的数量由上述策略控制节点10确定,本申请实施例对此不作限定。可选地,处理节点30在接收到上述任务执行指令之后,根据该任务执行指令执行对应的数据处理子任务,并向管理节点20周期性发送测量报告,该测量报告包括任务处理信息和节点状态信息。其中,任务处理信息用于指示处理节点30的任务处理进度,节点状态信息用于指示处理节点30的工作状态。对应的,管理节点20在接收到该测量报告之后,根据该测量报告中的节点状态信息确定该处理节点30是否处于异常状态。
辅助节点40用于在处理节点30处于异常状态时代替该处理节点30执行数据处理任务。在本申请实施例中,辅助节点40可以在接收上述任务执行指令之后,根据该任务执行指令执行对应的数据处理子任务。可选地,若辅助节点40未接收到上述任务执行指令,则向管理节点20周期性发送心跳检测包,该心跳检测包用于向管理节点20表征辅助节点40处于可分配任务的状态;若辅助节点40接收到上述任务执行指令,则向管理节点周期性发送上述测量报告,该测量报告包括任务处理信息和节点状态信息。其中,任务处理信息用于指示辅助节点40的任务处理进度,节点状态信息用于指示辅助节点40的工作状态。
在本申请实施例中,上述数据处理任务可以是针对大数据的处理任务。其中,大数据(Bigdata)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。随着云时代的来临,大数据也吸引了越来越多的关注,大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。
上述图1所示的数据处理系统,可以构成云技术中的大数据处理系统。该大数据处理系统中可以包括多个服务器,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content DeliveryNetwork,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。上述策略控制节点10、管理节点20、处理节点30和辅助节点40可以部署在不同的服务器上,本申请实施例对此不作限定。
可选地,上述策略控制节点10、管理节点20、处理节点30和辅助节点40之间通过网络进行通信。
下面,将结合几个实施例对本申请技术方案进行详细的介绍说明。
请参考图2,其示出了本申请一个实施例提供的数据处理节点的管理方法的流程图。其中,各个步骤的执行主体可以是计算机设备,如图1数据处理系统中的管理节点20。该方法可以包括以下几个步骤(201~205):
步骤201,在检测到数据处理任务对应的处理节点集群中存在异常处理节点的情况下,获取异常处理节点的异常状态信息。
数据处理任务是指对某部分数据进行处理的任务,如数据遍历、数据存储、数据转换和数据可视化等。可选地,该数据处理任务可以是针对所有类型的数据进行处理的任务,也可以是针对大数据进行处理的任务,本申请实施例对此不作限定。
处理节点集群是指包括多个处理节点的节点集群。在本申请实施例中,该多个处理节点用于协同执行上述数据处理任务。可选地,管理节点在获取上述数据处理任务之后,可以根据处理节点对该数据处理任务进行划分,确定不同的处理节点对应的数据处理子任务。
在一种可能的实施方式中,管理节点根据处理节点的数量对数据处理任务进行划分。可选地,管理节点在获取上述数据处理任务之后,依据该数据处理任务对应的数据处理量和处理节点对应的数量,对该数据处理任务进行平均划分,确定每个处理节点对应的数据处理子任务的数据处理量相同,保证处理节点的工作负荷均衡。
在另一种可能的实施方式中,管理节点根据数据处理节点的工作能力对数据处理任务进行划分。可选地,管理节点在获取上述数据处理任务之后,依据该数据处理任务对应的数据处理量和各个处理节点的数据处理效率,对该数据处理任务进行划分,确定每个处理节点对应的数据处理子任务,避免处理节点超负荷工作。
在再一种可能的实施方式中,管理节点根据数据处理节点的工作类型对数据处理任务进行划分。可选地,管理节点再获取上述数据处理任务之后,依据该数据处理任务对应的数据处理类型和各个处理节点的工作类型,对该数据处理任务进行划分,确定每个处理节点对应的数据处理子任务,以保证各个处理节点的高效处理效率。以数据转换为例,假设数据转换任务中包括A数据与B数据之间的转换,则将A数据对B数据的数据转换任务划分至第一处理节点,将B数据对A数据的数据转换任务划分至第二处理节点。
可选地,在本申请实施例中,管理节点在确定各个处理节点对应的数据处理子任务之后,可以生成任务清单,并向辅助节点发送该任务请求。其中,该任务清单中记录了处理节点与数据处理子任务之间的对应关系。
异常处理节点是指处于非正常工作状态中的处理节点,如处理节点的存储器损坏造成的处理节点无法正常工作。异常状态信息用于指示某个处理节点处于非正常工作状态的原因。在本申请实施例中,管理节点在检测到数据处理任务对应的处理节点集群中存在异常处理节点的情况下,获取异常处理节点的异常状态信息。
可选地,管理节点可以通过测量报告是否存在异常来确定处理节点是否为异常处理节点。其中,上述测量报告是指用于向管理节点报告节点状态和数据处理进度的报告。可选地,上述步骤201之前包括以下几个子步骤:
1、获取处理节点集群中各处理节点发送的测量报告。
测量报告中包括任务处理信息和节点状态信息。其中,任务处理信息用于指示处理节点的任务处理进度,节点状态信息用于指示处理节点的工作状态。
在本申请实施例中,处理节点在执行上述数据处理子任务的过程中,可以周期性地向管理节点发送测量报告。对应于,管理节点接收该测量报告,并依据该测量报告对处理节点的节点状态和数据处理进度进行检测。
2、若来自于目标处理节点的测量报告存在异常,则确定目标处理节点为异常处理节点。
可选地,若管理节点判定来自于目标处理节点的测量报告存在异常,则确定该目标处理节点为异常处理节点。其中,测量报告存在异常包括以下至少一项:测量报告中包含的任务处理信息存在异常、测量报告中包含的节点状态信息存在异常、超过设定时长未接收到测量报告。
在一种可能的实施方式中,管理节点接收到目标处理节点的测量报告之后,对该测量报告中的任务处理信息进行分析,确定该任务处理信息存在异常,如任务处理信息对应的任务处理进度低于预期目标值,进一步地确定该目标处理节点为异常处理节点。
在另一种可能的实施方式中,管理节点接收到目标处理节点的测量报告之后,对该测量报告中的节点状态信息进行分析,确定该节点状态信息存在异常,如节点状态信息指示该目标处理节点处于低速率工作状态,进一步地确定该目标处理节点为异常处理节点。
在再一种可能的实施方式中,管理节点超过设定时长未接收到测量报告,确定目标处理节点的测量报告存在异常,进而确定目标处理节点为异常处理节点。在一种可能的实施方式中,若管理节点在第一时长内未接收到上述测量报告,则确定该测量报告存在异常,目标处理节点为异常处理节点。在另一种可能的实施方式中,若管理节点在第一时长内未接收到上述测量报告,则向上述目标处理节点发送报告获取请求,该报告获取请求用于向目标处理节点请求获取测量报告。对应的,若目标处理节点在第二时长内向管理节点反馈对应的测量报告,则管理节点依据测量报告判断该目标处理节点是否为异常处理节点;若目标处理节点在第二时长内未向管理节点反馈对应的测量报告,则管理节点确定该目标处理节点为异常处理节点。
可选地,在本申请实施例中,管理节点在确定数据处理任务对应的处理节点集群中存在异常处理节点的情况下,获取该异常处理节点的异常状态信息。在一种可能的实施方式中,异常处理节点在向管理节点发送测量报告的同时,发送对应的异常状态信息,例如,该异常状态信息存在于上述测量报告中。在另一种可能的实施方式中,管理节点在确定异常处理节点之后,向该异常处理节点发送状态信息获取请求,该状态信息获取请求用于请求获取异常处理节点对应的异常状态信息。对应的,异常处理节点根据状态信息获取请求向管理节点发送对应的异常状态信息。
步骤202,若异常状态信息满足条件,则确定启用处理节点集群之外的辅助节点代替异常处理节点。
条件是指用于判定是否启用辅助节点的判断条件。在本申请实施例中,管理节点在获取上述异常处理节点的异常状态信息之后,可以对该异常状态信息进行分析,若该异常状态信息满足条件,则确定启用处理节点集群之外的辅助节点代替该异常处理节点。
在一种可能的实施方式中,管理节点在获取上述异常状态信息之后,根据该异常状态信息确定上述异常处理节点的异常原因。其中,该异常原因可以包括于异常状态信息中,管理节点在获取异常状态信息之后,直接从该异常状态信息中确定异常原因。进一步地,管理节点在获取异常原因之后,根据该异常原因确定异常处理节点的修复成本,该修复成本是指修复上述异常处理节点所消耗的资源,如修复耗时、修复操作难易度和修复所需要的数据等。可选地,在上述修复成本大于阈值时,则确定修改该异常处理节点的性价比低,启用所述辅助节点代替所述异常处理节点。
在另一种可能的实施方式中,管理节点无法获取上述异常状态信息。可选地,若异常处理节点为无法发送信息的处理节点,则管理节点可以在未获取异常状态信息的情况下,确定该异常处理节点不可修复,并确定启用辅助节点代替该异常处理节点。例如,若该异常处理节点无法发送测量报告,则管理节点可以默认该异常处理节点无法发送异常状态信息,确定启用辅助节点代替该异常处理节点。
需要说明的一点是,在本申请实施例中,管理节点在确定启用辅助节点代替上述异常处理节点之后,可以对该异常处理节点进行修复配置,将该异常处理节点转换为辅助节点。可选地,上述步骤202之后包括以下几个子步骤:
1、向异常处理节点发送修复指令。
修复指令用于对上述异常处理节点进行修复。可选地,管理节点在确定启用辅助节点代替上述异常处理节点之后,在辅助节点执行数据处理任务的同时,对异常处理节点进行修复,向该异常处理节点发送修复指令。
可选地,上述修复指令包括用于修复该异常处理节点的修复操作。可选地,管理节点在确定上述异常原因之后,基于上述异常原因确定针对于异常处理节点的修复操作,并根据该修复操作生成修复指令,向异常处理节点发送该修复指令。对应的,异常处理节点在接收到上述修复指令之后,根据该修复指令中的修复操作进行自身修复。
在一种可能的实施方式中,上述修复操作中包括修复数据。可选地,异常处理节点在接收到上述修复指令之后,可以根据修复指令获取修复数据,并根据修复操作中的操作指示对该修复数据执行对应的操作,以进行自身修复。在另一种可能的实施方式中,为了防止修复数据传输失败,上述修复指令还包括修复数据的获取地址和/或标识信息。可选地,异常处理节点在接收到上述修复指令之后,可以根据修复指令获取修复数据获取地址和/或标识信息,并依据该获取地址和/或标识信息获取修复数据,进一步地,根据修复操作中的操作指示对该修复数据执行对应的操作,以进行自身修复。
2、若接收到来自于异常处理节点的修复完成响应,确定异常处理节点从异常状态恢复至正常状态。
修复完成响应用于指示上述异常处理节点完成自身修复。可选地,若异常处理节点根据上述修复指令成功完成自身修复,则向管理节点发送修复完成响应。对应的,在管理节点接收到来自于异常处理节点的修复完成响应时,确定该异常处理节点从异常状态恢复至正常状态。其中,正常状态是指异常处理节点能够正常工作的状态。
3、向异常处理节点发送配置信息。
配置信息用于将异常处理节点配置为辅助节点。可选地,管理节点在确定上述异常处理节点恢复至正常状态时,向异常处理节点发送配置信息。对应的,该异常处理节点根据该配置信息进行配置,将异常处理节点转换为辅助节点。
可选地,上述配置信息中可以包括针对于辅助节点的全部配置信息,也可以包括辅助节点相对于异常处理节点需要重新配置的部分对应的信息,本申请实施例对此不作限定。
4、若接收到来自于异常处理节点的配置完成响应,确定异常处理节点转换为辅助节点。
配置完成响应用于指示上述异常处理节点完成配置。可选地,若异常处理节点根据上述配置信息成功完成配置之后,可以向管理节点发送配置完成响应。对应的,在管理节点接收到来自于异常处理节点的配置完成响应时,确定异常处理节点转换为辅助节点。
可选地,该异常处理节点转换为辅助节点之后,可以周期性地向管理节点发送心跳检测包,该心跳检测包用于向管理节点表征该异常处理节点处于可分配任务的状态。
步骤203,在确定启用辅助节点的情况下,调整数据处理任务的执行策略。
执行策略用于指示针对数据处理任务的处理方式,如针对数据处理任务的划分方式、针对数据处理任务的执行方式等。可选地,管理节点可以根据该执行策略,确定辅助节点或处理节点集群中除异常处理节点之外的剩余处理节点对应的数据处理子任务。在本申请实施例中,管理节点在确定使用启用辅助节点的情况下,调整上述数据处理任务的执行策略,以保证数据处理任务能够顺利完成。
需要说明的一点是,在本申请实施例中,可以设置数据处理任务的策略调整次数。其中,策略调整次数用于显示针对于上述数据处理任务的策略调整次数。可选地,上述步骤203之后包括以下几个子步骤:
1、记录针对数据处理任务的策略调整次数;
2、响应于策略调整次数等于门限值,将数据处理任务的执行策略从可调整状态切换至不可调整状态。
门限值是指上述策略调整次数的最大上限值,即该策略调整次数对应的最大调整次数。其中,该门限值可以是设计人员根据经验所设置的数值。可调整状态是指数据处理任务对应的执行策略可以进行调整的状态,不可调整状态是指数据处理任务对应的执行策略不可以进行调整的状态。
在本申请实施例中,管理节点在调整数据处理任务的执行策略之后,记录针对该数据处理任务的策略调整次数。若策略调整次数等于门限值,则将数据处理任务的执行策略从可调整状态切换至不可调整状态。
可选地,在数据处理任务的执行策略切换至不可调整状态之后,若处理节点集群中除异常处理节点之外的剩余处理节点中存在异常处理节点,则确定该数据处理任务执行失败,并记录该数据处理任务的失败原因。
步骤204,基于执行策略,确定辅助节点和处理节点集群中除异常处理节点之外的剩余处理节点对应的数据处理子任务。
在本申请实施例中,管理节点在确定执行策略之后,基于该执行策略,确定辅助节点和处理节点集群中除异常处理节点之外的剩余处理节点对应的数据处理子任务。在一种可能的实施方式中,为了保证数据处理任务能够在规定时间内完成,管理节点可以根据数据处理任务的处理进度确定辅助节点的数量。可选地,上述步骤204包括以下几个子步骤:
1、基于执行策略和数据处理任务的处理进度,确定辅助节点的启用数量m。
数据处理任务的处理进度是指在异常处理节点出现之前,数据处理任务中已完成的部分与数据处理任务的全部之间的比值。可选地,在确定上述执行策略之后,管理节点可以根据该执行策略所指示的针对数据处理任务的处理方式,获取数据处理任务的处理进度,并根据该数据处理任务处理任务的处理进度,确定数据处理任务的未完成部分,根据辅助节点对数据的处理效率,确定辅助节点的数量m。其中,m为正整数。
2、对数据处理任务的未处理部分进行划分,确定m个辅助节点和剩余处理节点对应的数据处理子任务。
在本申请实施例中,在确定辅助节点的数量之后,管理节点可以对数据数据处理任务的未处理部分进行划分,确定m个辅助节点和剩余处理节点对应的数据处理子任务。
需要说明的一点是,对数据处理任务的未处理部分的划分方式与步骤201中所介绍的划分方式类似,在此不作赘述。
可选地,管理节点在确定上述数据处理子任务之后,可以根据生成新的任务清单,并向除所确定的辅助节点之外的剩余辅助节点发送新的任务清单。
步骤205,向辅助节点和剩余处理节点发送对应的任务执行指令。
任务执行指令用于指示辅助节点和剩余处理节点执行对应的数据处理子任务。在本申请实施例中,管理节点在确定上述数据处理子任务之后,向辅助节点和剩余处理节点发送对应的任务执行指令。对应的,辅助节点和剩余处理节点接收到该任务执行指令之后,执行对应的数据处理子任务。
可选地,辅助节点和剩余处理节点接收到该任务执行指令之后,还可以向管理节点周期性地发送测量报告。
综上所述,本申请实施例提供的技术方案中,通过辅助节点代替异常处理节点,避免处理节点异常造成的数据处理任务失败,提高数据处理的可靠性,保证数据处理任务能够顺利完成;在确定启用辅助节点时,对数据处理任务的执行策略进行调整,重新确定辅助节点和处理节点集群中除异常处理节点之外的剩余处理节点对应的数据处理子任务,保证辅助节点和剩余处理节点的正常工作,防止因数据处理任务分配不合理造成的数据处理效率低,有利于提高各个节点的数据处理效率,进而保证整个数据处理任务的处理效率。
另外,根据执行策略和数据数据处理任务的处理进度,确定所启用的辅助节点的数量,确保数据处理任务的处理效率,保证数据处理任务的顺利完成。
另外,对数据处理任务的策略执行次数进行限制,防止因不可挽回的原因造成数据处理任务不断执行失败而触发多次策略调整机制,造成不必要的处理开销。
另外,在确定启用辅助节点代替所述异常处理节点之后,对异常处理节点进行修复配置,将异常处理节点转换为辅助节点,对启用辅助节点之后对辅助节点进行数量补充,保证数据处理节点系统有足够的辅助节点。
下面,对数据处理任务的执行策略的调整方式进行介绍。
在一种可能的实施方式中,管理节点根据异常处理节点的数量确定执行策略。可选地,管理节点在确定启用辅助节点之后,获取异常处理节点的数量。若该异常处理节点的数量大于门限值,则确定执行任务重分片策略。此时,上述执行策略中包括任务重分片策略,该任务重分片策略是指对数据处理任务的未处理部分进行重新划分的策略。可选地,管理节点在确定任务重分片策略之后,对数据处理任务的未处理部分进行重分片,确定辅助节点和剩余处理节点对应的数据处理子任务。
在另一种可能的实施方式中,管理节点通过异常处理节点的数据子任务处理进度确定执行策略。可选地,管理节点在确定启用辅助节点之后,向异常处理节点发送进度查询请求,该进度查询请求用于请求获取异常处理节点的任务处理进度。若接收到来自于该异常处理节点的数据丢失响应,则确定执行二次计算策略,该数据丢失响应用于指示异常处理节点对应的数据处理子任务的已处理数据丢失。此时,上述执行策略包括二次计算策略,二次计算策略是指辅助节点重新执行异常处理节点对应的数据处理子任务的策略。可选地,管理节点在确定二次计算策略之后,对异常处理节点的数据处理子任务的未处理部分进行重分片,确定辅助节点对应的数据处理子任务。当然,若异常处理节点对应的数据处理子任务的已处理数据未丢失,则管理节点也可以确定执行策略为由辅助节点执行异常处理节点对应的数据处理子任务的未完成部分。
请参考图3,其示出了本申请一个实施例提供的数据处理节点的配置方法的流程图。其中,各个步骤的执行主体可以是计算机设备,如图1数据处理系统中的策略控制节点10。该方法可以包括以下几个步骤(301~303):
步骤301,获取数据处理任务。
数据处理任务是指对某部分数据进行处理的任务,如数据遍历、数据存储、数据转换和数据可视化等。可选地,该数据处理任务可以是针对所有类型的数据进行处理的任务,也可以是针对大数据进行处理的任务,本申请实施例对此不作限定。
在本申请实施例中,策略控制节点可以从数据处理任务的存储列表中获取数据处理任务。该存储列表用于存储各种数据处理任务,避免策略控制节点因接收过多的数据处理任务而超负荷工作。
步骤302,确定数据处理任务对应的任务信息。
任务信息是指数据处理任务在执行过程中针对于数据的处理情况的相关信息。可选地,策略控制节点可以根据该任务信息为上述数据处理任务配置对应的处理节点和辅助节点。在本申请实施例中,策略控制节点在获取上述数据处理任务之后,可以根据对该数据处理任务进行分析,确定该数据处理任务对应的任务信息。
步骤303,根据任务信息为数据处理任务配置处理节点集群,以及除处理节点集群之外的至少一个辅助节点。
处理节点集群是指包括多个处理节点的节点集群。在本申请实施例中,该多个处理节点用于协同执行上述数据处理任务。辅助节点用于在处理节点集群中存在异常处理节点的情况下,代替异常处理节点执行任务。换句话说,处理节点集群是为数据处理任务配置的用于协同处理该数据处理任务的多个处理节点所构成的集合,该处理节点集群中的每一个处理节点都要执行该数据处理任务中的一部分任务。辅助节点是在处理节点集群之外,额外配置的节点,这部分额外配置的节点具有与处理节点相同或相似的处理能力,能够在处理节点发生异常时顶替处理节点执行任务。
可选地,上述任务信息包括并行计算加速度比、任务处理时长和数据处理量。其中,并行计算加速度比用于表征针对于上述数据处理任务的并行计算效率;任务处理时长是指上述数据处理任务执行完成所需要的时长,该任务处理时长可以是策略控制节点计算的预期时长,也可以是数据处理任务对应的要求时长,本申请实施例对此不作限定;数据处理量是指数据处理任务对应的所需要处理的数据量。
在本申请实施例中,策略控制节点可以根据上述并行计算加速度比、任务处理时长和数据处理量,确定处理节点和辅助节点的数量。可选地,策略控制节点在获取上述任务信息之后,可以根据任务处理时长和数据处理量,确定处理节点的数量,保证数据处理任务在任务处理时长内能够顺利完成。进一步地,在并行计算加速度比达到上限值的情况下,确定处理节点和辅助节点之间的比例,保证数据处理任务的最佳处理效率,其中,上述上限值可以并行计算加速度比的最大值,也可以是设计人员根据实际经验设置的数值,本申请实施例对此不做限定。之后,策略控制节点依据处理节点和辅助节点之间的比例,根据上述处理节点的数量,进而确定辅助节点的数量。
需要说明的一点是,在本申请实施例中,策略控制节点还可以确定管理节点的数量。可选地,策略控制节点在确定处理节点的数量之后,获取管理节点的最大管理数量,该最大管理数量是指单个管理节点所能管理的处理节点的最大数量;进一步地,根据最大管理数量和处理节点的数量,确定管理节点的数量。此时,管理节点的数量与处理节点的数量之间满足管理节点管理每个处理节点时不需要等待时长。
可选地,策略控制节点在确定上述管理节点、处理节点和辅助节点的数量之后,向管理节点发送数据处理信息,该数据处理信息中包括上述数据处理任务,以及该数据处理任务对应的管理节点、处理节点和辅助节点的数量。
当然,在其它可能的实施方式中,策略控制节点也可以根据数据处理任务对应的数据处理类型,确定具体的处理节点或辅助节点。例如,若数据数据任务为数据可视化,则策略控制节点选择对数据处理可视化效率高的处理节点和辅助节点,并将该处理节点和辅助节点的标识发送至管理节点。
综上所述,在本申请实施例提供的技术方案中,通过数据处理任务对应的任务信息确定各个节点的数量,即针对不同的数据处理任务配置不同的节点数量,避免节点数量过少造成的数据处理任务耗时过长,或者节点数量过多造成的资源浪费,在保证数据处理任务的可靠性的同时,减少不必要的资源浪费。
需要说明的一点是,上述对各个步骤的介绍指示示例性和解释性的,在实际运用中,各个步骤的执行主体与本申请的介绍可以存在不同。例如,上述管理节点可以执行策略控制节点对应的数据处理节点的配置方法;或者,由另外的节点执行数据处理任务的划分步骤等等,本申请实施例对此不作限定。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
请参考图4,其示出了本申请一个实施例提供的数据处理节点的管理装置的框图。该装置具有实现上述数据处理节点的管理方法的功能,所述功能可以由硬件实现,也可以由硬件执行相应的软件实现。该装置可以是计算机设备,也可以设置计算机设备中。该装置400可以包括:信息获取模块401、节点启用模块402、策略调整模块403、任务确定模块404和指令发送模块405。
信息获取模块401,用于在检测到数据处理任务对应的处理节点集群中存在异常处理节点的情况下,获取所述异常处理节点的异常状态信息,所述处理节点集群中包括多个处理节点,所述多个处理节点用于协同执行所述数据处理任务。
节点启用模块402,用于若所述异常状态信息满足条件,则确定启用所述处理节点集群之外的辅助节点代替所述异常处理节点。
策略调整模块403,用于在确定启用所述辅助节点的情况下,调整所述数据处理任务的执行策略,所述执行策略用于指示针对所述数据处理任务的处理方式。
任务确定模块404用于基于所述执行策略,确定所述辅助节点和所述处理节点集群中除所述异常处理节点之外的剩余处理节点对应的数据处理子任务。
指令发送模块405,用于向所述辅助节点和所述剩余处理节点发送对应的任务执行指令,所述任务执行指令用于指示所述辅助节点和所述剩余处理节点执行对应的数据处理子任务。
在示例性实施例中,所述策略调整模块403,用于获取所述异常处理节点的数量;若所述异常处理节点的数量大于门限值,则确定执行任务重分片策略;其中,所述执行策略包括所述任务重分片策略,所述任务重分片策略是指对所述数据处理任务的未处理部分进行重新划分的策略。
在示例性实施例中,所述策略调整模块403,用于向所述异常处理节点发送进度查询请求,所述进度查询请求用于请求获取所述异常处理节点的任务处理进度;若接收到来自于所述异常处理节点的数据丢失响应,则确定执行二次计算策略,所述数据丢失响应用于指示所述异常处理节点对应的数据处理子任务的已处理数据丢失;其中,所述执行策略包括所述二次计算策略,所述二次计算策略是指所述辅助节点重新执行所述异常处理节点对应的数据处理子任务的策略。
在示例性实施例中,所述任务确定模块404,用于基于所述执行策略和所述数据处理任务的处理进度,确定所述辅助节点的启用数量m,所述m为正整数;对所述数据处理任务的未处理部分进行划分,确定所述m个辅助节点和所述剩余处理节点对应的数据处理子任务。
在示例性实施例中,如图5所示,所述装置400还包括:原因确定模块406、时长确定模块407和节点确定模块408。
原因确定模块406,用于根据所述异常状态信息确定所述异常处理节点的异常原因。
时长确定模块407,用于根据所述异常原因确定所述异常处理节点的修复耗时。
节点确定模块408,用于若所述修复耗时大于阈值,则确定启用所述辅助节点代替所述异常处理节点。
在示例性实施例中,如图5所示,所述装置400还包括:次数记录模块409和状态切换模块410。
次数记录模块409,用于记录针对所述数据处理任务的策略调整次数。
状态切换模块410,用于响应于所述策略调整次数等于门限值,将所述数据处理任务的执行策略从可调整状态切换至不可调整状态。
在示例性实施例中,如图5所示,所述装置400还包括:节点修复模块411。
节点修复模块411,用于向所述异常处理节点发送修复指令,所述修复指令包括用于修复所述异常处理节点的修复数据;若接收到来自于所述异常处理节点的修复完成响应,确定所述异常处理节点从异常状态恢复至正常状态;向所述异常处理节点发送配置信息,所述配置信息用于将所述异常处理节点配置为所述辅助节点;若接收到来自于所述异常处理节点的配置完成响应,确定所述异常处理节点转换为所述辅助节点。
在示例性实施例中,如图5所示,所述装置400还包括:异常确定模块412。
异常确定模块412,用于获取所述处理节点集群中各处理节点发送的测量报告,所述测量报告包括任务处理信息和节点状态信息;其中,所述任务处理信息用于指示所述处理节点的任务处理进度,所述节点状态信息用于指示所述处理节点的工作状态;若来自于目标处理节点的测量报告存在异常,则确定所述目标处理节点为所述异常处理节点;其中,所述测量报告存在异常包括以下至少一项:所述测量报告中包含的任务处理信息存在异常、所述测量报告中包含的节点状态信息存在异常、超过设定时长未接收到所述测量报告。
综上所述,本申请实施例提供的技术方案中,通过辅助节点代替异常处理节点,避免处理节点异常造成的数据处理任务失败,提高数据处理的可靠性,保证数据处理任务能够顺利完成;在确定启用辅助节点时,对数据处理任务的执行策略进行调整,重新确定辅助节点和处理节点集群中除异常处理节点之外的剩余处理节点对应的数据处理子任务,保证辅助节点和剩余处理节点的正常工作,防止因数据处理任务分配不合理造成的数据处理效率低,有利于提高各个节点的数据处理效率,进而保证整个数据处理任务的处理效率。
请参考图6,其示出了本申请一个实施例提供的数据处理节点的配置装置的框图。该装置具有实现上述数据处理节点的配置方法的功能,所述功能可以由硬件实现,也可以由硬件执行相应的软件实现。该装置可以是计算机设备,也可以设置计算机设备中。该装置600可以包括:任务获取模块601、信息确定模块602和节点配置模块603。
任务获取模块601,用于获取数据处理任务。
信息确定模块602,用于确定所述数据处理任务对应的任务信息,所述任务信息是指所述数据处理任务在执行过程中针对于数据的处理情况的相关信息。
节点配置模块603,用于根据所述任务信息为所述数据处理任务配置处理节点集群,以及除所述处理节点集群之外的至少一个辅助节点。
其中,所述处理节点集群中包括多个处理节点,所述多个处理节点用于协同执行所述数据处理任务;所述辅助节点用于在所述处理节点集群中存在异常处理节点的情况下,代替所述异常处理节点执行任务。
在示例性实施例中,所述任务信息包括并行计算加速度比、任务处理时长和数据处理量;所述节点配置模块,用于根据所述任务处理时长和所述数据处理量,确定所述处理节点的数量;在所述并行计算加速度比达到上限值的情况下,确定所述处理节点和所述辅助节点之间的比例;依据所述处理节点和所述辅助节点之间的比例,根据所述处理节点的数量,确定所述辅助节点的数量。
在示例性实施例中,如图7所示,所述装置600还包括:数量获取模块604和数量确定模块605。
数量获取模块604,用于获取管理节点的最大管理数量,所述最大管理数量是指单个所述管理节点所能管理的所述处理节点的最大数量。
数量确定模块605,用于根据所述最大管理数量和所述处理节点的数量,确定所述管理节点的数量。
综上所述,本申请实施例提供的技术方案中,通过辅助节点代替异常处理节点,避免处理节点异常造成的数据处理任务失败,提高数据处理的可靠性,保证数据处理任务能够顺利完成;在确定启用辅助节点时,对数据处理任务的执行策略进行调整,重新确定辅助节点和处理节点集群中除异常处理节点之外的剩余处理节点对应的数据处理子任务,保证辅助节点和剩余处理节点的正常工作,防止因数据处理任务分配不合理造成的数据处理效率低,有利于提高各个节点的数据处理效率。
需要说明的是,上述实施例提供的装置,在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
请参考图8,其示出了本申请一个实施例提供的计算机设备的结构框图。该计算机设备可用于实现上述数据处理节点的管理方法,或实现数据处理节点的配置方法的功能。具体来讲:
计算机设备800包括中央处理单元(Central Processing Unit,CPU)801、包括随机存取存储器(Random Access Memory,RAM)802和只读存储器(Read Only Memory,ROM)803的系统存储器804,以及连接系统存储器804和中央处理单元801的系统总线805。计算机设备800还包括帮助计算机内的各个器件之间传输信息的基本输入/输出(Input/Output,I/O)系统806,和用于存储操作系统813、应用程序814和其他程序模块812的大容量存储设备807。
基本输入/输出系统806包括有用于显示信息的显示器808和用于用户输入信息的诸如鼠标、键盘之类的输入设备809。其中显示器808和输入设备809都通过连接到系统总线805的输入输出控制器88连接到中央处理单元801。基本输入/输出系统806还可以包括输入输出控制器810以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器810还提供输出到显示屏、打印机或其他类型的输出设备。
大容量存储设备807通过连接到系统总线805的大容量存储控制器(未示出)连接到中央处理单元801。大容量存储设备807及其相关联的计算机可读介质为计算机设备800提供非易失性存储。也就是说,大容量存储设备807可以包括诸如硬盘或者CD-ROM(CompactDisc Read-Only Memory,只读光盘)驱动器之类的计算机可读介质(未示出)。
不失一般性,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM(Erasable Programmable Read Only Memory,可擦除可编程只读存储器)、EEPROM(Electrically Erasable Programmable Read Only Memory,电可擦可编程只读存储器)、闪存或其他固态存储其技术,CD-ROM、DVD(Digital Video Disc,高密度数字视频光盘)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器804和大容量存储设备807可以统称为存储器。
根据本申请的各种实施例,计算机设备800还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备800可以通过连接在系统总线805上的网络接口单元811连接到网络812,或者说,也可以使用网络接口单元811来连接到其他类型的网络或远程计算机系统(未示出)。
所述存储器还包括计算机程序,该计算机程序存储于存储器中,且经配置以由一个或者一个以上处理器执行,以实现上述数据处理节点的管理方法,或实现上述数据处理节点的配置方法。
在示例性实施例中,还提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或所述指令集在被处理器执行时以实现上述数据处理节点的管理方法,或实现上述数据处理节点的配置方法。
可选地,该计算机可读存储介质可以包括:ROM(Read Only Memory,只读存储器)、RAM(Random Access Memory,随机存取记忆体)、SSD(Solid State Drives,固态硬盘)或光盘等。其中,随机存取记忆体可以包括ReRAM(Resistance Random Access Memory,电阻式随机存取记忆体)和DRAM(Dynamic Random Access Memory,动态随机存取存储器)。
在示例性实施例中,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述数据处理节点的管理方法,或执行上述数据处理节点的配置方法。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。另外,本文中描述的步骤编号,仅示例性示出了步骤间的一种可能的执行先后顺序,在一些其它实施例中,上述步骤也可以不按照编号顺序来执行,如两个不同编号的步骤同时执行,或者两个不同编号的步骤按照与图示相反的顺序执行,本申请实施例对此不作限定。
以上所述仅为本申请的示例性实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (11)

1.一种数据处理节点的管理方法,其特征在于,所述方法包括:
在检测到数据处理任务对应的处理节点集群中存在异常处理节点的情况下,获取所述异常处理节点的异常状态信息,所述处理节点集群中包括多个处理节点,所述多个处理节点用于协同执行所述数据处理任务;
根据所述异常状态信息确定所述异常处理节点的异常原因;
根据所述异常原因确定所述异常处理节点的修复耗时;
若所述修复耗时大于阈值,则确定启用所述处理节点集群之外的辅助节点代替所述异常处理节点;
在确定启用所述辅助节点的情况下,调整所述数据处理任务的执行策略,所述执行策略用于指示针对所述数据处理任务的处理方式,所述执行策略包括任务重分片策略,所述调整所述数据处理任务的执行策略包括:获取所述异常处理节点的数量;若所述异常处理节点的数量大于门限值,则确定执行任务重分片策略;其中,所述执行策略包括所述任务重分片策略,所述任务重分片策略是指对所述数据处理任务的未处理部分进行重新划分的策略;
基于所述执行策略和所述数据处理任务的处理进度,确定所述辅助节点的启用数量m,所述m为正整数;
对所述数据处理任务的未处理部分进行划分,确定所述m个辅助节点和剩余处理节点对应的数据处理子任务;
记录针对所述数据处理任务的策略调整次数;
响应于所述策略调整次数等于门限值,将所述数据处理任务的执行策略从可调整状态切换至不可调整状态;
向所述辅助节点和所述剩余处理节点发送对应的任务执行指令,所述任务执行指令用于指示所述辅助节点和所述剩余处理节点执行对应的数据处理子任务;
所述获取所述异常处理节点的异常状态信息之前,还包括:
获取所述处理节点集群中各处理节点发送的测量报告,所述测量报告包括节点状态信息;其中,所述节点状态信息用于指示所述处理节点的工作状态;
若来自于目标处理节点的测量报告存在异常,则确定所述目标处理节点为所述异常处理节点;其中,所述测量报告存在异常包括以下至少一项:所述处理节点处于低速率工作状态。
2.根据权利要求1所述的方法,其特征在于,所述调整所述数据处理任务的执行策略,包括:
向所述异常处理节点发送进度查询请求,所述进度查询请求用于请求获取所述异常处理节点的任务处理进度;
若接收到来自于所述异常处理节点的数据丢失响应,则确定执行二次计算策略,所述数据丢失响应用于指示所述异常处理节点对应的数据处理子任务的已处理数据丢失;
其中,所述执行策略包括所述二次计算策略,所述二次计算策略是指所述辅助节点重新执行所述异常处理节点对应的数据处理子任务的策略。
3.根据权利要求1所述的方法,其特征在于,所述确定启用所述处理节点集群之外的辅助节点代替所述异常处理节点之后,还包括:
向所述异常处理节点发送修复指令,所述修复指令包括用于修复所述异常处理节点的修复数据;
若接收到来自于所述异常处理节点的修复完成响应,确定所述异常处理节点从异常状态恢复至正常状态;
向所述异常处理节点发送配置信息,所述配置信息用于将所述异常处理节点配置为所述辅助节点;
若接收到来自于所述异常处理节点的配置完成响应,确定所述异常处理节点转换为所述辅助节点。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述测量报告还包括任务处理信息,所述任务处理信息用于指示所述处理节点的任务处理进度,所述测量报告存在异常还包括以下至少一项:所述测量报告中包含的任务处理信息存在异常、超过设定时长未接收到所述测量报告。
5.一种数据处理节点的配置方法,其特征在于,所述方法包括:
获取数据处理任务;
确定所述数据处理任务对应的任务信息,所述任务信息是指所述数据处理任务在执行过程中针对于数据的处理情况的相关信息;
根据所述任务信息为所述数据处理任务配置处理节点集群,以及除所述处理节点集群之外的至少一个辅助节点;
其中,所述处理节点集群中包括多个处理节点,所述多个处理节点用于协同执行所述数据处理任务;所述辅助节点用于在所述处理节点集群中存在异常处理节点的情况下,代替所述异常处理节点执行任务;
获取管理节点的最大管理数量,所述最大管理数量是指单个所述管理节点所能管理的所述处理节点的最大数量;
根据所述最大管理数量和所述处理节点的数量,确定所述管理节点的数量;
其中,所述管理节点用于:获取所述异常处理节点的异常状态信息;根据所述异常状态信息确定所述异常处理节点的异常原因;根据所述异常原因确定所述异常处理节点的修复耗时;若所述修复耗时大于阈值,则确定启用所述处理节点集群之外的辅助节点代替所述异常处理节点;在确定启用所述辅助节点的情况下,调整所述数据处理任务的执行策略,所述执行策略包括任务重分片策略,所述调整所述数据处理任务的执行策略包括:获取所述异常处理节点的数量;若所述异常处理节点的数量大于门限值,则确定执行任务重分片策略;其中,所述执行策略包括所述任务重分片策略,所述任务重分片策略是指对所述数据处理任务的未处理部分进行重新划分的策略;基于所述执行策略和所述数据处理任务的处理进度,确定所述辅助节点的启用数量m,所述m为正整数;对所述数据处理任务的未处理部分进行划分,确定所述m个辅助节点和剩余处理节点对应的数据处理子任务;记录针对所述数据处理任务的策略调整次数;响应于所述策略调整次数等于门限值,将所述数据处理任务的执行策略从可调整状态切换至不可调整状态;获取所述处理节点集群中各处理节点发送的测量报告,所述测量报告包括节点状态信息;其中,所述节点状态信息用于指示所述处理节点的工作状态;若来自于目标处理节点的测量报告存在异常,则确定所述目标处理节点为所述异常处理节点;其中,所述测量报告存在异常包括以下至少一项:所述处理节点处于低速率工作状态。
6.根据权利要求5所述的方法,其特征在于,所述任务信息包括并行计算加速度比、任务处理时长和数据处理量;
所述根据所述任务信息为所述数据处理任务配置处理节点集群,以及除所述处理节点集群之外的至少一个辅助节点,包括:
根据所述任务处理时长和所述数据处理量,确定所述处理节点的数量;
在所述并行计算加速度比达到上限值的情况下,确定所述处理节点和所述辅助节点之间的比例;
依据所述处理节点和所述辅助节点之间的比例,根据所述处理节点的数量,确定所述辅助节点的数量。
7.一种数据处理节点的管理装置,其特征在于,所述装置包括:
信息获取模块,用于在检测到数据处理任务对应的处理节点集群中存在异常处理节点的情况下,获取所述异常处理节点的异常状态信息,所述处理节点集群中包括多个处理节点,所述多个处理节点用于协同执行所述数据处理任务;
节点启用模块,用于根据所述异常状态信息确定所述异常处理节点的异常原因;根据所述异常原因确定所述异常处理节点的修复耗时;若所述修复耗时大于阈值,则确定启用所述处理节点集群之外的辅助节点代替所述异常处理节点;获取所述处理节点集群中各处理节点发送的测量报告,所述测量报告包括节点状态信息;其中,所述节点状态信息用于指示所述处理节点的工作状态;若来自于目标处理节点的测量报告存在异常,则确定所述目标处理节点为所述异常处理节点;其中,所述测量报告存在异常包括以下至少一项:所述处理节点处于低速率工作状态;
策略调整模块,用于在确定启用所述辅助节点的情况下,调整所述数据处理任务的执行策略,所述执行策略用于指示针对所述数据处理任务的处理方式,所述执行策略包括任务重分片策略,所述调整所述数据处理任务的执行策略包括:获取所述异常处理节点的数量;若所述异常处理节点的数量大于门限值,则确定执行任务重分片策略;其中,所述执行策略包括所述任务重分片策略,所述任务重分片策略是指对所述数据处理任务的未处理部分进行重新划分的策略;
任务确定模块,用于基于所述执行策略和所述数据处理任务的处理进度,确定所述辅助节点的启用数量m,所述m为正整数;对所述数据处理任务的未处理部分进行划分,确定所述m个辅助节点和剩余处理节点对应的数据处理子任务;记录针对所述数据处理任务的策略调整次数;响应于所述策略调整次数等于门限值,将所述数据处理任务的执行策略从可调整状态切换至不可调整状态;
指令发送模块,用于向所述辅助节点和所述剩余处理节点发送对应的任务执行指令,所述任务执行指令用于指示所述辅助节点和所述剩余处理节点执行对应的数据处理子任务。
8.一种数据处理节点的配置装置,其特征在于,所述装置包括:
任务获取模块,用于获取数据处理任务;
信息确定模块,用于确定所述数据处理任务对应的任务信息,所述任务信息是指所述数据处理任务在执行过程中针对于数据的处理情况的相关信息;
节点配置模块,用于根据所述任务信息为所述数据处理任务配置处理节点集群,以及除所述处理节点集群之外的至少一个辅助节点;其中,所述处理节点集群中包括多个处理节点,所述多个处理节点用于协同执行所述数据处理任务;所述辅助节点用于在所述处理节点集群中存在异常处理节点的情况下,代替所述异常处理节点执行任务;
数量获取模块,用于获取管理节点的最大管理数量,所述最大管理数量是指单个所述管理节点所能管理的所述处理节点的最大数量;
数量确定模块,用于根据所述最大管理数量和所述处理节点的数量,确定所述管理节点的数量;
其中,所述管理节点用于:获取所述异常处理节点的异常状态信息;根据所述异常状态信息确定所述异常处理节点的异常原因;根据所述异常原因确定所述异常处理节点的修复耗时;若所述修复耗时大于阈值,则确定启用所述处理节点集群之外的辅助节点代替所述异常处理节点;在确定启用所述辅助节点的情况下,调整所述数据处理任务的执行策略,所述执行策略包括任务重分片策略,所述调整所述数据处理任务的执行策略包括:获取所述异常处理节点的数量;若所述异常处理节点的数量大于门限值,则确定执行任务重分片策略;其中,所述执行策略包括所述任务重分片策略,所述任务重分片策略是指对所述数据处理任务的未处理部分进行重新划分的策略;基于所述执行策略和所述数据处理任务的处理进度,确定所述辅助节点的启用数量m,所述m为正整数;对所述数据处理任务的未处理部分进行划分,确定所述m个辅助节点和剩余处理节点对应的数据处理子任务;记录针对所述数据处理任务的策略调整次数;响应于所述策略调整次数等于门限值,将所述数据处理任务的执行策略从可调整状态切换至不可调整状态;获取所述处理节点集群中各处理节点发送的测量报告,所述测量报告包括节点状态信息;其中,所述节点状态信息用于指示所述处理节点的工作状态;若来自于目标处理节点的测量报告存在异常,则确定所述目标处理节点为所述异常处理节点;其中,所述测量报告存在异常包括以下至少一项:所述处理节点处于低速率工作状态。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现如权利要求1至4任一项所述的数据处理节点的管理方法,或实现如权利要求5、6任一项所述的数据处理节点的配置方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现如权利要求1至4任一项所述的数据处理节点的管理方法,或实现如权利要求5、6任一项所述的数据处理节点的配置方法。
11.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序,所述计算机程序由计算机设备的处理器加载并执行,以实现如权利要求1至4任一项所述的数据处理节点的管理方法,或实现如权利要求5、6任一项所述的数据处理节点的配置方法。
CN202010652008.1A 2020-07-08 2020-07-08 数据处理节点的管理方法、装置、设备及存储介质 Active CN111818159B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202010652008.1A CN111818159B (zh) 2020-07-08 2020-07-08 数据处理节点的管理方法、装置、设备及存储介质
PCT/CN2021/097956 WO2022007552A1 (zh) 2020-07-08 2021-06-02 处理节点的管理方法、配置方法及相关装置
US17/743,837 US20220269564A1 (en) 2020-07-08 2022-05-13 Processing node management method, configuration method, and related apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010652008.1A CN111818159B (zh) 2020-07-08 2020-07-08 数据处理节点的管理方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN111818159A CN111818159A (zh) 2020-10-23
CN111818159B true CN111818159B (zh) 2024-04-05

Family

ID=72842940

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010652008.1A Active CN111818159B (zh) 2020-07-08 2020-07-08 数据处理节点的管理方法、装置、设备及存储介质

Country Status (3)

Country Link
US (1) US20220269564A1 (zh)
CN (1) CN111818159B (zh)
WO (1) WO2022007552A1 (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111818159B (zh) * 2020-07-08 2024-04-05 腾讯科技(深圳)有限公司 数据处理节点的管理方法、装置、设备及存储介质
CN112202687B (zh) * 2020-12-03 2021-05-25 苏州浪潮智能科技有限公司 一种节点同步方法、装置、设备及存储介质
CN112965791B (zh) * 2021-03-29 2022-06-07 北京三快在线科技有限公司 定时任务检测方法、装置、设备及存储介质
CN113687834B (zh) * 2021-10-27 2022-02-18 深圳华锐金融技术股份有限公司 分布式系统节点部署方法、装置、设备及介质
CN114567471B (zh) * 2022-02-22 2022-10-28 珠海市鸿瑞信息技术股份有限公司 一种基于5g的电力通信网络安全检测系统及方法
CN114638548B (zh) * 2022-05-09 2022-09-30 浙江国利网安科技有限公司 一种工业控制系统的风控方法、装置及电子设备
CN115103001B (zh) * 2022-05-10 2024-03-08 航天国政信息技术(北京)有限公司 一种通信方法、装置及电子设备
CN115118473B (zh) * 2022-06-20 2023-07-14 中国联合网络通信集团有限公司 数据处理方法、装置、设备及存储介质

Citations (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008113986A2 (en) * 2007-03-16 2008-09-25 British Telecommunications Public Limited Company Data transmission scheduler
CN102999385A (zh) * 2012-11-06 2013-03-27 苏州懿源宏达知识产权代理有限公司 计算设备中多处理器协同处理方法
CN103324539A (zh) * 2013-06-24 2013-09-25 浪潮电子信息产业股份有限公司 一种作业调度管理系统及方法
CN103617086A (zh) * 2013-11-20 2014-03-05 东软集团股份有限公司 一种并行计算方法及系统
CN104461752A (zh) * 2014-11-21 2015-03-25 浙江宇视科技有限公司 一种两级故障容错的多媒体分布式任务处理方法
WO2016010972A1 (en) * 2014-07-17 2016-01-21 Cohesity, Inc. Dynamically changing members of a consensus group in a distributed self-healing coordination service
CN105335251A (zh) * 2015-09-23 2016-02-17 浪潮(北京)电子信息产业有限公司 一种故障恢复方法及系统
CN106095570A (zh) * 2007-11-08 2016-11-09 思腾科技(巴巴多斯)有限公司 执行复杂算法的分布式网络
CN106155770A (zh) * 2015-03-30 2016-11-23 联想(北京)有限公司 任务调度方法和电子设备
CN107092522A (zh) * 2017-03-30 2017-08-25 阿里巴巴集团控股有限公司 实时数据的计算方法及装置
WO2018121738A1 (zh) * 2016-12-30 2018-07-05 北京奇虎科技有限公司 流数据任务的处理方法和装置
CN108304255A (zh) * 2017-12-29 2018-07-20 北京城市网邻信息技术有限公司 分布式任务调度方法及装置、电子设备及可读存储介质
CN108768729A (zh) * 2018-05-31 2018-11-06 郑州云海信息技术有限公司 一种基于hdfs集群的存储节点的转移方法及装置
CN109343939A (zh) * 2018-07-31 2019-02-15 国家电网有限公司 一种分布式集群及并行计算任务调度方法
CN109976883A (zh) * 2017-12-27 2019-07-05 深圳市优必选科技有限公司 一种任务的处理方法及其系统
CN110012062A (zh) * 2019-02-22 2019-07-12 北京奇艺世纪科技有限公司 一种多机房任务调度方法、装置及存储介质
CN110677282A (zh) * 2019-09-23 2020-01-10 天津津航计算技术研究所 一种分布式系统的热备份方法及分布式系统
CN110716827A (zh) * 2019-09-23 2020-01-21 天津津航计算技术研究所 适用于分布式系统的热备份方法及分布式系统
CN110727508A (zh) * 2019-10-24 2020-01-24 无锡京和信息技术有限公司 一种任务调度系统和调度方法
CN111090502A (zh) * 2018-10-24 2020-05-01 阿里巴巴集团控股有限公司 一种流数据任务调度方法和装置
CN111160810A (zh) * 2020-01-09 2020-05-15 中国地质大学(武汉) 基于工作流的高性能分布式空间分析任务调度方法及系统
CN111181774A (zh) * 2019-12-13 2020-05-19 苏州浪潮智能科技有限公司 一种MapReduce任务的高可用方法、系统、终端及存储介质
CN111381972A (zh) * 2018-12-27 2020-07-07 北京奇虎科技有限公司 分布式任务调度方法、装置和系统

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050022202A1 (en) * 2003-07-09 2005-01-27 Sun Microsystems, Inc. Request failover mechanism for a load balancing system
US8055933B2 (en) * 2009-07-21 2011-11-08 International Business Machines Corporation Dynamic updating of failover policies for increased application availability
US9588994B2 (en) * 2012-03-02 2017-03-07 International Business Machines Corporation Transferring task execution in a distributed storage and task network
US9223626B2 (en) * 2012-08-30 2015-12-29 International Business Machines Corporation Task execution and management in a clustered computing environment
US10284487B2 (en) * 2014-04-25 2019-05-07 Paypal, Inc. Software load balancer to maximize utilization
US9888063B2 (en) * 2014-12-10 2018-02-06 International Business Machines Corporation Combining application and data tiers on different platforms to create workload distribution recommendations
US10089197B2 (en) * 2014-12-16 2018-10-02 Intel Corporation Leverage offload programming model for local checkpoints
US9785480B2 (en) * 2015-02-12 2017-10-10 Netapp, Inc. Load balancing and fault tolerant service in a distributed data system
US10719353B2 (en) * 2016-09-23 2020-07-21 Sap Se Handling failovers at one or more nodes in a distributed database system
CN107105032B (zh) * 2017-04-20 2019-08-06 腾讯科技(深圳)有限公司 节点设备运行方法及节点设备
US10990464B1 (en) * 2019-09-04 2021-04-27 Amazon Technologies, Inc. Block-storage service supporting multi-attach and health check failover mechanism
CN111459642B (zh) * 2020-04-08 2023-04-28 广州欢聊网络科技有限公司 一种分布式系统中故障处理和任务处理方法及装置
CN111818159B (zh) * 2020-07-08 2024-04-05 腾讯科技(深圳)有限公司 数据处理节点的管理方法、装置、设备及存储介质

Patent Citations (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008113986A2 (en) * 2007-03-16 2008-09-25 British Telecommunications Public Limited Company Data transmission scheduler
CN106095570A (zh) * 2007-11-08 2016-11-09 思腾科技(巴巴多斯)有限公司 执行复杂算法的分布式网络
CN102999385A (zh) * 2012-11-06 2013-03-27 苏州懿源宏达知识产权代理有限公司 计算设备中多处理器协同处理方法
CN103324539A (zh) * 2013-06-24 2013-09-25 浪潮电子信息产业股份有限公司 一种作业调度管理系统及方法
CN103617086A (zh) * 2013-11-20 2014-03-05 东软集团股份有限公司 一种并行计算方法及系统
WO2016010972A1 (en) * 2014-07-17 2016-01-21 Cohesity, Inc. Dynamically changing members of a consensus group in a distributed self-healing coordination service
CN104461752A (zh) * 2014-11-21 2015-03-25 浙江宇视科技有限公司 一种两级故障容错的多媒体分布式任务处理方法
CN106155770A (zh) * 2015-03-30 2016-11-23 联想(北京)有限公司 任务调度方法和电子设备
CN105335251A (zh) * 2015-09-23 2016-02-17 浪潮(北京)电子信息产业有限公司 一种故障恢复方法及系统
WO2018121738A1 (zh) * 2016-12-30 2018-07-05 北京奇虎科技有限公司 流数据任务的处理方法和装置
CN107092522A (zh) * 2017-03-30 2017-08-25 阿里巴巴集团控股有限公司 实时数据的计算方法及装置
CN109976883A (zh) * 2017-12-27 2019-07-05 深圳市优必选科技有限公司 一种任务的处理方法及其系统
CN108304255A (zh) * 2017-12-29 2018-07-20 北京城市网邻信息技术有限公司 分布式任务调度方法及装置、电子设备及可读存储介质
CN108768729A (zh) * 2018-05-31 2018-11-06 郑州云海信息技术有限公司 一种基于hdfs集群的存储节点的转移方法及装置
CN109343939A (zh) * 2018-07-31 2019-02-15 国家电网有限公司 一种分布式集群及并行计算任务调度方法
CN111090502A (zh) * 2018-10-24 2020-05-01 阿里巴巴集团控股有限公司 一种流数据任务调度方法和装置
CN111381972A (zh) * 2018-12-27 2020-07-07 北京奇虎科技有限公司 分布式任务调度方法、装置和系统
CN110012062A (zh) * 2019-02-22 2019-07-12 北京奇艺世纪科技有限公司 一种多机房任务调度方法、装置及存储介质
CN110677282A (zh) * 2019-09-23 2020-01-10 天津津航计算技术研究所 一种分布式系统的热备份方法及分布式系统
CN110716827A (zh) * 2019-09-23 2020-01-21 天津津航计算技术研究所 适用于分布式系统的热备份方法及分布式系统
CN110727508A (zh) * 2019-10-24 2020-01-24 无锡京和信息技术有限公司 一种任务调度系统和调度方法
CN111181774A (zh) * 2019-12-13 2020-05-19 苏州浪潮智能科技有限公司 一种MapReduce任务的高可用方法、系统、终端及存储介质
CN111160810A (zh) * 2020-01-09 2020-05-15 中国地质大学(武汉) 基于工作流的高性能分布式空间分析任务调度方法及系统

Also Published As

Publication number Publication date
CN111818159A (zh) 2020-10-23
US20220269564A1 (en) 2022-08-25
WO2022007552A1 (zh) 2022-01-13

Similar Documents

Publication Publication Date Title
CN111818159B (zh) 数据处理节点的管理方法、装置、设备及存储介质
CN108632365B (zh) 服务资源调整方法、相关装置和设备
EP3335120B1 (en) Method and system for resource scheduling
US9530110B2 (en) Autonomic management of autonomous management systems
US7428210B2 (en) Fail over method and a computing system having fail over function
US9870269B1 (en) Job allocation in a clustered environment
CN104836819A (zh) 动态负载均衡的方法、系统及监控调度设备
US11726836B2 (en) Predicting expansion failures and defragmenting cluster resources
CN113010260A (zh) 容器数量弹性伸缩方法以及容器数量弹性伸缩方法系统
CN109584105B (zh) 一种服务响应的方法及系统
CN110912972A (zh) 一种业务处理方法、系统、电子设备及可读存储介质
CN110933178B (zh) 调整集群系统内的节点配置的方法及服务器
CN113672345A (zh) 一种基于io预测的云虚拟化引擎分布式资源调度方法
WO2024021469A1 (zh) 一种系统运维管理方法、装置及电子设备
CN113885794B (zh) 基于多云存储的数据访问方法、装置、计算机设备及介质
CN113961353A (zh) 一种ai任务的任务处理方法和分布式系统
CN117369941A (zh) Pod调度方法和系统
CN115686831A (zh) 基于分布式系统的任务处理方法及装置、设备及介质
CN112269693B (zh) 一种节点自协调方法、装置和计算机可读存储介质
CN112612604B (zh) 基于Actor模型的任务调度方法、装置
CN111556126A (zh) 模型管理方法、系统、计算机设备和存储介质
CN111158899A (zh) 一种数据的采集方法、采集器、任务管理中心以及系统
CN111258710B (zh) 一种系统维护方法和装置
CN114077484A (zh) 恢复任务的处理方法、装置及电子设备
CN116800590A (zh) 故障迁移方法、装置、电子设备和计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40030688

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant