CN115686831A - 基于分布式系统的任务处理方法及装置、设备及介质 - Google Patents

基于分布式系统的任务处理方法及装置、设备及介质 Download PDF

Info

Publication number
CN115686831A
CN115686831A CN202211240053.1A CN202211240053A CN115686831A CN 115686831 A CN115686831 A CN 115686831A CN 202211240053 A CN202211240053 A CN 202211240053A CN 115686831 A CN115686831 A CN 115686831A
Authority
CN
China
Prior art keywords
node
distributed system
nodes
task processing
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211240053.1A
Other languages
English (en)
Inventor
田晶
刘智宏
刘丽婷
孙柄雪
周志星
余茵
何磊
张重瑱
曾波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Architectural Design Group Co Ltd
Original Assignee
Beijing Institute of Architectural Design Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Architectural Design Group Co Ltd filed Critical Beijing Institute of Architectural Design Group Co Ltd
Priority to CN202211240053.1A priority Critical patent/CN115686831A/zh
Publication of CN115686831A publication Critical patent/CN115686831A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明提供一种基于分布式系统的任务处理方法及装置、设备及介质。基于分布式系统的任务处理方法包括:接收任务处理请求,任务处理请求包括待处理任务,待处理任务包括多个子任务。基于预置的配置文件,从分布式系统的多个节点中确定多个目标节点,每一个目标节点处理至少一个子任务。分别由各目标节点处理对应的子任务,以响应于任务处理请求。通过本发明,可以由多个目标节点共同处理待处理任务,有助于缓解单个节点独立处理任务的负载压力,进而有利于提高计算速度,加快任务处理进程,从而有助于提高任务处理效率。

Description

基于分布式系统的任务处理方法及装置、设备及介质
技术领域
本发明涉及云计算领域,具体涉及一种基于分布式系统的任务处理方法及装置、设备及介质。
背景技术
任何电子设备的性能都是有极限的,单靠一台电子设备可能无法满足海量的互联网访问需求。并且,当待处理任务所需调用的资源较大时,则容易导致该电子设备的负载过载,进而影响任务处理效率。
因此,亟需一种能够提高任务处理效率的任务处理方法。
发明内容
因此,本发明要解决的技术问题在于克服现有技术中任务处理效率低的缺陷,从而提供一种基于分布式系统的任务处理方法及装置、设备及介质。
根据第一方面,本发明提供一种基于分布式系统的任务处理方法,所述方法包括:
接收任务处理请求,所述任务处理请求包括待处理任务,所述待处理任务包括多个子任务;
基于预置的配置文件,从所述分布式系统的多个节点中确定多个目标节点,每一个目标节点处理至少一个子任务;
分别由各目标节点处理对应的子任务,以响应于所述任务处理请求。
在该方式中,由多个目标节点共同处理待处理任务,有助于缓解单个节点独立处理任务的负载压力,进而有利于提高计算速度,加快任务处理进程,从而有助于提高任务处理效率。
结合第一方面,在第一方面的第一实施例中,所述基于预置的配置文件,从所述分布式系统的多个节点中确定至少一个目标节点,包括:
通过预置的配置文件,分别确定所述分布式系统中每一个节点的配置信息和状态信息,所述配置信息包括对应节点可执行的功能;
根据预置的功能与子任务之间的对应关系,从所述分布式系统的多个节点中确定待执行各子任务的至少一个候选节点;
根据各候选节点的状态信息,分别确定每一个候选节点的节点状态;
将节点状态为运行状态的候选节点确定为目标节点。
结合第一方面,在第一方面的第二实施例中,所述方法还包括:
存储每一个目标节点处理对应子任务的日志文件;
周期性检测所述日志文件所携带的关键参数,得到所述日志文件的完整程度,其中,所述完整程度是基于所述关键参数的数量确定的;
在确定所述完整程度小于预设完整程度的情况下,确定所述日志文件存储无效,并将所述子任务重新发送至目标节点,由所述目标节点重新处理所述子任务。
结合第一方面的第二实施例,在第一方面的第三实施例中,所述方法还包括:
分别监测每一个目标节点的性能参数;
若存在性能参数大于性能阈值的目标节点,则将存在性能参数大于性能阈值的目标节点确定为异常节点;
发送告警信息,以提示所述分布式系统中存在异常节点。
结合第一方面的第三实施例,在第一方面的第四实施例中,所述方法还包括:
读取所述异常节点的日志,确定所述异常节点的故障信息;
根据预置的故障编号与修复方案之间的对应关系和所述故障信息的目标故障编号,确定目标修复方案;
根据所述目标修复方案修复所述异常节点。
结合第一方面,在第一方面的第五实施例中,所述方法还包括:
接收节点接入请求,所述节点接入请求包括待接入的扩充节点;
获取所述扩充节点的配置信息;
根据所述配置信息更新所述配置文件。
结合第一方面或者第一方面的第五实施例,在第一方面的第六实施例中,所述方法还包括:
根据所述配置文件,确定所述分布式系统中的所述多个节点;
定期监测每一个节点的健康状态;
若所述分布式系统中存在健康状态为异常的节点,则通过预置的修复模型修复所述健康状态为异常的节点。
根据第二方面,本发明还提供一种基于分布式系统的任务处理装置,所述装置包括:
第一接收单元,用于接收任务处理请求,所述任务处理请求包括待处理任务,所述待处理任务包括多个子任务;
第一确定单元,用于基于预置的配置文件,从所述分布式系统的多个节点中确定多个目标节点,每一个目标节点处理至少一个子任务;
处理单元,用于分别由各目标节点处理对应的子任务,以响应于所述任务处理请求。
根据第三方面,本发明实施方式还提供一种电子设备,包括存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行第一方面及其可选实施方式中任一项的基于分布式系统的任务处理方法。
根据第四方面,本发明实施方式还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行第一方面及其可选实施方式中任一项的基于分布式系统的任务处理方法。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据一示例性实施例提出的一种基于分布式系统的任务处理方法的流程图。
图2是根据一示例性实施例提出的一种基于分布式系统的任务处理方法的流程图。
图3是根据一示例性实施例提出的一种基于分布式系统的任务处理装置的结构框图。
图4是根据一示例性实施例提出的另一种基于分布式系统的任务处理装置的结构框图。
图5是根据一示例性实施例提出的一种电子设备的硬件结构示意图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
相关技术中,当待处理任务所需调用的资源较大时,则容易导致该电子设备的负载过载,进而影响任务处理效率。
为解决上述问题,本发明实施例中提供一种基于分布式系统的任务处理方法,用于分布式系统中,需要说明的是,其执行主体可以是分布式系统内部署的多个节点,任意一个节点均可以通过软件、硬件或者软硬件结合的方式实现成为电子设备的部分或者全部。下述方法实施例中,均以执行主体是其中一个节点为例来进行说明。
本发明实施例中的分布式系统中,部署有多个节点,可以共享分布式系统中的共有资源。通过本发明提供的基于分布式系统的任务处理方法,能够在接收到任务处理请求后,根据预置的配置文件,从分布式系统的多个节点中确定至少一个节点,以处理任务处理请求中所包括待处理任务,进而有助于缓解单个节点独立处理任务的负载压力,有利于提高计算速度,从而有助于提高任务处理效率。
图1是根据一示例性实施例提出的一种基于分布式系统的任务处理方法的流程图。如图1所示,基于分布式系统的任务处理方法包括如下步骤S101至步骤S103。
在步骤S101中,接收任务处理请求。
在本发明实施例中,任务处理请求包括待处理任务,待处理任务包括多个子任务。例如,可以根据待处理任务的执行过程或者处理环节,将待处理任务划分为至少一个子任务。若该待处理任务是特定的计算任务时,则可以划分成若干个可并行运行的子任务。
在步骤S102中,基于预置的配置文件,从分布式系统的多个节点中确定至少一个目标节点。
在本发明实施例中,在分布式系统的多个节点中,部分或者全部节点可以的功能可以相同,进而在处理待处理任务时,可以由多个节点共同处理同一个待处理任务。
为提高计算速度,则基于预置的配置文件,可以从分布式系统的多个节点中确定多个目标节点。其中,每一个目标节点处理至少一个子任务,进而通过多个目标节点共同处理待处理任务,有助于减轻单个目标节点负载,从而有利于节省处理任务的时间成本,提高任务处理效率。
在一实施例中,为确定目标节点,则通过预置的配置文件,分别确定分布式系统中每一个节点的配置信息和状态信息。其中,配置信息包括对应节点可执行的功能。状态信息可以包括对应节点是否处于运行状态。由于不同功能对应可提供的算子不同,且处理不同子任务时所需的算子也可能存在差异,因此,通过配置信息便可以确定对应的节点是否可以处理子任务,进而根据预置的功能与子任务之间的对应关系,从分布式系统的多个节点中确定待执行各子任务的至少一个候选节点,以便通过候选节点处理对应子任务。根据各候选节点的状态信息,分别确定每一个候选节点的节点状态,进而将节点状态为运行状态的候选节点确定为目标节点,以保证目标节点可以正常处理子任务,避免影响任务处理进程。
在步骤S103中,分别由各目标节点处理对应的子任务,以响应于任务处理请求。
通过上述实施例,由多个目标节点共同处理待处理任务,有助于缓解单个节点独立处理任务的负载压力,进而有利于提高计算速度,加快任务处理进程,从而有助于提高任务处理效率。
在一实施例中,状态信息还包括对应节点的工作时间、工作周期。从候选节点中确定目标节点时,还可以结合任务处理请求的接收时间以及处理该待处理任务所需的处理时长进行确定。若接收时间处于对应候选节点的工作时间内,且该候选节点在当前工作周期内处于工作状态的剩余时长大于处理时长时,则选择该候选节点为目标节点。
图2是根据一示例性实施例提出的一种基于分布式系统的任务处理方法的流程图。如图2所示,基于分布式系统的任务处理方法包括如下步骤。
在步骤S201中,接收任务处理请求。
在步骤S202中,基于预置的配置文件,从分布式系统的多个节点中确定至少一个目标节点。
在步骤S203中,分别由各目标节点处理对应的子任务,以响应于任务处理请求。
在步骤S204中,存储每一个目标节点处理对应子任务的日志文件。
在本发明实施例中,分别存储每一个目标节点处理对应子任务的日志文件,以便当处理子任务发生异常时,可以通过日志文件确定异常的原因。在一例中,日志文件可以根据调用等级进行存储,以便可以根据需求进行灵活调用。其中,调用等级可以至少包括以下等级:危险、错误、信息和调用。
在一示例中,为便于精确查找问题发生的时间点,则在记录各日志文件时,记录时间可以精确到毫秒。
在步骤S205中,周期性检测日志文件所携带的关键参数,得到日志文件的完整程度。
在本发明实施例中,完整程度是基于关键参数的数量确定的。预先根据目标节点对应待处理的子任务,确定日志文件所需携带的关键参数类型以及关键参数数量。通过周期性检测日志文件所携带的关键参数,可以确定目标节点在处理对应子节点时,是否将各个关键参数类型对应的关键参数进行获取,根据关键参数的数量,确定日志文件是否完整,进而得到日志文件的完整程度。在一例中,关键参数类型至少包括以下参数类型:节点状态、每秒交互记录。
在步骤S206中,在确定完整程度小于预设完整程度的情况下,确定日志文件存储无效,并将子任务重新发送至目标节点,由目标节点重新处理子任务。
在本发明实施例中,预设完整程度为确定日志文件为有效日志的最小完整程度。若检测到的完整程度小于预设完整程度,则表征该日志文件在存储过程中或者处理子任务的过程中发生异常,导致大量的关键参数未被记录,进而可以确定其为无效日志,从而可以确定日志文件存储无效。为降低损失,则将子任务重新发送至目标节点,由目标节点重新处理子任务,以便重新获取日志文件,从而保障日志文件的存储完整性。
在一例中,若检测到的完整程度大于或者等于预设完整程度,则表征该日志文件在存储过程中或者处理子任务的过程中未发生异常,进而可以确定其为有效日志,从而可以确定日志文件存储有效。
通过上述实施例,通过存储各目标节点处理各子任务的目标日志,有助于当发生异常时,可以通过目标日志确定异常原因,进而及时修复,以避免影响待处理任务的处理进程。
在一实施例中,为保障分布式系统的稳定性和可靠性,则分别监测每一个目标节点的性能参数,以确定各个节点的健康状态。若存在性能参数大于性能阈值的目标节点,则将存在性能参数大于性能阈值的目标节点确定为异常节点,并发送告警信息,以提示分布式系统中存在异常节点,以使用户可以及时对该异常节点进行维护。其中,维护可以包括更新或者更换。在一例中,告警信息包括异常节点的性能参数,以便用户可以根据异常节点的性能参数,快速定位异常节点的发生异常的原因,进而有助于提高维护效率,节省维护成本。
在另一实施例中,为提高修复效率,则可以通过读取异常节点的日志,确定异常节点的故障信息。根据预置的故障编号与修复方案之间的对应关系和故障信息的目标故障编号,确定目标修复方案,进而根据目标修复方案修复异常节点,从而有助于减少人为干预,使分布式系统更智能,更具有实用性。
在一示例中,可以将目标节点处理子任务发生异常时所存储的日志记录,作为用于修复故障的修复模型的训练集,进而有助于提高该修复模型修复故障的成功率。其中,该修复模型可以采用机器学习、深度学习或者神经网络模型进行训练,在本发明中不进行限制。
在又一实施例中,若用户需要扩充分布式系统时,则响应于接收节点接入请求,获取节点接入请求包括待接入的扩充节点的配置信息,进而根据配置信息更新配置文件,以便统一管理。其中,配置信息可以包括扩充节点的工作时间,工作周期以及工作状态。在一例中,为满足用户的特殊需求,配置信息中还可以包括扩充节点可执行的功能。
在又一实施例中,为合理分配分布式系统内的资源,保障分布式系统能够正常运行,则根据配置文件,确定分布式系统中所包括的多个节点。定期监测每一个节点之间的健康状态。其中,健康状态可以包括:对应节点是否可以与其他节点正常通信、对应节点是否安全以及是否发生故障。若监测到分布式系统中存在健康状态为异常的节点时,则通过预置的修复模型修复所述健康状态为异常的节点,以使该节点能够恢复正常,进而提高分布式系统的容错率。在一例中,修复模型可以根据预先收集的故障问题信息进行机器学习算法学习,进而根据不同的故障编号与修复方案之间的对应关系,统计故障修复的成功率,从而当成功率达到指定阈值时完成训练。
在一例中,若检测到负载量大于指定负载阈值的节点时,为保障其性能,则可以将该节点上的部分负载迁移至其他能够处理该部分负载的节点中,进而减少该节点的负载,从而有助于保障分布式系统的稳定性。
在一实施场景中,如图3所示,为实现上述基于分布式系统的任务处理方法,本发明还提供一种基于分布式系统的任务处理装置。基于分布式系统的任务处理装置包括配置模块301、监视模块302、通知模块303、日志模块304和修复模块305。
配置模块301,用于读取和更新配置文件,配置文件包括各个节点的配置信息。
监视模块302,用于监测每一个节点的健康状态,和用于排查异常节点。在一例中,当用户请求接入扩充节点时,系统内部则自动将扩充节点的配置信息注册到监视模块302中,以更新配置文件。在另一例中,当某个节点出现故障或压力过大时,监视模块302可以第一时间将该节点的异常信息传给通知模块,并在日志模块中存储。
通知模块303,用于实现分布式系统与用户之间的交互。在一例中,通知模块303可以将所有节点的性能信息全部汇总并实时显示,包括CPU,GPU,内存,磁盘和网络状态等,以便于用户可以实时监测各节点的健康状态。若某节点出现无法正常运行或进程利用率过高的情况时,便向用户发送提示信息,以使用户可根据节点的具体使用情况进行更新或更换。在另一例中,当节点发生异常时,发送告警信息,以提示分布式系统中存在异常节点。
日志模块304,用于存储和记录各个节点的日志文件。
修复模块305,用于根据预置的修复模型修复异常节点或者健康状态为异常的节点。
通过上述基于分布式系统的任务处理装置,可以达到以下有益效果:
1)允许数据共享,使众多用户可以访问分布式系统的公共资源(例如:公用数据库等资源),进而可以实现远程分享文件。
2)加快计算速度。将待处理任务包括的多个子任务分散至多个目标节点上,进而由各目标节点采用并行处理的方式各自对应的子任务,有助于提高计算速度。
3)可靠性高。可以通过预置的修复模型及时修复异常节点或者健康状态为异常的节点,进而有助于避免因部分节点失效而导致分布式系统崩溃的情况发生,从而有助于提高分布式系统的容错率。
4)通信更方便,快捷。分布式系统中各个节点通过一个通信网络互联在一起。通信网络由通信线路,调制借调器和通信处理器等组成,不同节点的用户可以方便地交换信息,进而可以实现在底层与分布式系统之间利用传递消息的方式进行通信,进而使分布式系统内的通信形式更方便,快捷。
基于相同发明构思,本发明还提供一种基于分布式系统的任务处理装置。
图4是根据一示例性实施例提出的另一种基于分布式系统的任务处理装置的结构框图。如图4所示,基于分布式系统的任务处理装置包括第一接收单元401、第一确定单元402和处理单元403。
第一接收单元401,用于接收任务处理请求,任务处理请求包括待处理任务,待处理任务包括多个子任务;
第一确定单元402,用于基于预置的配置文件,从分布式系统的多个节点中确定多个目标节点,每一个目标节点处理至少一个子任务;
处理单元403,用于分别由各目标节点处理对应的子任务,以响应于任务处理请求。
在一实施例中,第一确定单元402包括:信息确定单元,用于通过预置的配置文件,分别确定分布式系统中每一个节点的配置信息和状态信息,配置信息包括对应节点可执行的功能。节点确定单元,用于根据预置的功能与子任务之间的对应关系,从分布式系统的多个节点中确定待执行各子任务的至少一个候选节点。状态确定单元,用于根据各候选节点的状态信息,分别确定每一个候选节点的节点状态。筛选单元,用于将节点状态为运行状态的候选节点确定为目标节点。
在另一实施例中,装置还包括:存储单元,用于存储每一个目标节点处理对应子任务的日志文件。检测单元,用于周期性检测日志文件所携带的关键参数,得到日志文件的完整程度,其中,完整程度是基于关键参数的数量确定的。执行单元,用于在确定完整程度小于预设完整程度的情况下,确定日志文件存储无效,并将子任务重新发送至目标节点,由目标节点重新处理子任务。
在又一实施例中,装置还包括:监测单元,用于分别监测每一个目标节点的性能参数。第二确定单元,用于若存在性能参数大于性能阈值的目标节点,则将存在性能参数大于性能阈值的目标节点确定为异常节点。提示单元,用于发送告警信息,以提示分布式系统中存在异常节点。
在又一实施例中,装置还包括:读取单元,用于读取异常节点的日志,确定异常节点的故障信息。第三确定单元,用于根据预置的故障编号与修复方案之间的对应关系和故障信息的目标故障编号,确定目标修复方案。第一修复单元,用于根据目标修复方案修复异常节点。
在又一实施例中,装置还包括:第二接收单元,用于接收节点接入请求,节点接入请求包括待接入的扩充节点。获取单元,用于获取扩充节点的配置信息。更新单元,用于根据配置信息更新配置文件。
在又一实施例中,装置还包括:第四确定单元,用于根据配置文件,确定分布式系统中的多个节点。状态监测单元,用于定期监测每一个节点的健康状态。第二修复单元,由于若分布式系统中存在健康状态为异常的节点,则通过预置的修复模型修复健康状态为异常的节点。
上述基于分布式系统的任务处理装置的具体限定以及有益效果可以参见上文中对于基于分布式系统的任务处理方法的限定,在此不再赘述。上述各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于电子设备中的处理器中,也可以以软件形式存储于电子设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
图5是根据一示例性实施例提出的一种电子设备的硬件结构示意图。如图5所示,该设备包括一个或多个处理器510以及存储器520,存储器520包括持久内存、易失内存和硬盘,图5中以一个处理器510为例。该设备还可以包括:输入装置530和输出装置540。
处理器510、存储器520、输入装置530和输出装置540可以通过总线或者其他方式连接,图5中以通过总线连接为例。
处理器510可以为中央处理器(Central Processing Unit,CPU)。处理器510还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器520作为一种非暂态计算机可读存储介质,包括持久内存、易失内存和硬盘,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本申请实施例中的业务管理方法对应的程序指令/模块。处理器510通过运行存储在存储器520中的非暂态软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述任意一种基于分布式系统的任务处理方法。
存储器520可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据、需要使用的数据等。此外,存储器520可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器520可选包括相对于处理器510远程设置的存储器,这些远程存储器可以通过网络连接至数据处理装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置530可接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键信号输入。输出装置540可包括显示屏等显示设备。
一个或者多个模块存储在存储器520中,当被一个或者多个处理器510执行时,执行如图1-图3所示的方法。
上述产品可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,具体可参见如图1-图3所示的实施例中的相关描述。
本发明实施例还提供了一种非暂态计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的认证方法。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(RandomAccess Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;存储介质还可以包括上述种类的存储器的组合。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (10)

1.一种基于分布式系统的任务处理方法,其特征在于,所述方法包括:
接收任务处理请求,所述任务处理请求包括待处理任务,所述待处理任务包括多个子任务;
基于预置的配置文件,从所述分布式系统的多个节点中确定多个目标节点,每一个目标节点处理至少一个子任务;
分别由各目标节点处理对应的子任务,以响应于所述任务处理请求。
2.根据权利要求1所述的方法,其特征在于,所述基于预置的配置文件,从所述分布式系统的多个节点中确定至少一个目标节点,包括:
通过预置的配置文件,分别确定所述分布式系统中每一个节点的配置信息和状态信息,所述配置信息包括对应节点可执行的功能;
根据预置的功能与子任务之间的对应关系,从所述分布式系统的多个节点中确定待执行各子任务的至少一个候选节点;
根据各候选节点的状态信息,分别确定每一个候选节点的节点状态;
将节点状态为运行状态的候选节点确定为目标节点。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
存储每一个目标节点处理对应子任务的日志文件;
周期性检测所述日志文件所携带的关键参数,得到所述日志文件的完整程度,其中,所述完整程度是基于所述关键参数的数量确定的;
在确定所述完整程度小于预设完整程度的情况下,确定所述日志文件存储无效,并将所述子任务重新发送至目标节点,由所述目标节点重新处理所述子任务。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
分别监测每一个目标节点的性能参数;
若存在性能参数大于性能阈值的目标节点,则将存在性能参数大于性能阈值的目标节点确定为异常节点;
发送告警信息,以提示所述分布式系统中存在异常节点。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
读取所述异常节点的日志,确定所述异常节点的故障信息;
根据预置的故障编号与修复方案之间的对应关系和所述故障信息的目标故障编号,确定目标修复方案;
根据所述目标修复方案修复所述异常节点。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
接收节点接入请求,所述节点接入请求包括待接入的扩充节点;
获取所述扩充节点的配置信息;
根据所述配置信息更新所述配置文件。
7.根据权利要求1或6所述的方法,其特征在于,所述方法还包括:
根据所述配置文件,确定所述分布式系统中的所述多个节点;
定期监测每一个节点的健康状态;
若所述分布式系统中存在健康状态为异常的节点,则通过预置的修复模型修复所述健康状态为异常的节点。
8.一种基于分布式系统的任务处理装置,其特征在于,所述装置包括:
第一接收单元,用于接收任务处理请求,所述任务处理请求包括待处理任务,所述待处理任务包括多个子任务;
第一确定单元,用于基于预置的配置文件,从所述分布式系统的多个节点中确定多个目标节点,每一个目标节点处理至少一个子任务;
处理单元,用于分别由各目标节点处理对应的子任务,以响应于所述任务处理请求。
9.一种电子设备,其特征在于,包括存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行权利要求1-7中任一项所述的基于分布式系统的任务处理方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的基于分布式系统的任务处理方法。
CN202211240053.1A 2022-10-11 2022-10-11 基于分布式系统的任务处理方法及装置、设备及介质 Pending CN115686831A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211240053.1A CN115686831A (zh) 2022-10-11 2022-10-11 基于分布式系统的任务处理方法及装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211240053.1A CN115686831A (zh) 2022-10-11 2022-10-11 基于分布式系统的任务处理方法及装置、设备及介质

Publications (1)

Publication Number Publication Date
CN115686831A true CN115686831A (zh) 2023-02-03

Family

ID=85064852

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211240053.1A Pending CN115686831A (zh) 2022-10-11 2022-10-11 基于分布式系统的任务处理方法及装置、设备及介质

Country Status (1)

Country Link
CN (1) CN115686831A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116737345A (zh) * 2023-08-11 2023-09-12 之江实验室 分布式任务处理系统及方法、装置、存储介质以及设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116737345A (zh) * 2023-08-11 2023-09-12 之江实验室 分布式任务处理系统及方法、装置、存储介质以及设备

Similar Documents

Publication Publication Date Title
KR101888029B1 (ko) 가상 머신 클러스터 모니터링 방법 및 모니터링 시스템
CN107734035B (zh) 一种云计算环境下的虚拟集群自动伸缩方法
US10489232B1 (en) Data center diagnostic information
CN103201724B (zh) 在高可用性虚拟机环境中提供高可用性应用程序
US10728085B1 (en) Model-based network management
CN111818159B (zh) 数据处理节点的管理方法、装置、设备及存储介质
CN106789306B (zh) 通信设备软件故障检测收集恢复方法和系统
WO2004031979A2 (en) Method of solving a split-brain condition
US11706080B2 (en) Providing dynamic serviceability for software-defined data centers
JP2006500654A (ja) コンピュータ・システムにおける適応型問題判別及びリカバリー
CN110134518A (zh) 一种提高大数据集群多节点应用高可用性的方法及系统
KR20200078328A (ko) 소프트웨어 애플리케이션 프로세스를 모니터링하는 시스템 및 방법
CN110618864A (zh) 一种中断任务恢复方法及装置
US20230016199A1 (en) Root cause detection of anomalous behavior using network relationships and event correlation
CN112380089A (zh) 一种数据中心监控预警方法及系统
CN108199901B (zh) 硬件报修方法、系统、设备、硬件管理服务器与存储介质
CN115686831A (zh) 基于分布式系统的任务处理方法及装置、设备及介质
US20210224121A1 (en) Virtual machine-initiated workload management
CN113672345A (zh) 一种基于io预测的云虚拟化引擎分布式资源调度方法
CN112269693B (zh) 一种节点自协调方法、装置和计算机可读存储介质
RU2710288C1 (ru) Способ удаленного сброса ненормального состояния стоек, применяемых в дата-центре
CN110287066B (zh) 一种服务器分区迁移方法及相关装置
CN111611048A (zh) 云计算环境中虚拟机的迁移方法、装置和计算机设备
CN111694705A (zh) 监控方法、装置、设备及计算机可读存储介质
CN110392078B (zh) 一种维护共享文件的底层资源数据的方法和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination