CN117076555A - 一种基于计算的分布式任务管理系统及方法 - Google Patents

一种基于计算的分布式任务管理系统及方法 Download PDF

Info

Publication number
CN117076555A
CN117076555A CN202310506888.5A CN202310506888A CN117076555A CN 117076555 A CN117076555 A CN 117076555A CN 202310506888 A CN202310506888 A CN 202310506888A CN 117076555 A CN117076555 A CN 117076555A
Authority
CN
China
Prior art keywords
task
information
execution
priority
subtask
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310506888.5A
Other languages
English (en)
Other versions
CN117076555B (zh
Inventor
李永桥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Youyou Network Technology Co ltd
Original Assignee
Wuhu Benchu Ziwu Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhu Benchu Ziwu Information Technology Co ltd filed Critical Wuhu Benchu Ziwu Information Technology Co ltd
Priority to CN202310506888.5A priority Critical patent/CN117076555B/zh
Publication of CN117076555A publication Critical patent/CN117076555A/zh
Application granted granted Critical
Publication of CN117076555B publication Critical patent/CN117076555B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • G06F16/278Data partitioning, e.g. horizontal or vertical partitioning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2471Distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/5021Priority
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明公开了一种基于计算的分布式任务管理系统及方法,属于计算机技术领域,包括:任务创建服务器,用于接收任务并传送给控制中心;控制中心,对任务创建服务器发送的任务进行调度,通过线性回归模型获取最佳任务分片数量,分片为多个子任务信息;数据库,融合产生节点数据集;计算节点,执行或恢复从数据库接收的任务;恢复中心,存储任务快照。对任务赋予优先级标签;利用线性回归模型获取最佳的任务分片数量;接收多个子任务信息;融合产生节点数据集;读取节点数据集中的子任务信息;依据子任务信息执行相应的任务,减轻计算节点的性能压力,提高任务执行效率。

Description

一种基于计算的分布式任务管理系统及方法
技术领域
本发明涉及计算机技术领域,具体为一种基于计算的分布式任务管理系统及方法。
背景技术
随着互联网和大数据技术的发展,数据的大小、维度、变化和复杂度都大幅度增加,导致单个计算节点处理任务数据的速度太慢。为了解决这个问题,ElasticSearch提供了将任务数据分片的方法,每个任务分片自身是完整的,能够被放到任何一个计算节点上,ElasticSearch为创建的分片拷贝一份或多份,以应对计算节点或分片离线和故障的情况。然而,ElasticSearch的分片数量需要人为设定,且不能随时地改变分片数量,过多或者过少分片数量都会给服务器带来额外的性能压力。
发明内容
本发明的目的在于提供一种基于计算的分布式任务管理系统及方法,以解决上述背景技术中提出的问题。
为了解决上述技术问题,本发明提供如下技术方案:
根据本发明的一个方面,提供一种基于计算的分布式任务管理系统,包括任务创建服务器、控制中心、数据库、计算节点和恢复中心;
所述任务创建服务器,与所述控制中心之间相连接,用于接收任务,赋予任务优先级标签priority,传送任务及优先级标签priority给控制中心;
所述控制中心,与所述数据库之间连接,对所述任务创建服务器发送的任务进行调度,通过线性回归模型获取最佳任务分片数量,将任务分片为多个子任务,并发送到所述数据库;
所述数据库,与计所述算节点相连接,融合多个information、tag、IP Address和Execution Information节点数据集,所述information为子任务信息,tag为子任务标签,IP Address为IP地址,Execution Information为子任务执行信息;
所述计算节点,与所述恢复中心相连接,根据从所述数据库接收的information和Execution Information,执行相应的任务;
所述恢复中心,存储任务快照,将任务快照存储到数据库对应节点数据的Execution Information中。
优选地,tag包括priority和Status,tag为子任务标签,priority为优先级标签,Status为状态标签。
优选地,Status包括等待执行、正在执行、成功执行和执行失败,囊括任务执行的全部过程。
优选地,当读取等待执行的子任务信息时,修改其对应节点数据的Status为等待执行;当正在执行的子任务信息执行成功时,修改其对应节点数据的Status为成功执行;当正在执行的子任务信息执行失败时,修改其对应节点数据的Status为执行失败。
可选地,计算节点执行任务基于定时器触发。
优选地,所述计算节点通过读取数据库中的任务快照恢复执行失败的任务信息。
可选地,所述控制中心基于ElasticSearch、Zookeeper和分布式资源管理器Yarn。ElasticSearch用于提供分布式协调管理功能,将任务分片为多个子任务。Zookeeper用于辅助ElasticSearch对leader进行选举。分布式资源管理器Yarn提供资源调度服务,为不同优先级的任务构建不同运行环境,以不同环境起到资源隔离的作用,从而实现资源的合理分配。
根据本发明的另一个方面,提供一种基于计算的分布式任务管理方法,包括以下步骤:
S6-1,对任务进行优先级划分;
S6-2,利用线性回归模型获取最佳任务分片数量;
S6-3,接收多个子任务信息;
S6-4,将所述多个子任务信息information、tag、IP Address和ExecutionInformation为节点数据集;
S6-5,读取节点数据集中的子任务信息;
S6-6,根据接收的子任务信息information和子任务执行信息ExecutionInformation,执行相应的任务;
所述information为子任务信息,tag为子任务标签,IP Address为IP地址,Execution Information为子任务执行信息。
上述线性回归模型为:
其中,y是最佳任务分片数量;w1是正常运行的计算节点数量权值;x1是正常运行的计算节点数量;是任务特征权值矩阵;X2是任务特征矩阵,包括任务大小和类型,对于不同类型的任务赋予不同的正常值,如分类、回归和预测任务分别赋值1、2和3,与权值相乘后才影响到最佳任务分片数量,不同的赋值对结果没有影响;b是偏置;/>表示向下取整。
上述线性回归模型,包括以下步骤:
S8-1:通过网格搜索法,在[1,a]区间内以步长为1执行以往的任务,从而获取任务执行效率最高的[1,a]区间内的最佳任务分片数量,其中a为执行以往的任务时所对应的正常运行的计算节点的数量的3倍;
S8-2:将执行以往的任务时所对应的正常运行的计算节点的数量和以往任务的特征作为输入,以往任务的最佳分片数量作为输出,通过线性回归模型进行训练得到计算节点数量权值、任务特征矩阵权值和偏置;
S8-3:当有新的任务特征和对应的正常运行的计算节点的数量发生变化时,重复步骤S8-1和S8-2来更新计算节点数量权值、任务特征矩阵权值和偏置。
可选地,权值和偏置采用离线训练方式更新,以减轻服务器压力。
优选地,所述tag包括priority和Status,priority为优先级标签,Status为状态标签。
优选地,Status包括等待执行、正在执行、成功执行和执行失败。
优选地,在执行任务的过程中,将任务快照存储到恢复中心,恢复中心将任务快照存储到数据库中,计算节点根据从数据库中获取的任务快照恢复执行失败的任务。
优选地,当读取等待执行的子任务信息时,修改其对应节点数据的Status为等待执行;当正在执行的子任务信息执行成功时,修改其对应节点数据的Status为成功执行;当正在执行的子任务信息执行失败时,修改其对应节点数据的Status为执行失败。
与现有技术相比,本发明所达到的有益效果是:通过线性回归模型获取最佳任务分片数量,将任务分片为多个子任务,information、tag、IP Address和ExecutionInformation融合为节点数据集存放在数据库,计算节点从数据库读取information和Execution Information,并根据读取的Information和Execution Information执行相应的任务,可减轻计算节点的压力,从而提高任务的执行效率;引入优先级,确保高优先级任务优先执行;将任务快照存储到恢复中心,并根据任务快照恢复执行失败的任务,提高任务执行效率。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明一种基于计算的分布式任务管理系统的结构示意图;
图2是本发明实施例的节点数据集的一个示例图;
图3是本发明实施例Zookeeper集群的结构示意图;
图4是本发明的一种基于计算的分布式任务管理方法的流程图;
图5是本发明实施例的服务器集群部署图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明基于计算的分布式任务管理系统的结构示意图。所述基于计算的分布式任务管理系统包括任务创建服务器,控制中心,数据库,多个计算节点和恢复中心。控制中心通过线性回归模型获取最佳分片数量,将任务分片为多个子任务,多个information、tag、IP Address和Execution Information融合成节点数据集存储在数据库中。计算节点从数据库读取information和Execution Information,并根据读取的information和Execution Information执行相应的任务。在这个过程中,控制中心监视计算节点上任务的执行情况,并将其发送给数据库,数据库将其记录在节点数据集中。
任务创建服务器与控制中心相连接,用于接收客户端发送的任务,赋予任务优先级标签priority,并将任务及优先级标签priority发送给分布式服务器集群。
控制中心与数据库之间相连接,对任务创建服务器发送的任务进行调度,通过线性回归模型获取最佳任务分片数量,将任务分片为多个子任务信息,发送到所述数据库,同时监视计算节点上的任务执行情况。
数据库与计算节点相连接,融合多个information、tag、IP Address和ExecutionInformation节点数据集,其中,information为子任务信息,tag为子任务标签,IP Address为IP地址,Execution Information为子任务执行信息。
计算节点与恢复中心相连接,根据从数据库接收的information和ExecutionInformation,执行相应的任务。
恢复中心用于存储任务快照,并将任务快照存储到数据库的对应节点数据的Execution Information中。
具体地,将任务分片为子任务,每个服务器需要处理的任务数据减少,例如,对于100万条低优先级任务数据,分片成10个子任务,每个服务器只需要处理10万条任务数据。若优先组服务器中无正在执行的任务,分配优先组服务器的资源处理这些任务数据,否则,仅由普通组服务器处理这些任务数据。将这些数据融合存储为节点数据集,每个节点数据对应一个子任务。以数据队列的形式存放节点数据,遵循先入先出的原则,确保子任务不会被重复执行。
在本发明的一个实施例中,节点数据集保存在一台服务器上,计算节点从节点数据集获取information和Execution Information,可减轻计算节点的压力,有利于提高任务执行效率。如若服务器集群中的服务器配置不一样,则每台服务器可根据自身性能动态获取子任务信息,最大化利用每个服务器的性能。
对于大容量的任务,所述实施例中服务器执行完一个子任务后再执行下一个,有效保护了低性能服务器,并充分发挥高性能服务器的性能。
在本发明的一个实施例中,数据库以数据队列的形式存放information、tag、IPAddress和Execution Information;tag包括priority和Status,priority为优先级标签,Status为状态标签;Status包括等待执行、正在执行、成功执行和执行失败;数据队列遵循先入先出的原则,通过对Status的检索确保任务的执行成功。
在本发明的一个实施例中,在计算节点执行任务的过程中,恢复中心存放任务快照。当某个步骤出现异常时,能够迅速从任务快照中恢复到该步骤,避免重复执行,提高了任务执行效率。
在本发明的一个实施例中,控制中心、数据库、计算节点和恢复中心都应部署集群组件,利用集群组件对服务器集群内部的控制中心、数据库、计算节点和恢复中心进行统一管理。数据库开放read和write权限给计算节点,让每一个计算节点都能够从数据库读取information和Execution Information。控制中心、数据库、计算节点和恢复中心通过集群内部选举产生,以实现不同的功能。
图2是节点数据集的一个示例,任务分片为多个子任务,以节点数据集形式存储,以一个节点数据对应一个子任务,节点数据包括information、tag、IP Address和Execution Information,tag又包括priority和Status。在任务执行过程中,计算节点从数据库获取Status为等待执行的information和Execution Information,information和Execution Information被计算节点获取后,修改其对应节点数据的Status为正在执行,控制中心获取执行该子任务的计算节点的IP地址,记录到数据库中对应节点数据的IPAddress中;如若一个子任务执行失败,修改其对应节点数据的Status为执行失败,并记录该子任务是由哪个计算节点执行的和在哪个步骤执行失败的信息在对应节点数据的Execution Information中;如若一个子任务成功执行,则修改其对应节点数据的Status为成功执行。
控制中心可按照定时或其他固定规律向多个计算节点发送心跳信息来确定控制中心和数据库与计算节点之间的连接情况。控制中心向计算节点发送心跳信息,如若计算节点有心跳,仅仅只是和控制中心的连接断开了,则控制中心向计算节点发出停止执行任务的指令,计算节点根据指令停止执行任务,并把任务快照存放到恢复中心里,控制中心选中Status为执行失败的对应的节点数据,将该节点数据的Status改为等待执行;如若计算节点没有心跳,那么控制中心从恢复中心读取任务执行的状态信息,并将其存入数据库对应的节点数据的Execution Information中,并将对应节点数据的Status改为执行失败,从而使后来的计算节点能够直接从失败的步骤开始。
如若控制中心出现问题,那么可以利用分布式服务器集群的特性,通过选举产生新的控制中心。如果新的控制中心,即之前的计算节点正在执行任务,则把任务快照存放到恢复中心,存放到数据库对应节点数据的Execution Information中,并修改对应节点数据的Status为等待执行。当任务执行结束时,控制中心清空恢复中心保存的信息,方便下次执行任务时不用进行清理。
图3是Zookeeper集群的结构示意图,主要包括以下内容:
领导者leader,负责对任务进行调度和处理,对集群内部服务器进行调度;
跟随者follower,处理客户端任务,与leader之间进行通信,参与leader的选举;
观察者observer,与follower的区别在于不参与leader选举。
当leader产生断线、重启和闪退等异常情况时,Zookeeper集群就会根据ZAB协议进入恢复模式,选举产生新的leader。Zookeeper集群选举产生leader包括以下步骤:
S001,选举阶段,所有follower计算节点一开始都处于选举阶段,当一个follower计算节点获得超过一半的计算节点的票数时,它成为准leader;
S002,发现阶段,所有follower与准leader(之前的follower)间进行通信和同步;
S003,同步阶段,准leader(之前的follower)利用leader之前获取的最新的历史提议,与服务器集群之间进行同步,同步完成之后,准leader(之前的follower)真正成为leader;
S004,广播阶段,只有在这个阶段Zookeeper集群才能正式对外提供服务。
图4是本发明的基于计算的分布式任务管理方法流程图,具体包括以下步骤:
在步骤S6-1中,赋予任务优先级标签;
在步骤S6-2中,通过线性回归模型获取最佳任务分片数量;
在步骤S6-3中,接收多个子任务;
在步骤S6-4中,将多个information、tag、IP Address和Execution Information融合成节点数据集;
在步骤S6-5中,读取节点数据集中的information和Execution Information;
在步骤S6-6中,根据读取的information和Execution Information,执行相应的任务;
上述information为子任务信息,tag为子任务标签,IP Address为IP地址,Execution Information为子任务执行信息。
具体地,tag包括priority和Status,Status包括等待执行、正在执行、成功执行和执行失败;上述priority为优先级标签,Status为状态标签。
具体地,对于上述基于计算的分布式任务管理方法,赋予任务priority,以0为低优先级标签,1为高优先级标签。接收多个子任务信息information,所述子任务信息information来自于数据库,每个子任务信息information融合tag、IP Address和Execution Information形成一个节点数据,以数据队列的形式存储节点数据得到节点数据集,节点数据集存储在数据库中,计算节点从节点数据集获取information和ExecutionInformation,并根据获取的information和Execution Information执行相应的任务。节点数据集设置为先入先出特性,确保任务正确执行且不会重复执行。
所述Status,对于等待执行的子任务,赋予标签0;正在执行的子任务,赋予标签1;成功执行的子任务,赋予标签2;执行失败的子任务;赋予标签-1;初始标签全部为0。
在本发明的一个实施例中,任务分片数量通过如下线性回归方程获取:
其中,大写英文字母代表矩阵,小写英文字母代表数字;y是最佳任务分片数量;w1是正常运行的计算节点数量权值;x1是正常运行的计算节点数量;是任务特征权值矩阵;X2是任务特征矩阵,包括任务大小和任务类型,对于不同类型的任务赋予不同的正常值,如分类、回归和预测任务分别赋值1、2和3,与权值相乘后才影响到最佳任务分片数量,不同的赋值对结果没有影响;b是偏置;/>表示向下取整。上述w1、/>和b通过离线训练获取最优值。
具体地,离线训练包括以下步骤:
在步骤S8-1中,通过网格搜索法,在[1,a]区间内以步长为1执行以往的任务,从而获取任务执行效率最高的[1,a]区间内的最佳任务分片数量,a为执行以往的任务时所对应的正常运行的计算节点的数量的3倍;
在步骤S8-2中,将执行以往的任务时所对应的正常运行的计算节点的数量和以往任务的特征作为输入,以往任务的最佳分片数量作为输出,通过线性回归模型进行训练得到计算节点数量权值、任务特征矩阵权值和偏置;
在步骤S8-3中,当有新的任务特征和对应的正常运行的计算节点的数量发生变化时,重复步骤S8-1和S8-2来更新计算节点数量权值、任务特征矩阵权值和偏置。
采用离线训练的方式,不占用分布式集群的资源,不会影响到任务的执行。
根据图5所示,多个优先组服务器和多个普通组服务器构成服务器集群,集群组件部署在各个服务器集群上,集群组件对服务器集群中的服务器进行协调性和一致性管理。当客户端向服务器集群发送高优先级任务时,集群内部决定哪台或哪些优先组服务器处理客户端任务;当客户端向服务器集群发送低优先级任务时,若优先组服务器无正在执行的任务,优先组服务器也参与执行任务,否则,仅由普通组服务器执行任务。集群组件包括ElasticSearch、Zookeeper和分布式资源管理器Yarn。
所述ElasticSearch用于提供分布式协调管理功能,将任务分片为多个子任务。
所述Zookeeper用于辅助ElasticSearch对leader进行选举。
所述分布式资源管理器Yarn提供资源调度服务,为不同优先级的任务构建不同运行环境,以不同环境起到资源隔离的作用,从而实现资源的合理分配。
所述分布式资源管理器Yarn,用于将服务器集群分为两组,一组为优先组,一组为普通组。当接收到priority为高优先级的任务时,分配到优先组执行,当优先组中无高优先级任务执行时,暂时分配优先组资源给普通组执行任务。一旦优先组中有高优先级任务,回收分配给普通组的资源执行高优先级任务。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于计算的分布式任务管理系统,其特征在于,包括:
任务创建服务器、控制中心、数据库、计算节点和恢复中心;
所述任务创建服务器,与所述控制中心之间相连接,用于接收任务,赋予任务优先级标签priority,传送任务及优先级标签priority给控制中心;
所述控制中心,与所述数据库之间相连接,对所述任务创建服务器发送的任务进行调度,通过线性回归模型获取最佳任务分片数量,将任务分片为多个子任务,并发送到所述数据库,同时监视所述计算节点的任务执行情况;
所述数据库,与所述计算节点相连接,融合多个information、tag、IP Address和Execution Information为节点数据集;
所述计算节点,与所述恢复中心相连接,根据从所述数据库接收的子任务信息information和子任务执行信息Execution Information,执行相应的任务;
所述恢复中心,存储任务快照,并发送任务快照到所述数据库。
2.根据权利要求1所述一种基于计算的分布式任务管理系统,其特征在于,所述任务创建服务器对任务进行两级优先级划分,高优先级任务分配到优先组服务器执行;优先组中无高优先级任务时,分配低优先级任务到优先组服务器执行。
3.根据权利要求1所述一种基于计算的分布式任务管理系统,其特征在于,所述tag包括priority和Status,tag与IPAddress、information和Execution Information融合成节点数据;所述priority为优先级标签,所述Status为状态标签;所述Status包括等待执行、正在执行、成功执行和执行失败。
4.根据权利要求1所述一种基于计算的分布式任务管理系统,其特征在于:所述计算节点根据任务快照恢复执行失败的任务。
5.根据权利要求1所述一种基于计算的分布式任务管理系统,其特征在于:所述控制中心基于ElasticSearch、Zookeeper和分布式资源管理器Yarn。
6.一种基于计算的分布式任务管理方法,其特征在于,包括以下步骤:
S6-1,对任务进行优先级划分;
S6-2,利用线性回归模型获取最佳任务分片数量;
S6-3,接收多个子任务信息information;
S6-4,将多个子任务信息information、tag、IP Address和Execution Information融合为节点数据集;
S6-5,读取节点数据集中的information;
S6-6,依据所述子任务信息information和子任务执行信息Execution Information,在相应的计算节点上执行相应的任务;
其中,information为子任务信息,tag为子任务标签,IP Address为IP地址,ExecutionInformation为子任务执行信息。
7.根据权利要求6所述的一种基于计算的分布式任务管理方法,其特征在于:利用线性回归模型获取最佳任务分片数量;将任务分片为多个子任务;每个information与tag、IPAddress和Execution Information融合成一个节点数据;所述线性回归模型为:
其中,y是任务分片数量;w1是正常运行的计算节点数量权值;x1是正常运行的计算节点数量;是任务特征权值矩阵;X2是任务特征矩阵,包括任务大小和类型,对于不同类型的任务赋予不同的正常值;b是偏置;/>表示向下取整。
8.根据权利要求7所述的一种基于计算的分布式任务管理方法,其特征在于,线性回归模型训练包括以下步骤:
S8-1:通过网格搜索法,在[1,a]区间内以步长为1执行以往的任务,从而获取任务执行效率最高的[1,a]区间内的最佳任务分片数量,其中a为执行以往的任务时所对应的正常运行的计算节点的数量的3倍;
S8-2:将执行以往的任务时所对应的正常运行的计算节点的数量和以往任务的特征作为输入,以往任务的最佳分片数量作为输出,通过线性回归模型进行训练得到计算节点数量权值、任务特征矩阵权值和偏置;
S8-3:当有新的任务特征或对应的正常运行的计算节点的数量发生变化时,重复步骤S8-1和S8-2来更新计算节点数量权值、任务特征矩阵权值和偏置。
9.根据权利要求6所述的一种基于计算的分布式任务管理方法,其特征在于,所述tag包括priority和Status;所述priority为优先级标签,所述Status为状态标签;Status包括:等待执行、正在执行、成功执行和执行失败根据;当读取等待执行的子任务信息时,修改其对应节点数据的Status为等待执行;当正在执行的子任务信息执行成功时,修改其对应节点数据的Status为成功执行;当正在执行的子任务信息执行失败时,修改其对应节点数据的Status为执行失败。
10.根据权利要求6所述的一种基于计算的分布式任务管理方法,其特征在于,在执行任务的过程中,将任务快照存储到恢复中心,并根据任务快照恢复执行失败的任务。
CN202310506888.5A 2023-05-08 2023-05-08 一种基于计算的分布式任务管理系统及方法 Active CN117076555B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310506888.5A CN117076555B (zh) 2023-05-08 2023-05-08 一种基于计算的分布式任务管理系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310506888.5A CN117076555B (zh) 2023-05-08 2023-05-08 一种基于计算的分布式任务管理系统及方法

Publications (2)

Publication Number Publication Date
CN117076555A true CN117076555A (zh) 2023-11-17
CN117076555B CN117076555B (zh) 2024-03-22

Family

ID=88704942

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310506888.5A Active CN117076555B (zh) 2023-05-08 2023-05-08 一种基于计算的分布式任务管理系统及方法

Country Status (1)

Country Link
CN (1) CN117076555B (zh)

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104317658A (zh) * 2014-10-17 2015-01-28 华中科技大学 一种基于MapReduce的负载自适应任务调度方法
CN108205470A (zh) * 2016-12-20 2018-06-26 北京奇虎科技有限公司 一种分布式广告数据计算任务管理系统及方法
US20180365229A1 (en) * 2017-06-19 2018-12-20 Vettd, Inc. Systems and methods to determine and utilize semantic relatedness between multiple natural language sources to determine strengths and weaknesses
CN110673945A (zh) * 2018-07-03 2020-01-10 北京京东尚科信息技术有限公司 分布式任务管理方法和管理系统
CN111327681A (zh) * 2020-01-21 2020-06-23 北京工业大学 一种基于Kubernetes的云计算数据平台构建方法
CN111338791A (zh) * 2020-02-12 2020-06-26 平安科技(深圳)有限公司 集群队列资源的调度方法、装置、设备及存储介质
US20200411168A1 (en) * 2019-06-28 2020-12-31 General Electric Company Machine-learning and combinatorial optimization framework for managing tasks of a dynamic system with limited resources
CN112463389A (zh) * 2020-12-10 2021-03-09 中国科学院深圳先进技术研究院 分布式机器学习任务的资源管理方法及装置
CN112667376A (zh) * 2020-12-23 2021-04-16 数字广东网络建设有限公司 任务调度处理方法、装置、计算机设备及存储介质
US20220138194A1 (en) * 2020-11-05 2022-05-05 Kabushiki Kaisha Toshiba Parameter optimization apparatus, method, and system
CN114816711A (zh) * 2022-05-13 2022-07-29 湖南长银五八消费金融股份有限公司 批量任务处理方法、装置、计算机设备和存储介质
CN114816709A (zh) * 2022-05-07 2022-07-29 北京知道创宇信息技术股份有限公司 任务调度方法、装置、服务器及可读存储介质
CN115421905A (zh) * 2022-08-17 2022-12-02 中国银联股份有限公司 一种任务调度方法、装置、电子设备及存储介质
CN115544029A (zh) * 2021-06-29 2022-12-30 华为技术有限公司 一种数据处理方法及相关装置

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104317658A (zh) * 2014-10-17 2015-01-28 华中科技大学 一种基于MapReduce的负载自适应任务调度方法
CN108205470A (zh) * 2016-12-20 2018-06-26 北京奇虎科技有限公司 一种分布式广告数据计算任务管理系统及方法
US20180365229A1 (en) * 2017-06-19 2018-12-20 Vettd, Inc. Systems and methods to determine and utilize semantic relatedness between multiple natural language sources to determine strengths and weaknesses
CN110673945A (zh) * 2018-07-03 2020-01-10 北京京东尚科信息技术有限公司 分布式任务管理方法和管理系统
US20200411168A1 (en) * 2019-06-28 2020-12-31 General Electric Company Machine-learning and combinatorial optimization framework for managing tasks of a dynamic system with limited resources
CN111327681A (zh) * 2020-01-21 2020-06-23 北京工业大学 一种基于Kubernetes的云计算数据平台构建方法
CN111338791A (zh) * 2020-02-12 2020-06-26 平安科技(深圳)有限公司 集群队列资源的调度方法、装置、设备及存储介质
US20220138194A1 (en) * 2020-11-05 2022-05-05 Kabushiki Kaisha Toshiba Parameter optimization apparatus, method, and system
CN112463389A (zh) * 2020-12-10 2021-03-09 中国科学院深圳先进技术研究院 分布式机器学习任务的资源管理方法及装置
CN112667376A (zh) * 2020-12-23 2021-04-16 数字广东网络建设有限公司 任务调度处理方法、装置、计算机设备及存储介质
CN115544029A (zh) * 2021-06-29 2022-12-30 华为技术有限公司 一种数据处理方法及相关装置
CN114816709A (zh) * 2022-05-07 2022-07-29 北京知道创宇信息技术股份有限公司 任务调度方法、装置、服务器及可读存储介质
CN114816711A (zh) * 2022-05-13 2022-07-29 湖南长银五八消费金融股份有限公司 批量任务处理方法、装置、计算机设备和存储介质
CN115421905A (zh) * 2022-08-17 2022-12-02 中国银联股份有限公司 一种任务调度方法、装置、电子设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LUOYANG WANG 等: "Investigating relationships between landscape patterns and surface runoff from a spatial distribution and intensity perspective", 《JOURNAL OF ENVIRONMENTAL MANAGEMENT5 NOVEMBER 2022》, 5 November 2022 (2022-11-05), pages 1 - 12 *
林金羽: "异构环境下基于动态资源分配的Hadoop调度算法研究", 《信息科技》, 15 December 2022 (2022-12-15), pages 1 - 62 *

Also Published As

Publication number Publication date
CN117076555B (zh) 2024-03-22

Similar Documents

Publication Publication Date Title
CN109885389B (zh) 一种基于容器的并行深度学习调度训练方法及系统
US9396031B2 (en) Distributed UIMA cluster computing (DUCC) facility
US20080256223A1 (en) Scale across in a grid computing environment
CN111274052A (zh) 数据分发方法、服务器及计算机可读存储介质
CN111459639A (zh) 一种支持全球多机房部署的分布式任务管理平台及方法
CN109298924A (zh) 定时任务的管理方法、计算机可读存储介质和终端设备
CN114675956B (zh) 一种基于Kubernetes集群之间Pod配置及调度的方法
CN112799837A (zh) 一种容器动态平衡调度方法
CN112667383A (zh) 一种任务执行及调度方法、系统、装置、计算设备及介质
CN112395052B (zh) 一种面向混合负载基于容器的集群资源管理方法及系统
CN117076555B (zh) 一种基于计算的分布式任务管理系统及方法
CN114168297A (zh) 一种归集任务调度方法、装置、设备及介质
CN112698947B (zh) 一种基于异构应用平台的gpu资源弹性调度方法
CN114564281A (zh) 容器调度方法、装置、设备及存储介质
CN116700933B (zh) 一种面向异构算力联邦的多集群作业调度系统和方法
CN110287159B (zh) 一种文件处理方法及装置
CN111831408A (zh) 异步任务处理方法、装置、电子设备及介质
CN111625414A (zh) 一种数据转换整合软件的自动调度监控系统实现方法
CN109725916B (zh) 流处理的拓扑结构更新系统和方法
WO2023015787A1 (zh) 一种高吞吐云计算资源回收系统
US10909094B1 (en) Migration scheduling for fast-mutating metadata records
CN113055203A (zh) Sdn控制平面的异常恢复方法及装置
CN115712572A (zh) 任务的测试方法、装置、存储介质及电子装置
TWI733261B (zh) 配置雲服務的方法及系統
CN113110935A (zh) 分布式批量作业处理系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20240228

Address after: 518033, Building B, Fujian Building, No. 2048 Caitian Road, Fushan Community, Futian Street, Futian District, Shenzhen City, Guangdong Province, 2006B10

Applicant after: Shenzhen Youyou Network Technology Co.,Ltd.

Country or region after: China

Address before: Room 1702, Fudi Nanduhui Office Building, Nanrui Street, Yijiang District, Wuhu, Anhui Province 241000

Applicant before: Wuhu Benchu Ziwu Information Technology Co.,Ltd.

Country or region before: China

GR01 Patent grant
GR01 Patent grant