CN114077524A - 算力共享异常上报、处理方法及装置、存储介质、终端设备 - Google Patents

算力共享异常上报、处理方法及装置、存储介质、终端设备 Download PDF

Info

Publication number
CN114077524A
CN114077524A CN202010791528.0A CN202010791528A CN114077524A CN 114077524 A CN114077524 A CN 114077524A CN 202010791528 A CN202010791528 A CN 202010791528A CN 114077524 A CN114077524 A CN 114077524A
Authority
CN
China
Prior art keywords
exception
task
computing
residual
computing power
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010791528.0A
Other languages
English (en)
Inventor
苗润泉
孙明
刘莹莹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Spreadtrum Semiconductor Nanjing Co Ltd
Original Assignee
Spreadtrum Semiconductor Nanjing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Spreadtrum Semiconductor Nanjing Co Ltd filed Critical Spreadtrum Semiconductor Nanjing Co Ltd
Priority to CN202010791528.0A priority Critical patent/CN114077524A/zh
Priority to US18/020,118 priority patent/US20230214261A1/en
Priority to PCT/CN2021/110779 priority patent/WO2022028512A1/zh
Publication of CN114077524A publication Critical patent/CN114077524A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • G06F9/4893Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues taking into account power or heat criteria
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • G06F11/3062Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations where the monitored property is the power consumption
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4812Task transfer initiation or dispatching by interrupt, e.g. masked
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system
    • G06F9/5088Techniques for rebalancing the load in a distributed system involving task migration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/48Indexing scheme relating to G06F9/48
    • G06F2209/481Exception handling

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Debugging And Monitoring (AREA)
  • Power Sources (AREA)
  • Remote Monitoring And Control Of Power-Distribution Networks (AREA)

Abstract

一种算力共享异常上报、处理方法及装置、存储介质、终端设备,算力共享异常上报方法,用于计算协作端,所述算力共享异常上报方法包括:检测当前的硬件状态以及电量状态;如果所述硬件状态或所述电量状态达到预设异常门限,或者,所述硬件状态的变化量或所述电量状态的变化量达到预设上报门限,则向网络单元上报异常信息,以供所述网络单元确定为所述计算协作端所分配的总任务量以及所述计算协作端剩余任务的剩余任务量;根据所述异常信息和所述剩余任务量确定对所述剩余任务量或所述总任务量重新分配。本发明技术方案能够实现在算力共享过程中的异常发现或处理,保证分布式计算业务的顺利开展。

Description

算力共享异常上报、处理方法及装置、存储介质、终端设备
技术领域
本发明涉及通信技术领域,尤其涉及一种算力共享异常上报、处理方法及装置、存储介质、终端设备。
背景技术
在未来网络中,由于终端的计算性能过剩,因此终端可能会通过无线网络参与到分布式计算中。
但是,由于参与分布式计算终端大多并非计算专用终端,在计算过程中,可能会由于网络视频、游戏等导致终端中央处理器(Central Processing Unit,CPU)/内存使用率过高、终端电量不足等异常,如果不能及时发现和处理异常,可能会导致分布式计算出现中断。
发明内容
本发明解决的技术问题是如何实现在算力共享过程中的异常发现或处理,保证分布式计算业务的顺利开展。
为解决上述技术问题,本发明实施例提供一种算力共享异常上报方法,算力共享异常上报方法包括:检测当前的硬件状态以及电量状态;如果所述硬件状态或所述电量状态达到预设异常门限,或者,所述硬件状态的变化量或所述电量状态的变化量达到预设上报门限,则向网络单元上报异常信息,以供所述网络单元确定为所述计算协作端所分配的总任务量以及所述计算协作端剩余任务的剩余任务量;根据所述异常信息和所述剩余任务量确定对所述剩余任务量或所述总任务量重新分配。
可选的,所述向网络单元上报异常信息包括:向所述网络单元上报异常类型,所述异常类型选自硬件异常和电量异常。
可选的,所述向网络单元上报异常信息包括:向所述网络单元上报异常详情,所述异常详情选自所述硬件状态和所述电量状态。
可选的,所述向网络单元上报异常信息包括:向所述网络单元上报异常原因,所述异常原因选自硬件异常原因和电量异常原因。
可选的,所述硬件状态包括CPU使用率、NPU使用率、GPU使用率和/或内存使用率,所述电量状态包括电量剩余量。
为解决上述技术问题,本发明实施例还公开了一种算力共享异常处理方法,用于网络单元,所述算力共享异常处理方法包括:接收来自计算协作端上报的异常信息,其中,所述计算协作端检测当前的硬件状态以及电量状态;如果所述硬件状态或所述电量状态达到预设异常门限,则上报异常;确定为所述计算协作端所分配的总任务量以及所述计算协作端剩余任务的剩余任务量;根据所述异常信息和所述剩余任务量确定对所述剩余任务量或所述总任务量重新分配。
可选的,所述根据所述异常信息和所述剩余任务量确定对所述剩余任务量或所述总任务量重新分配包括:根据第一其他协作端的算力资源将所述剩余任务量或所述总任务量分配至所述第一其他协作端,所述第一其他协作端与所述计算协作端为同一计算需求端提供算力服务。
可选的,所述根据所述异常信息和所述剩余任务量确定对所述剩余任务量或所述总任务量重新分配包括:向第二其他协作端发送协作询问,所述协作询问包括可提供算力上报请求;接收所述第二其他协作端响应所述协作询问返回的协作询问响应信息,所述协作询问响应信息包括响应所述可提供算力上报请求时返回的可提供算力信息;当所述可提供算力信息满足由所述剩余任务量或所述总任务量确定的算力需求时,授权所述第二其他协作端提供算力服务。
可选的,所述方法还包括:如果不存在其他协作端能够提供算力服务或者无法执行所述剩余任务量,则通知计算需求端任务失败。
可选的,所述根据所述异常信息和所述剩余任务量确定对所述剩余任务量或所述总任务量重新分配包括:确定为所述计算协作端分配任务时设置的完成时长,以及根据所述完成时长和预设延时比例确定延时时长;根据所述异常信息确定所述计算协作端的当前计算资源;计算所述计算协作端利用所述当前计算资源能否在所述延时时长内完成所述剩余任务量;如果所述计算协作端利用所述当前计算资源不能在所述延时时长内完成所述剩余任务量,则根据所述异常信息和所述剩余任务量确定对所述剩余任务量或所述总任务量重新分配。
可选的,所述确定所述计算协作端剩余任务的剩余任务量包括:根据所述计算协作端上报的剩余任务百分比以及所述总任务量计算所述剩余任务量,所述计算协作端上报的异常包括所述剩余任务百分比;或者,确定为所述计算协作端分配任务的第一时刻以及接收所述计算协作端上报的异常的第二时刻,并根据所述第一时刻和所述第二时刻的时间差以及所述计算协作端的计算资源估计出所述剩余任务量。
可选的,所述根据所述异常信息和所述剩余任务量确定对所述剩余任务量重新分配包括:根据所述计算协作端的计算性能以及所述剩余任务量确定剩余样本数;根据所述异常信息和所述剩余任务量确定对所述剩余样本数进行重新分配。
可选的,所述预设上报门限小于所述预设异常门限,所述异常信息包括当前设备信息,所述当前设备信息包括当前的硬件状态以及电量状态,所述根据所述异常信息和所述剩余任务量确定对所述剩余任务量或所述总任务量重新分配:检测算力共享任务的训练结果是否收敛;如果所述训练结果未收敛,则根据所述当前设备信息和所述剩余任务量确定对所述剩余任务量或所述总任务量重新分配。
本发明实施例还公开了一种算力共享异常上报装置,所述算力共享异常上报装置包括:状态检测模块,用于检测当前的硬件状态以及电量状态;异常上报模块,用于如果所述硬件状态或所述电量状态达到预设异常门限,或者,所述硬件状态的变化量或所述电量状态的变化量达到预设上报门限,则向网络单元上报异常信息,以供所述网络单元确定为所述计算协作端所分配的总任务量以及所述计算协作端剩余任务的剩余任务量;根据所述异常信息和所述剩余任务量确定对所述剩余任务量或所述总任务量重新分配。
本发明实施例还公开了一种算力共享异常处理装置,算力共享异常处理装置包括:异常接收模块,用于接收来自计算协作端上报的异常信息,其中,所述计算协作端检测当前的硬件状态以及电量状态;如果所述硬件状态或所述电量状态达到预设异常门限,则上报异常;任务计算模块,用于确定为所述计算协作端所分配的总任务量以及所述计算协作端剩余任务的剩余任务量;分配模块,用于根据所述异常信息和所述剩余任务量确定对所述剩余任务量或所述总任务量重新分配。
本发明实施例还公开了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器运行时执行所述算力共享异常上报方法的步骤,或者所述算力共享异常处理方法的步骤。
本发明实施例还公开了一种终端设备,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序时执行所述算力共享异常上报方法的步骤,或者所述算力共享异常处理方法的步骤。
与现有技术相比,本发明实施例的技术方案具有以下有益效果:
本发明技术方案中,计算协作端可以检测当前的硬件状态以及电量状态;如果所述硬件状态或所述电量状态达到预设异常门限,则向网络单元上报异常信息。本发明技术方案中,计算协作端在提供算力共享服务的过程中,可以通过检测当前的硬件状态以及电量状态,及时发现异常并进行上报,可以使得网络单元及时获知该计算协作端能否按时完成分配的计算任务,供网络单元确定计算协作端剩余任务的剩余任务量,并根据异常和剩余任务量确定对剩余任务量或总任务量重新分配,保证分布式计算业务的顺利开展。
附图说明
图1是本发明实施例一种算力共享异常上报方法的流程图;
图2是本发明实施例一种算力共享异常处理方法的流程图;
图3是图2所示步骤S203的一种具体实施方式的流程图;
图4是图2所示步骤S203的另一种具体实施方式的流程图;
图5是本发明实施例一种应用场景的示意图;
图6是本发明实施例一种算力共享异常上报装置的结构示意图;
图7是本发明实施例一种算力共享异常处理装置的结构示意图。
具体实施方式
如背景技术中所述,由于参与分布式计算终端大多并非计算专用终端,在计算过程中,可能会由于网络视频、游戏等导致终端中央处理器(Central Processing Unit,CPU)/内存使用率过高、终端电量不足等异常,如果不能及时发现和处理异常,可能会导致分布式计算出现中断。
本发明技术方案中,计算协作端在提供算力共享服务的过程中,可以通过检测当前的硬件状态以及电量状态,及时发现异常并进行上报,可以使得网络单元及时获知该计算协作端能否按时完成分配的计算任务,供网络单元确定计算协作端剩余任务的剩余任务量,并根据异常和剩余任务量确定对剩余任务量或总任务量重新分配,保证分布式计算业务的顺利开展。
为使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
图1是本发明实施例一种算力共享异常上报方法。
所述算力共享异常上报方法可以用于算力共享系统中的计算协作端。所述算力共享系统可以包括网络单元、计算协作端和计算需求端。计算需求端是指具有分布式计算需求的终端设备或网络设备,计算协作端是指具有多余计算能力的终端设备或网络设备,并能够提供算力服务,网络单元用于提供算力共享服务,也即执行分布式计算的授权和调度。其中,网络单元可以是第三代合作伙伴计划(3rd Generation Partnership Project,3GPP)网络架构中原有的应用功能(Application Function,AF)或者引入新的网络单元/功能负责分布式计算的授权和调度等功能。
具体而言,所述网络单元用于提供算力共享服务是指:所述网络单元接收到来自所述计算协作端或计算需求端的算力服务请求信息后,向预设目标发送算力服务能力询问信息,其中,所述预设目标包括所述计算协作端和/或所述计算需求端;所述网络单元接收来自所述预设目标的响应信息,并根据所述响应信息提供算力共享服务,其中,所述响应信息包括算力需求响应信息或算力协作响应信息;所述网络单元接收通知信息,其中,所述通知信息包括所述预设目标确定所述算力共享服务完成时发出的通知信息。
请参照图1,所述算力共享异常上报方法具体可以包括以下步骤:
步骤S101:检测当前的硬件状态以及电量状态;
步骤S102:如果所述硬件状态或所述电量状态达到预设异常门限,或者,所述硬件状态的变化量或所述电量状态的变化量达到预设上报门限,则向网络单元上报异常信息,以供所述网络单元确定为所述计算协作端所分配的总任务量以及所述计算协作端剩余任务的剩余任务量,根据所述异常信息和所述剩余任务量确定对所述剩余任务量或所述总任务量重新分配。
需要指出的是,本实施例中各个步骤的序号并不代表对各个步骤的执行顺序的限定。
本实施例中,计算协作端具有检测当前的硬件状态以及电量状态的能力。所述硬件状态的变化量是指当前的硬件状态与初始的硬件状态的变化量,或所述电量状态的变化量是指当前的电量状态与初始的电量状态的变化量。其中,初始的硬件状态是指计算协作端响应网络单元的协作询问时上报的硬件状态,初始的电量状态是指计算协作端响应网络单元的协作询问时上报的电量状态。
具体实施中,所述硬件状态包括CPU使用率、图形处理器(Graphics ProcessingUnit,GPU)使用率、神经网络处理器(Neural-network Processing Unit,NPU)使用率和/或内存使用率,所述电量状态包括电量剩余量。
相应地,预设异常门限可以包括对应CPU使用率的第一预设值,对应GPU使用率的第二预设值,对应内存使用率的第三预设值,或对应电量剩余量的第四预设值。所述硬件状态达到预设异常门限可以是指CPU使用率达到第一预设值和/或GPU使用率达到第二预设值和/或内存使用率达到第三预设值,所述电量状态达到预设异常门限可以是指电量剩余量小于第四预设值。
换言之,在硬件状态和电量状态中一个或多个达到预设异常门限的情况下,可以上报异常信息;更具体而言,在硬件状态中的一个或多个达到预设异常门限的情况下,可以上报异常信息。
需要说明的是,关于预设异常门限的具体数值,可以根据实际的应用环境适应性设置;预设上报门限也可以包括针对多个硬件状态以及针对电量状态的多个门限值,本发明实施例对此不作限制。
本发明实施例可以避免出现异常的计算协作端反馈局部模型出现较大延迟或失败,进而避免影响整个分布式计算的进度甚至分布式计算失败。或者,在变化量达到预设上报门限进行上报,可以使得网络单元根据最新的设备信息进行动态任务调整,减小算力共享过程中异常发生的概率。
在一个非限制性的实施例中,图1所示步骤S102可以包括以下步骤:向所述网络单元上报异常类型,所述异常类型选自硬件异常和电量异常。
本实施例中,计算协作端在上报异常时,可以是上报异常类型,例如上报硬件异常,或者上报电量异常,或者上报硬件异常和电量异常。以使得网络单元能够获知计算协作端出现异常的类型,并进行相应的处理。
在另一个非限制性的实施例中,图1所示步骤S102可以包括以下步骤:向所述网络单元上报异常详情,所述异常详情选自所述硬件状态和所述电量状态。
本实施例中,计算协作端在上报异常时,可以是上报异常详情,例如上报硬件状态,或者上报电量状态,或者上报硬件状态和电量状态。
进一步地,计算协作端可以一并上报异常类型和异常详情,例如上报异常类型为电量异常,异常详情为电量状态为20%电量。
在又一个非限制性的实施例中,图1所示步骤S102可以包括以下步骤:向所述网络单元上报异常原因,所述异常原因选自硬件异常原因和电量异常原因。
本实施例中,计算协作端在上报异常时,还可以上报异常原因。
进一步地,计算协作端可以一并上报异常类型、异常详情和异常原因,例如上报异常类型为电量异常,异常详情为电量状态为20%电量,异常原因为网络视频和网络游戏。
请参照图2,网络单元可以接收计算协作端上报的异常,也即可以执行以下步骤:
步骤S201:接收来自计算协作端上报的异常信息;
步骤S202:确定为所述计算协作端所分配的总任务量以及所述计算协作端剩余任务的剩余任务量;
步骤S203:根据所述异常信息和所述剩余任务量确定对所述剩余任务量或所述总任务量重新分配。
在步骤S201的具体实施中,网络单元通过接收来自计算协作端上报的异常信息,可以获知计算协作端出现异常,可能不能按时完成分配的任务。在这种情况下,网络单元可以通过执行步骤S202和步骤S203判断计算协作端是否能够完成为计算协作端所分配的总任务量,也即是否能够完成剩余任务量。如果不能,网络单元需要协调算力资源来重新分配剩余任务量或所述总任务量,保证总任务量能够及时完成,满足计算需求端的计算需求。
本实施例中所称总任务量可以是指分配给计算协作端的样本数量。剩余任务量可以是指计算协作端未完成训练的样本数量。例如,分配给计算协作端的样本数量为16,计算协作端具备4核CPU,计算协作端在计算过程中同时4个样本一组进行训练,如果在第2组完成一半的时候发生异常,此时已完成任务量为(4+4*50%)=6,剩余任务量为16-6=10;剩余任务量比例为10/16=5/8。
在步骤S203的具体实施中,网络单元确定是否需要重新分配任务量,并在需要重新分配时,对剩余任务量或所述总任务量进行重新分配。
在一个非限制性的实施例中,图2所示步骤S203可以包括以下步骤:根据第一其他协作端的算力资源将所述剩余任务量或所述总任务量分配至第一其他协作端,所述第一其他协作端与所述计算协作端为同一计算需求端提供算力服务。
本实施例中,为同一计算需求端提供算力服务的可以是多个计算协作端;在其中一个计算协作端出现异常无法完成分配的计算任务时,网络单元可以将分配给该计算协作端的总任务量分配至第一其他协作端,或者也可以将未完成训练的剩余任务量分配至第一其他协作端。本发明实施例能够保证计算需求端的计算任务的顺利完成。其中,第一其他协作端的算力资源可以是在响应网络单元的协作询问时上报的算力资源(也可以称为可提供算力信息)。第一其他协作端的可提供算力信息满足由所述剩余任务量或所述总任务量确定的算力需求时,网络单元可以授权所述第一其他协作端提供算力服务,并将所述剩余任务量或所述总任务量分配至所述第一其他协作端。
具体地,第一其他协作端的数量可以是一个,也可以是多个。在向多个第一其他协作端分配任务量时,可以是基于多个第一其他协作端的算力资源来分配的。第一其他协作端所提供的算力资源,例如计算计算能力越大,则分配给该第一其他协作端的任务量越多。
在另一个非限制性的实施例中,请参照图3,图2所示步骤S203可以包括以下步骤:
步骤S301:向第二其他协作端发送协作询问,所述协作询问包括可提供算力上报请求;
步骤S302:接收所述第二其他协作端响应所述协作询问返回的协作询问响应信息,所述协作询问响应信息包括响应所述可提供算力上报请求时返回的可提供算力信息;
步骤S303:当所述可提供算力信息满足由所述剩余任务量或所述总任务量确定的算力需求时,授权所述第二其他协作端提供算力服务。
本实施例可以是在网络单元无法找到能够提供算力资源的第一其他协作端的情况下执行的。也就是说,在这种情况下,网络单元需要重新寻找其他可用的计算协作端完成分配给出现异常的计算协作端的总任务量或者剩余任务量。
具体而言,网络单元需要向至少一个第二其他协作端发送协作询问,以获知至少一个第二其他协作端的可提供算力信息。如果可提供算力信息满足由所述剩余任务量或所述总任务量确定的算力需求,则授权所述第二其他协作端提供算力服务,也即由第二其他协作端执行所述剩余任务量或所述总任务量的训练。
进一步而言,如果不存在其他协作端(第一其他协作端和第二其他协作端)能够提供算力服务或者无法执行所述剩余任务量,则通知计算需求端任务失败。
本实施例中,在计算需求端任务失败的情况下,将提前终止计算需求端的计算流程,以节约计算资源。
在一个非限制性的实施例中,请参照图4,图2所示步骤S203可以包括以下步骤:
步骤S401:确定为所述计算协作端分配任务时设置的完成时长,以及根据所述完成时长和预设延时比例确定延时时长;
步骤S402:根据所述异常信息确定所述计算协作端的当前计算资源;
步骤S403:计算所述计算协作端利用所述当前计算资源能否在所述延时时长内完成所述剩余任务量;
步骤S404:如果所述计算协作端利用所述当前计算资源不能在所述延时时长内完成所述剩余任务量,则根据所述异常信息和所述剩余任务量确定对所述剩余任务量或所述总任务量重新分配。
本实施例中,网络单元可以判断出现异常的计算协作端使用当前的计算资源,也即硬件状态和/或电量状态(如CPU/GPU/NPU/内存和电量等)是否能够完成剩余任务量。
具体而言,异常可接受的条件可以根据异常上报的异常类型和异常详情进行综合判断,最基本的判断依据是在异常状态下能否使用现有的计算资源在不超过原计划时间(也即为所述计算协作端分配任务时设置的完成时长)的特定比例(也即预设延时比例,如150%)内完成计算。具体地,为所述计算协作端分配任务时设置的完成时长可以是一轮迭代的平均计划时间,如果有一个计算协作端的完成时长差异较大,会导致整个迭代出现较大停滞。
可以理解的是,完成时长也可以根据现有技术中其他任意可实施的方式来设置;预设延时比例根据整个任务对计算时间的要求可以设置不同的值,本发明实施例对此不作限制。
在一个非限制性的实施例中,图2所示步骤S202可以包括以下步骤:根据所述计算协作端上报的剩余任务百分比以及所述总任务量计算所述剩余任务量,所述计算协作端上报的异常包括所述剩余任务百分比;或者,确定为所述计算协作端分配任务的第一时刻以及接收所述计算协作端上报的异常的第二时刻,并根据所述第一时刻和所述第二时刻的时间差以及所述计算协作端的计算资源估计出所述剩余任务量。
本发明实施例可以计算得到出现异常的计算协作端所剩余的任务量。
具体实施中,计算协作端在异常上报时,上报内容包含剩余任务百分比,网络单元根据该百分比及之前分配的总任务量精确计算出剩余任务量。或者,网络单元根据分配任务的时间到异常上报的时间之差,结合之前获取的计算协作端的硬件性能(也即计算资源,如CPU/GPU/NPU/内存和电量等),估计出已完成的任务量及剩余任务量。
在一个非限制性的实施例中,图2所示步骤S203可以包括以下步骤:根据所述计算协作端的计算性能以及所述剩余任务量确定剩余样本数;根据所述异常信息和所述剩余任务量确定对所述剩余样本数进行重新分配。
本实施例中可以确定剩余任务量和剩余样本数。剩余任务量可以用于估计出现异常的计算协作端能否顺利完成任务;剩余样本数可以用于进行任务重分配。
具体实施中,计算协作端在上报异常时,上报内容可以包括已完成训练的样本比例,计算协作端在训练时基本上是按照顺序完成的,基于已完成训练的样本比例,可以确定未完成训练的样本。此时网络单元只需重新分配剩余样本(也即未完成训练的样本)即可。例如,分配给计算协作端的样本数量为16,计算协作端具备4核CPU,计算协作端在计算过程中同时4个样本一组进行训练,如果在第2组完成一半的时候发生异常,此时已完成任务量为(4+4*50%)=6,剩余任务量为16-6=10;剩余任务量比例为10/16=5/8。已完成的样本数量为4,已完成的样本比例为4/16=1/4,剩余样本比例为3/4。
在另一个例子中,网络单元还可以对总任务量进行分配。例如,分配给计算协作端的是8个样本,计算协作端有8核的CPU,并行对8个样本进行训练,训练50%的时候出现异常,此时剩余任务量只有50%,但其实所有的样本都没有被训练完成。此时网络单元进行重分配的时候,计算到一半的样本是不能共享给网络或者其他协作方的,此时只能将8个样本的任务全部重新分配出去。
在一个具体的应用场景中,请参照图5,网络单元在步骤1-7执行步骤:任务发起及计算协作端授权。
步骤A.1:网络单元向授权的计算协作端发送训练模型和训练任务。训练任务包括总任务量。
步骤B.1:计算协作端-2上报异常。此时可以是计算协作端-2的硬件状态或电量状态达到预设异常门限。
步骤B.2:网络单元根据上报信息进行处理。具体可以是根据异常详情和剩余任务量确定对剩余任务量或总任务量重新分配。具体可以重新执行步骤1-7以执行任务发起及计算协作端授权。
步骤A.2:各个计算协作端训练完成,上传局部模型;对于设备信息发生较大变化的协作端,还需上传最新设备信息。设备信息可以是硬件状态或电量状态。此时可以是计算协作端-2的硬件状态的变化量或所述电量状态的变化量达到预设上报门限。
步骤A.3:网络单元基于各个计算协作端权重,更新模型,判断训练结果是否收敛。
步骤A.4a:如果没有,网络单元根据最新设备信息重新分配训练任务,并重复A.1-A.2,或反馈失败。
步骤A.4b:如果收敛,网络单元发送训练结果给计算需求端。
步骤8-9:计算服务结束。
本实施例中,在一轮计算完成时,如果部分计算协作端的设备信息发生较大变化,虽然未达到预设异常门限,也应上报最新的设备信息,包括CPU/GPU/内存使用率、剩余电量等。计算协作端也可以上报设备信息发生较大变化的原因。
在负责授权和调度的网络单元判断计算结果未收敛时,根据最新的设备信息和剩余的计算任务进行任务分配,如果当前所有协作端的计算能力不足以完成剩余计算任务,则寻找其他可用的计算协作端,重新分配所述剩余任务量或所述总任务量;如果找不到合适的计算协作方,则宣告计算失败,提前终止计算流程。
请参照图6,本发明实施例还公开了一种算力共享异常上报装置60,算力共享异常上报装置60包括状态检测模块601和异常上报模块602。
其中,状态检测模块601用于检测当前的硬件状态以及电量状态;异常上报模块602用于如果所述硬件状态或所述电量状态达到预设异常门限,或者,所述硬件状态的变化量或所述电量状态的变化量达到预设上报门限,则向网络单元上报异常信息,以供所述网络单元确定为所述计算协作端所分配的总任务量以及所述计算协作端剩余任务的剩余任务量;根据所述异常信息和所述剩余任务量确定对所述剩余任务量或所述总任务量重新分配。
关于所述算力共享异常上报装置60的工作原理、工作方式的更多内容,可以参照图1至图5中的相关描述,这里不再赘述。
请参照图7,本发明实施例还公开了一种算力共享异常处理装置70,算力共享异常处理装置70包括异常接收模块701、任务计算模块702和分配模块703。
其中,异常接收模块701用于接收来自计算协作端上报的异常信息,其中,所述计算协作端检测当前的硬件状态以及电量状态;如果所述硬件状态或所述电量状态达到预设异常门限,则上报异常;任务计算模块702用于确定为所述计算协作端所分配的总任务量以及所述计算协作端剩余任务的剩余任务量;分配模块703用于根据所述异常信息和所述剩余任务量确定对所述剩余任务量或所述总任务量重新分配。
关于所述算力共享异常处理装置70的工作原理、工作方式的更多内容,可以参照图1至图5中的相关描述,这里不再赘述。
本发明实施例还公开了一种存储介质,所述存储介质为计算机可读存储介质,其上存储有计算机程序,所述计算机程序运行时可以执行图1至图5中所示方法的步骤。所述存储介质可以包括ROM、RAM、磁盘或光盘等。所述存储介质还可以包括非挥发性存储器(non-volatile)或者非瞬态(non-transitory)存储器等。
本发明实施例还公开了一种终端设备,所述终端设备可以包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机程序。所述处理器运行所述计算机程序时可以执行图1至图5中所示方法的步骤。所述终端设备包括但不限于手机、计算机、平板电脑等终端设备。
虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims (17)

1.一种算力共享异常上报方法,用于计算协作端,其特征在于,所述算力共享异常上报方法包括:
检测当前的硬件状态以及电量状态;
如果所述硬件状态或所述电量状态达到预设异常门限,或者,所述硬件状态的变化量或所述电量状态的变化量达到预设上报门限,则向网络单元上报异常信息,以供所述网络单元确定为所述计算协作端所分配的总任务量以及所述计算协作端剩余任务的剩余任务量,根据所述异常信息和所述剩余任务量确定对所述剩余任务量或所述总任务量重新分配。
2.根据权利要求1所述的算力共享异常上报方法,其特征在于,所述向网络单元上报异常信息包括:
向所述网络单元上报异常类型,所述异常类型选自硬件异常和电量异常。
3.根据权利要求1所述的算力共享异常上报方法,其特征在于,所述向网络单元上报异常信息包括:
向所述网络单元上报异常详情,所述异常详情选自所述硬件状态和所述电量状态。
4.根据权利要求1所述的算力共享异常上报方法,其特征在于,所述向网络单元上报异常信息包括:
向所述网络单元上报异常原因,所述异常原因选自硬件异常原因和电量异常原因。
5.根据权利要求1所述的算力共享异常上报方法,其特征在于,所述硬件状态包括CPU使用率、NPU使用率、GPU使用率和/或内存使用率,所述电量状态包括电量剩余量。
6.一种算力共享异常处理方法,用于网络单元,其特征在于,所述算力共享异常处理方法包括:
接收来自计算协作端上报的异常信息,其中,所述计算协作端检测当前的硬件状态以及电量状态,如果所述硬件状态或所述电量状态达到预设异常门限,或者,所述硬件状态的变化量或所述电量状态的变化量达到预设上报门限;
确定为所述计算协作端所分配的总任务量以及所述计算协作端剩余任务的剩余任务量;
根据所述异常信息和所述剩余任务量确定对所述剩余任务量或所述总任务量重新分配。
7.根据权利要求6所述的算力共享异常处理方法,其特征在于,所述根据所述异常信息和所述剩余任务量确定对所述剩余任务量或所述总任务量重新分配包括:
根据第一其他协作端的算力资源将所述剩余任务量或所述总任务量分配至所述第一其他协作端,所述第一其他协作端与所述计算协作端为同一计算需求端提供算力服务。
8.根据权利要求6所述的算力共享异常处理方法,其特征在于,所述根据所述异常信息和所述剩余任务量确定对所述剩余任务量或所述总任务量重新分配包括:
向第二其他协作端发送协作询问,所述协作询问包括可提供算力上报请求;接收所述第二其他协作端响应所述协作询问返回的协作询问响应信息,所述协作询问响应信息包括响应所述可提供算力上报请求时返回的可提供算力信息;
当所述可提供算力信息满足由所述剩余任务量或所述总任务量确定的算力需求时,授权所述第二其他协作端提供算力服务。
9.根据权利要求7或8所述的算力共享异常处理方法,其特征在于,还包括:
如果不存在其他协作端能够提供算力服务或者无法执行所述剩余任务量,则通知计算需求端任务失败。
10.根据权利要求6所述的算力共享异常处理方法,其特征在于,所述根据所述异常信息和所述剩余任务量确定对所述剩余任务量或所述总任务量重新分配包括:
确定为所述计算协作端分配任务时设置的完成时长,以及根据所述完成时长和预设延时比例确定延时时长;
根据所述异常信息确定所述计算协作端的当前计算资源;
计算所述计算协作端利用所述当前计算资源能否在所述延时时长内完成所述剩余任务量;
如果所述计算协作端利用所述当前计算资源不能在所述延时时长内完成所述剩余任务量,则根据所述异常信息和所述剩余任务量确定对所述剩余任务量或所述总任务量重新分配。
11.根据权利要求6所述的算力共享异常处理方法,其特征在于,所述确定所述计算协作端剩余任务的剩余任务量包括:
根据所述计算协作端上报的剩余任务百分比以及所述总任务量计算所述剩余任务量,所述计算协作端上报的异常包括所述剩余任务百分比;
或者,确定为所述计算协作端分配任务的第一时刻以及接收所述计算协作端上报的异常的第二时刻,并根据所述第一时刻和所述第二时刻的时间差以及所述计算协作端的计算资源估计出所述剩余任务量。
12.根据权利要求6所述的算力共享异常处理方法,其特征在于,所述根据所述异常信息和所述剩余任务量确定对所述剩余任务量重新分配包括:
根据所述计算协作端的计算性能以及所述剩余任务量确定剩余样本数;
根据所述异常信息和所述剩余任务量确定对所述剩余样本数进行重新分配。
13.根据权利要求6所述的算力共享异常处理方法,其特征在于,所述预设上报门限小于所述预设异常门限,所述异常信息包括当前设备信息,所述当前设备信息包括当前的硬件状态以及电量状态,所述根据所述异常信息和所述剩余任务量确定对所述剩余任务量或所述总任务量重新分配:
检测算力共享任务的训练结果是否收敛;
如果所述训练结果未收敛,则根据所述当前设备信息和所述剩余任务量确定对所述剩余任务量或所述总任务量重新分配。
14.一种算力共享异常上报装置,用于计算协作端,其特征在于,所述算力共享异常上报装置包括:
状态检测模块,用于检测当前的硬件状态以及电量状态;
异常上报模块,用于如果所述硬件状态或所述电量状态达到预设异常门限,或者,所述硬件状态的变化量或所述电量状态的变化量达到预设上报门限,则向网络单元上报异常信息,以供所述网络单元确定为所述计算协作端所分配的总任务量以及所述计算协作端剩余任务的剩余任务量,根据所述异常信息和所述剩余任务量确定对所述剩余任务量或所述总任务量重新分配。
15.一种算力共享异常处理装置,用于网络单元,其特征在于,所述算力共享异常处理装置包括:
异常接收模块,用于接收来自计算协作端上报的异常信息,其中,所述计算协作端检测当前的硬件状态以及电量状态;如果所述硬件状态或所述电量状态达到预设异常门限,则上报异常;
任务计算模块,用于确定为所述计算协作端所分配的总任务量以及所述计算协作端剩余任务的剩余任务量;
分配模块,用于根据所述异常信息和所述剩余任务量确定对所述剩余任务量或所述总任务量重新分配。
16.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行权利要求1至5中任一项所述算力共享异常上报方法的步骤,或者权利要求6至13中任一项所述算力共享异常处理方法的步骤。
17.一种终端设备,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器运行所述计算机程序时执行权利要求1至5中任一项所述算力共享异常上报方法的步骤,或者权利要求6至13中任一项所述算力共享异常处理方法的步骤。
CN202010791528.0A 2020-08-07 2020-08-07 算力共享异常上报、处理方法及装置、存储介质、终端设备 Pending CN114077524A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202010791528.0A CN114077524A (zh) 2020-08-07 2020-08-07 算力共享异常上报、处理方法及装置、存储介质、终端设备
US18/020,118 US20230214261A1 (en) 2020-08-07 2021-08-05 Computing power sharing-related exception reporting and handling methods and devices, storage medium, and terminal apparatus
PCT/CN2021/110779 WO2022028512A1 (zh) 2020-08-07 2021-08-05 算力共享异常上报、处理方法及装置、存储介质、终端设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010791528.0A CN114077524A (zh) 2020-08-07 2020-08-07 算力共享异常上报、处理方法及装置、存储介质、终端设备

Publications (1)

Publication Number Publication Date
CN114077524A true CN114077524A (zh) 2022-02-22

Family

ID=80120042

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010791528.0A Pending CN114077524A (zh) 2020-08-07 2020-08-07 算力共享异常上报、处理方法及装置、存储介质、终端设备

Country Status (3)

Country Link
US (1) US20230214261A1 (zh)
CN (1) CN114077524A (zh)
WO (1) WO2022028512A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118094416B (zh) * 2023-12-13 2024-09-27 百色市必晟矿业有限公司 锰合金生产原料输送系统的异常检测方法及系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011110026A1 (zh) * 2010-10-29 2011-09-15 华为技术有限公司 一种实现数据中心资源负载均衡的方法及装置
US9307048B2 (en) * 2010-12-28 2016-04-05 Microsoft Technology Licensing, Llc System and method for proactive task scheduling of a copy of outlier task in a computing environment
CN106357426B (zh) * 2016-08-26 2019-04-26 东北大学 一种基于工业云的大规模分布式智能数据采集系统及方法
WO2018205301A1 (zh) * 2017-05-08 2018-11-15 北京邮电大学 移动计算卸载协同控制系统及方法
CN109783224B (zh) * 2018-12-10 2022-10-14 平安科技(深圳)有限公司 基于负载调配的任务分配方法、装置及终端设备

Also Published As

Publication number Publication date
US20230214261A1 (en) 2023-07-06
WO2022028512A1 (zh) 2022-02-10

Similar Documents

Publication Publication Date Title
CN105279027B (zh) 一种虚拟机部署方法及装置
Cui et al. OL-EUA: Online user allocation for NOMA-based mobile edge computing
CN104714851B (zh) 一种实现资源分配的方法及装置
CN108519917A (zh) 一种资源池分配方法和装置
CN104994145A (zh) 一种基于kvm虚拟化集群的负载均衡方法
CN115421930B (zh) 任务处理方法、系统、装置、设备及计算机可读存储介质
US20120233313A1 (en) Shared scaling server system
CN112153697B (zh) 一种多基站、高并发场景下的cors解算方法、播发方法及系统、cors系统
CN104484233A (zh) 一种资源分配方法
CN105450784B (zh) 向mq中的消息分配消费节点的装置及方法
CN116471277A (zh) 算力分配方法、装置、服务器和计算机可读存储介质
CN106681803B (zh) 一种任务调度方法及服务器
CN109684077A (zh) 用于spark streaming的资源动态分配和反馈方法及装置
CN114077524A (zh) 算力共享异常上报、处理方法及装置、存储介质、终端设备
CN108200185B (zh) 一种实现负载均衡的方法及装置
Edinger et al. Decentralized low-latency task scheduling for ad-hoc computing
CN113342526A (zh) 云计算移动网络资源动态管控方法、系统、终端及介质
CN115168017B (zh) 一种任务调度云平台及其任务调度方法
CN104184685A (zh) 数据中心资源分配方法、装置及系统
CN110995802A (zh) 任务的处理方法和装置、存储介质及电子装置
CN110018896A (zh) 一种任务处理方法、装置、执行端集群及介质
CN107656810B (zh) 数据中心环境下保证延迟敏感程序服务质量的方法
US20210235289A1 (en) Cellular telecommunications network
CN110647440A (zh) 一种基于状态机的大数据任务处理方法及系统
Zhang et al. Multi‐Task Assignment Method of the Cloud Computing Platform Based on Artificial Intelligence

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination