CN117608821A - 确定计算任务卸载策略的方法、装置、设备及介质 - Google Patents
确定计算任务卸载策略的方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN117608821A CN117608821A CN202311386125.8A CN202311386125A CN117608821A CN 117608821 A CN117608821 A CN 117608821A CN 202311386125 A CN202311386125 A CN 202311386125A CN 117608821 A CN117608821 A CN 117608821A
- Authority
- CN
- China
- Prior art keywords
- computing
- obtaining
- neural network
- subtask
- task
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 75
- 238000013528 artificial neural network Methods 0.000 claims abstract description 150
- 230000004927 fusion Effects 0.000 claims abstract description 64
- 238000012545 processing Methods 0.000 claims abstract description 35
- 230000009471 action Effects 0.000 claims description 84
- 238000012549 training Methods 0.000 claims description 72
- 238000005265 energy consumption Methods 0.000 claims description 61
- 230000005540 biological transmission Effects 0.000 claims description 52
- 238000011156 evaluation Methods 0.000 claims description 33
- 230000006870 function Effects 0.000 claims description 31
- 230000015654 memory Effects 0.000 claims description 30
- 238000005457 optimization Methods 0.000 claims description 25
- 238000004891 communication Methods 0.000 claims description 13
- 238000013179 statistical model Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 description 47
- 230000008569 process Effects 0.000 description 23
- 230000000875 corresponding effect Effects 0.000 description 22
- 230000007246 mechanism Effects 0.000 description 10
- 239000003795 chemical substances by application Substances 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 230000007774 longterm Effects 0.000 description 5
- 230000002787 reinforcement Effects 0.000 description 5
- 230000006978 adaptation Effects 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000003340 mental effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5061—Partitioning or combining of resources
- G06F9/5072—Grid computing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
- G06F9/505—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the load
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5094—Allocation of resources, e.g. of the central processing unit [CPU] where the allocation takes into account power or heat criteria
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W28/00—Network traffic management; Network resource management
- H04W28/02—Traffic management, e.g. flow control or congestion control
- H04W28/08—Load balancing or load distribution
- H04W28/09—Management thereof
- H04W28/0917—Management thereof based on the energy state of entities
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W28/00—Network traffic management; Network resource management
- H04W28/02—Traffic management, e.g. flow control or congestion control
- H04W28/08—Load balancing or load distribution
- H04W28/09—Management thereof
- H04W28/0925—Management thereof using policies
- H04W28/0942—Management thereof using policies based on measured or predicted load of entities- or links
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W28/00—Network traffic management; Network resource management
- H04W28/02—Traffic management, e.g. flow control or congestion control
- H04W28/08—Load balancing or load distribution
- H04W28/09—Management thereof
- H04W28/0925—Management thereof using policies
- H04W28/095—Management thereof using policies based on usage history, e.g. usage history of devices
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W28/00—Network traffic management; Network resource management
- H04W28/02—Traffic management, e.g. flow control or congestion control
- H04W28/08—Load balancing or load distribution
- H04W28/09—Management thereof
- H04W28/0958—Management thereof based on metrics or performance parameters
- H04W28/0967—Quality of Service [QoS] parameters
- H04W28/0975—Quality of Service [QoS] parameters for reducing delays
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2209/00—Indexing scheme relating to G06F9/00
- G06F2209/50—Indexing scheme relating to G06F9/50
- G06F2209/502—Proximity
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及工业物联网技术领域,公开了一种确定计算任务卸载策略的方法、装置、设备及介质,该方法包括:获取计算任务,其中,计算任务包含预设数量个子任务;根据计算任务,获取智算融合网络系统的系统状态,其中,智算融合网络系统用于处理计算任务;将系统状态输入目标神经网络,得到每个子任务的候选卸载位置的回报值,其中,候选卸载位置包含于智算融合网络系统;根据回报值,生成计算任务中每个子任务的目标卸载策略,其中,目标卸载策略用于确定子任务的目标卸载位置。本发明解决了无法确定能够处理各类计算任务的卸载策略,无法确定最优卸载位置并进行算力资源协同分配的问题。
Description
技术领域
本发明涉及工业物联网技术领域,具体涉及一种确定计算任务卸载策略的方法、装置、设备及介质。
背景技术
物联网需要具有强大的分析和计算能力去处理各种计算任务。虽然,物联网中的本地设备具有存储容量和计算能力,但难以满足物联网复杂应用日益增长的计算任务需求。一方面,计算任务直接在本地设备处理时,由于本地设备计算能力的约束,导致处理计算任务的时延较长,降低了用户的体验。另一方面,计算任务所消耗的巨大能耗也严重缩短了本地设备的寿命。
当前,相关技术采用智算融合网络,并将计算任务迁移到智算融合网络中计算能力更强的算力节点,降低因本地设备计算能力约束而造成的响应延迟和能源消耗。然而,迁移过程涉及到计算任务卸载策略的决策和算力资源协同分配问题,智算融合网络中计算任务卸载与算力调度机制尚不完善。
因此,相关技术存在无法确定能够处理各种计算任务的卸载策略,无法确定最优卸载位置并进行算力资源协同分配的问题。
发明内容
有鉴于此,本发明提供了一种确定计算任务卸载策略的方法、装置、设备及介质,以解决无法确定能够处理用户产生的各类计算任务的卸载策略,无法确定最优卸载位置并进行算力资源协同分配的问题。
第一方面,本发明提供了一种确定计算任务卸载策略的方法,该方法包括:
获取计算任务,其中,计算任务包含预设数量个子任务;
根据计算任务,获取智算融合网络系统的系统状态,其中,智算融合网络系统用于处理计算任务;
将系统状态输入目标神经网络,得到每个子任务的候选卸载位置的回报值,其中,候选卸载位置包含于智算融合网络系统;
根据回报值,生成计算任务中每个子任务的目标卸载策略,其中,目标卸载策略用于确定子任务的目标卸载位置。
本实施例提供的确定计算任务卸载策略的方法,建立智算融合网络系统的系统模型。在确定计算任务卸载策略时,将当前智算融合网络系统的系统状态输入目标神经网络,得到智算融合网络系统中每个候选卸载位置的回报值,通过回报值反映将计算任务的子任务卸载到该候选卸载位置对应的延迟和能耗。根据回报值,生成计算任务中每个子任务的目标卸载策略。解决了无法确定能够处理各类计算任务的卸载策略,无法确定最优卸载位置并进行算力资源协同分配问题。
在一种可选的实施方式中,在将系统状态输入目标神经网络之前,方法还包括:
获取训练样本;
根据训练样本和评估神经网络,得到训练回报值;
根据训练样本和参考神经网络,得到参考回报值,其中,参考神经网络和评估神经网络结构相同;
根据训练回报值、参考回报值以及误差函数,得到损失值;
根据损失值调整评估神经网络的第一参数,每隔预设步长,将参考神经网络的第二参数修改为对应的评估神经网络的第一参数,并从获取训练样本开始执行后续步骤,如果调整第一参数的次数达到第一预设阈值或损失值小于第二预设阈值的次数达到第三预设阈值,则停止训练,将参考神经网络作为目标神经网络。
在本实施方式中,引入与评估神经网络结构相同但参数不同的参考神经网络,根据训练样本,对评估神经网络和参考神经网络进行训练,得到目标神经网络,提高了训练稳定性和算法收敛性。本发明将目标神经网络用于生成目标卸载策略,考虑了终端和服务的多维属性值,对可靠性、时延和能耗共同优化,实现智算融合网络中泛在闲置算力的高效利用和按需分配。
在一种可选的实施方式中,在获取训练样本之前,方法还包括:
获取历史计算任务和历史计算任务对应的历史系统状态;
将历史系统状态输入预先训练的神经网络,得到所有候选动作的状态动作值;
根据预设策略、候选动作以及状态动作值,得到目标动作;
执行目标动作,得到历史系统状态的下一系统状态和目标动作的奖励值;
将历史系统状态、目标动作、下一系统状态以及奖励值作为一个训练样本,并保存训练样本。
在本实施方式中,根据历史系统状态、预设策略以及预先训练的神经网络,得到目标动作、下一系统状态以及奖励值,将历史系统状态、目标动作、下一系统状态以及奖励值作为一个训练样本并保存。将训练样本用于模型训练和参数更新,提高了数据的利用率和训练效率。
在一种可选的实施方式中,在将历史系统状态输入预先训练的神经网络之前,方法还包括:
获取完成子任务所消耗的总成本;
根据总成本,生成多目标优化问题,并获取多目标优化问题的约束条件;
根据多目标优化问题和约束条件,构建统计模型的状态空间、动作空间以及奖励函数,其中,奖励函数是根据总成本得到的;
根据状态空间、动作空间以及奖励函数,生成预先训练的神经网络、评估神经网络以及参考神经网络。
在本实施方式中,根据完成子任务所消耗的总成本,生成多目标优化问题和约束条件;构建统计模型的状态空间、动作空间以及奖励函数,生成预先训练的神经网络、评估神经网络以及参考神经网络。将计算任务卸载过程中最小化时延和能耗的综合开销问题,转换成实现最大化长期累计奖励期望值的最优决策问题。通过设定合适的奖励函数,匹配最优卸载位置,有效地平衡资源的供需关系,实现可靠、高效的资源提供。
在一种可选的实施方式中,获取完成子任务所消耗的总成本,包括:
获取本地设备的第一计算能力和计算功率,其中,本地设备包含于智算融合网络系统;
根据子任务、第一计算能力以及计算功率,得到子任务在本地设备执行所需要的第一成本;
获取算力节点对应的传输速率、第二计算能力、本地设备的等待功率以及发射功率,其中,算力节点包含于智算融合网络系统;
根据子任务、传输速率、第二计算能力、等待功率以及发射功率,得到子任务在算力节点执行所需要的第二成本;
根据第一成本、第二成本以及第一预设公式,得到总成本。
在本实施方式中,计算子任务在本地设备执行所需要的第一成本、子任务在算力节点执行所需要的第二成本,综合第一成本和第二成本得到处理子任务的总成本。便于后续生成多目标优化问题和约束条件。
在一种可选的实施方式中,根据子任务、第一计算能力以及计算功率,得到子任务在本地设备执行所需要的第一成本,包括:
根据子任务,得到子任务的计算资源需求;
根据第一计算能力、计算资源需求以及第二预设公式,得到本地设备处理子任务的第一消耗时间;
根据计算功率、第一消耗时间以及第三预设公式,得到本地设备处理子任务的第一能耗;
根据第一消耗时间、第一能耗、预设权重系数以及第四预设公式,得到第一成本。
在一种可选的实施方式中,根据子任务、传输速率、第二计算能力、等待功率以及发射功率,得到子任务在算力节点执行所需要的第二成本,包括:
根据子任务,得到子任务的输入数据长度和计算资源需求;
根据计算资源需求、第二计算能力以及第五预设公式,得到算力节点处理子任务的第二消耗时间;
根据传输速率、输入数据长度以及第六预设公式,得到传输时延;
根据第二消耗时间和传输时延,得到算力节点的总时延;
根据发射功率、输入数据长度、传输速率以及第七预设公式,得到传输能耗;
根据等待功率和第二消耗时间,得到等待能耗;
根据传输能耗和等待能耗,得到算力节点的总能耗;
根据总时延、总能耗、预设权重系数以及第八预设公式,得到第二成本。
第二方面,本发明提供了一种确定计算任务卸载策略的装置,该装置包括:
第一获取模块,用于获取计算任务,其中,计算任务包含预设数量个子任务;
第二获取模块,用于根据计算任务,获取智算融合网络系统的系统状态,其中,智算融合网络系统用于处理计算任务;
第一得到模块,用于将系统状态输入目标神经网络,得到每个子任务的候选卸载位置的回报值,其中,候选卸载位置包含于智算融合网络系统;
第一生成模块,用于根据回报值,生成计算任务中每个子任务的目标卸载策略,其中,目标卸载策略用于确定子任务的目标卸载位置。
第三方面,本发明提供了一种计算机设备,包括:存储器和处理器,存储器和处理器之间互相通信连接,存储器中存储有计算机指令,处理器通过执行计算机指令,从而执行上述第一方面或其对应的任一实施方式的确定计算任务卸载策略的方法。
第四方面,本发明提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机指令,计算机指令用于使计算机执行上述第一方面或其对应的任一实施方式的确定计算任务卸载策略的方法。
附图说明
为了更清楚地说明本发明具体实施方式或相关技术中的技术方案,下面将对具体实施方式或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的确定计算任务卸载策略的方法的流程示意图;
图2是根据本发明实施例的智算融合网络系统模型的结构示意图;
图3是根据本发明实施例的评估神经网络和参考神经网络的结构图;
图4是根据本发明实施例的一种算网一体的集中式多维资源智能适配方法的流程图;
图5是根据本发明实施例的确定计算任务卸载策略的装置的结构框图;
图6是本发明实施例的计算机设备的硬件结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
智算融合网络作为一种典型算力网络,具有更高灵活性,能够整合和调度网络中闲置的各类算力资源,为用户提供个性化算力服务。然而,智算融合网络中计算卸载与算力调度机制尚不完善,需要设计高效的计算任务卸载机制,确定计算任务的卸载策略,实现有限算力资源合理分配与调度。深度强化学习将训练和决策分开,能够根据反馈结果快速做出相应的最优决策,并具有迁移学习的能力,能够在了解某个问题后高效求解其他类似问题,因此,可以引入深度强化学习解决当前智算融合网络计算卸载与算力调度机制尚不完善的问题。
基于上述内容,本发明实施例提供了一种确定计算任务卸载策略的方法,建立智算融合网络系统的系统模型。在需要确定计算任务卸载策略时,将当前智算融合网络系统的系统状态输入目标神经网络,得到智算融合网络系统中每个候选卸载位置的回报值,通过回报值反映将计算任务的子任务卸载到该候选卸载位置对应的延迟和能耗。根据回报值,生成计算任务中每个子任务的目标卸载策略。以达到提供一种可靠、低成本的算力调度机制,在智算融合网络中确定计算任务的卸载策略,实现对闲置算力的高效利用和按需分配的效果。
根据本发明实施例,提供了一种确定计算任务卸载策略的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在具有数据处理能力的计算机设备中执行,例如:电脑、服务器等,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
在本实施例中提供了一种确定计算任务卸载策略的方法,可用于上述的计算机设备,图1是根据本发明实施例的确定计算任务卸载策略的方法的流程图,如图1所示,该流程包括如下步骤:
步骤S101,获取计算任务,其中,计算任务包含预设数量个子任务。
具体地,本发明构建了建立智算融合网络系统的系统模型,将计算任务的卸载问题抽象建模为通信模型和计算模型,如图2所示,智算融合网络系统包括:算力节点V={V1,V2…Vk}共K个算力节点;M个算力服务请求方(Computing Service Requestor,CSR);R个基站(Base Station,BS);1个算力网络控制器(Center Control,CC)。K、M、R的数值根据实际需求设定。算力节点可以为CPU、GPU、边缘计算服务器、TPU、FPGA等;算力服务请求方位于智算融合网络系统的广义服务层,基站和算力节点位于智算融合网络系统的网络融合层,算力网络控制器位于智算融合网络系统的映射适配层。算力节点均匀分布在该区域,V={V1,V2…Vk}表示算力节点的集合,每个BS通过光纤与算力节点相连。为了保证对计算任务卸载的可靠性,算力服务请求方的计算任务可以通过多个链路到达不同的算力节点。为了实现对算力的协同调度,每个算力节点都通过基站与算力网络中心控制器(CenterController,CC)相连。本发明的算力网络控制器是智算融合网络系统的核心,用于最终生成每个子任务的目标卸载策略,在智算融合网络系统中发挥着重要作用。算力网络控制器通过服务资源感知获取算力服务请求方的计算任务信息;通过网络资源感知获取通信链路状况;通过算力资源感知获取算力节点设备的电量、CPU负载率、算力节点状况等信息;并根据上述信息生成计算任务的目标卸载策略,通过服务策略下发将目标卸载策略下发给算力服务请求方,算力服务请求方根据目标卸载策略确定了计算任务中每个子任务的卸载位置和计算资源分配,完成对计算任务的卸载和对智算融合网络系统中的算力资源进行调度,实现最小化计算任务的能量消耗和时间消耗。
算力网络中心控制器获取算力服务请求方的计算任务,其中,计算任务包含预设数量个子任务,预设数量根据实际情况确定,例如:计算任务A包含i个子任务,此时预设数量为i,第i个子任务为Ai,在上述通信模型中Ai={wi,ci,si},其中,wi表示子任务Ai的输入数据长度,包括计算任务的相关信息、系统参数等,当请求被卸载到算力节点进行计算时,wi需要通过通信链路上传到算力节点。ci表示执行子任务Ai所需的计算资源,即CPU时钟周期数,无论子任务Ai在何处执行,ci的大小均相同。si表示完成子任务Ai后的输出数据量,当请求被卸载到算力节点计算时,计算结果需要通过通信链路返回给算力服务请求方。每个子任务都可以选择本地执行,也可以卸载到算力节点处执行。
步骤S102,根据计算任务,获取智算融合网络系统的系统状态,其中,智算融合网络系统用于处理计算任务。
具体地,算力网络中心控制器根据计算任务的发起时间或需要完成的时间,获取对应时刻t下智算融合网络系统的系统状态,根据系统状态能够确定智算融合网络系统中算力节点和算力服务请求方的本地智能终端的算力资源,算力节点和本地智能终端均能处理计算任务的子任务。另外,因为计算任务中有预设数量个子任务,并不一定需要智算融合网络系统将每个子任务在同一时刻进行处理,因此,可以获取时间段T内每个时刻下智算融合网络系统的系统状态,只要在时间段T内将计算任务的所有子任务处理完毕即可。
步骤S103,将系统状态输入目标神经网络,得到每个子任务的候选卸载位置的回报值,其中,候选卸载位置包含于智算融合网络系统。
具体地,算力网络中心控制器内包含提前训练好的目标神经网络,目标神经网络例如:DQN神经网络(Deep Q-network,基于深度学习Q算法的神经网络),则目标神经网络能够输出每个动作的回报值,且输出的回报值为Q值,动作表示将子任务卸载到某个候选卸载位置,每个候选卸载位置对应一个动作,候选卸载位置可以为:算力服务请求方的本地智能终端或某一个算力节点。
步骤S104,根据回报值,生成计算任务中每个子任务的目标卸载策略,其中,目标卸载策略用于确定子任务的目标卸载位置。
具体地,根据回报值能够确定每个子任务最优的动作,例如:取每个子任务Q值最大的动作作为最优的动作。每个动作表示将子任务卸载到某个候选卸载位置,因此,最优的动作卸载到的候选卸载位置即子任务的目标卸载位置。根据回报值确定了计算任务中每个子任务的最优的动作后,就可以生成计算任务中每个子任务的目标卸载策略。
本实施例提供的确定计算任务卸载策略的方法,建立智算融合网络系统的系统模型。在确定计算任务卸载策略时,将当前智算融合网络系统的系统状态输入目标神经网络,得到智算融合网络系统中每个候选卸载位置的回报值,通过回报值反映将计算任务的子任务卸载到该候选卸载位置对应的延迟和能耗。根据回报值,生成计算任务中每个子任务的目标卸载策略。解决了无法确定能够处理各类计算任务的卸载策略,无法确定最优卸载位置并进行算力资源协同分配问题。
在一些可选的实施方式中,在将系统状态输入目标神经网络之前,方法还包括:
获取训练样本;
根据训练样本和评估神经网络,得到训练回报值;
根据训练样本和参考神经网络,得到参考回报值,其中,参考神经网络和评估神经网络结构相同;
根据训练回报值、参考回报值以及误差函数,得到损失值;
根据损失值调整评估神经网络的第一参数,每隔预设步长,将参考神经网络的第二参数修改为对应的评估神经网络的第一参数,并从获取训练样本开始执行后续步骤,如果调整第一参数的次数达到第一预设阈值或损失值小于第二预设阈值的次数达到第三预设阈值,则停止训练,将参考神经网络作为目标神经网络。
具体地,本发明通过引入与评估神经网络结构相同但参数不同的参考神经网络,来提高训练稳定性和算法收敛性。评估神经网络的第一参数记作:θ,参考神经网络的第二参数记作:θ′。
以评估神经网络和参考神经网络均为DQN神经网络为例进行说明:
获取训练样本,例如:(st,at,st+1,rt),其中,st为t时刻智算融合网络系统的系统状态;at为t时刻智算融合网络系统的动作,表示在t时刻将子任务卸载至某个候选卸载位置;st+1为t+1时刻智算融合网络系统的系统状态,rt为执行动作at的奖励值。
将训练样本的st和at输入评估神经网络,评估神经网络针对当前状态下智能体采取动作所得到的价值函数进行评价估计,得到训练回报值Q(st,at;θ),评估神经网络的智能体即智算融合网络系统。
根据训练样本和参考神经网络,得到参考回报值,其中,参考神经网络和评估神经网络结构相同;
将训练样本中的st+1和rt输入参考神经网络,得到参考回报值Q(st,at;θ′),例如公式(1):
其中,γ表折扣因子,表明了未来回报相较于当前奖励的重要程度,0≤γ≤1;at+1为t+1时刻智算融合网络系统的动作。
根据训练回报值Q(st,at;θ)、参考回报值Q(st,at;θ′)以及误差函数,误差函数例如公式(2),计算得到损失值Loss(θ):
Loss(θ)=E[(Q(st+1,at+1;θ′)-Q(st,at;θ))2] (2)
其中,E表示数学期望。
根据损失值Loss(θ),通过最小化损失函数来对当前评估神经网络的第一参数θ进行更新。
每隔预设步长,将评估神经网络的第一参数θ复制给参考神经网络,将参考神经网络的第二参数θ′修改为对应的评估神经网络的第一参数θ,实现对参考神经网络的参数更新,预设步长例如:5、10等。
并从上述“获取训练样本”开始执行后续步骤,获取一个不同的训练样本,继续对评估神经网络和参考神经网络进行训练,直到调整第一参数的次数达到第一预设阈值或损失值小于第二预设阈值的次数达到第三预设阈值,则停止训练,将参考神经网络作为目标神经网络,用于后续生成计算任务的目标卸载策略,其中,调整第一参数的次数达到第一预设阈值表示训练迭代的次数达到设定上限值,第一预设阈值例如:100、1000等;损失值小于第二预设阈值的次数达到第三预设阈值表示评估神经网络和参考神经网络收敛、宜居性达到阈值,第二预设阈值根据实际需求设定,第三预设阈值例如:3、5等。
在本实施方式中,引入与评估神经网络结构相同但参数不同的参考神经网络,根据训练样本,对评估神经网络和参考神经网络进行训练,得到目标神经网络,提高了训练稳定性和算法收敛性。本发明将目标神经网络用于生成目标卸载策略,考虑了终端和服务的多维属性值,对可靠性、时延和能耗共同优化,实现智算融合网络中泛在闲置算力的高效利用和按需分配。
在一些可选的实施方式中,在获取训练样本之前,方法还包括:
获取历史计算任务和历史计算任务对应的历史系统状态;
将历史系统状态输入预先训练的神经网络,得到所有候选动作的状态动作值;
根据预设策略、候选动作以及状态动作值,得到目标动作;
执行目标动作,得到历史系统状态的下一系统状态和目标动作的奖励值;
将历史系统状态、目标动作、下一系统状态以及奖励值作为一个训练样本,并保存训练样本。
具体地,本发明利用目标神经网络实现对智算融合网络系统的系统状态感知,实现了高维度输入数据的存储和数据的高效搜索。为了得到用于训练评估神经网络和参考神经网络的训练样本,本发明提出一个预先训练的神经网络,例如:预先训练的DNN神经网络(Deep Nueral Network,深度神经网络)推理模型,该预先训练的神经网络采用一种包含两层半连接隐藏层的神经网络,该预先训练的神经网络的智能体为智算融合网络系统。
获取历史计算任务和历史计算任务对应的。将历史系统状态输入预先训练的神经网络,预先训练的DNN推理模型的智能体在历史系统状态下,基于预设策略随机选取动作,与系统环境进行交互,系统环境包括:设备状态信道状态/>和算力节点状态/>预设策略例如:贪心策略。基于贪心策略随机选取动作的步骤为:以智算融合网络系统的历史系统状态为预先训练的神经网络的输入,预先训练的神经网络会输出该状态下所有候选动作的状态动作值,候选动作为智能体可能执行的动作,即将子任务卸载到某个候选卸载位置。预先训练的神经网络每次只能选取一个动作,为防止陷入局部最优解,动作选择策略依据贪心ε-greedy策略,即在当前状态下,智能体有1-ε的概率将最优动作作为目标动作,最优动作为/>即使状态动作值最大的动作,而有ε的概率随机选取一个任意动作作为目标动作。相应的动作选择公式例如公式(3):
在动作选择结束后,预先训练的神经网络的智能体将会在环境中执行目标动作,随后环境会返回历史系统状态的下一系统状态st+1和奖励值rt。将包括历史系统状态st、当前动作at、下一状态st+1和奖励值rt作为一个训练样本(st,at,st+1,rt),并将训练样本保存至记忆回放库。
另外,本发明采用了经验回放机制:依据经验回放机制实现数据的高效利用,由贪心策略随机生成的样本放入记忆回放库中存储,在迭代训练的过程中,记忆回放库中存储了智能体各个状态下,采取不同动作与环境进行交互的经验值。通过从回放记忆库对这些经验值中随机采样,将不同时间的经验值混合,降低了数据之间的相关性。同时,将采样样本用于模型训练和参数更新,提高了数据的利用率和训练效率。在对评估神经网络和参考神经网络进行训练时,从记忆回放库中抽取训练样本。
在本实施方式中,根据历史系统状态、预设策略以及预先训练的神经网络,得到目标动作、下一系统状态以及奖励值,将历史系统状态、目标动作、下一系统状态以及奖励值作为一个训练样本并保存。将训练样本用于模型训练和参数更新,提高了数据的利用率和训练效率。
在一些可选的实施方式中,在将历史系统状态输入预先训练的神经网络之前,方法还包括:
获取完成子任务所消耗的总成本;
根据总成本,生成多目标优化问题,并获取多目标优化问题的约束条件;
根据多目标优化问题和约束条件,构建统计模型的状态空间、动作空间以及奖励函数,其中,奖励函数是根据总成本得到的;
根据状态空间、动作空间以及奖励函数,生成预先训练的神经网络、评估神经网络以及参考神经网络。
具体地,获取完成子任务所消耗的总成本,例如:子任务Ai的总成本Costi如公式(4)所示:
Costi=(1-ζi(l))Costi,local+ζi(l)Costi,off (4)
其中,ζi(l)为卸载变量,ζi(l)=0表示将子任务Ai卸载到算力服务请求方的本地智能终端,ζi(l)=1表示将子任务Ai卸载到某一个算力节点,Costi,local为算力服务请求方的本地智能终端完成子任务Ai所消耗的成本,Costi,off为算力节点完成子任务Ai所消耗的成本。
根据总成本,可以将能耗和时间消耗表述为一个多目标优化问题,使边缘网络能够可靠、有效的资源利用。生成的多目标优化问题和多目标优化问题的约束条件如公式(5)所示,优化目的是最小化用户处理计算任务的时延和能耗的加权成本。
其中,约束条件C1是对任务卸载位置进行约束,即每个子任务只能在本地智能终端或卸载到算力节点处理。约束条件C2是对系统总时延进行约束,即不论子任务采用哪种计算方式,全部子任务的总时延要小于等于设定的最大允许时延τMax,Ti,local为本地智能终端处理子任务的时延,Ti,off为算力节点处理子任务的时延,n为子任务的总数。
根据上述多目标优化问题和约束条件,构建统计模型,例如:马尔可夫决策过程模型。设计集中式多维资源适配方法,制定高效的集中式子任务计算卸载策略。将所设计的模型和制定的优化目标转化为马尔可夫决策过程模型,设定马尔可夫决策过程模型所需的状态空间、动作空间和奖励函数。
状态空间:将计算任务卸载到附近的算力节点或本地智能终端,算力网络控制器需要同时考虑本地智能终端状况、算力节点状况和通信链路信噪比等情况。因此,当前时刻t智算融合网络系统的系统状态由三部分组成,分别是本地智能终端状态信道状况和算力节点的状态/>状态空间具体表示为:
本地智能终端状态包括设备当前的网络质量、剩余电量比、当前CPU负载率以及计算任务的相关信息,可以表示为:
其中,nt表示当前时刻t下本地智能终端的网络连接质量。qt表示当前t时刻下本地智能终端当前电量剩余比率。δt表示当前t时刻下本地智能终端的CPU负载率。Ai表示需要进行卸载决策计算任务的相关信息。
假定系统中基站与节点是一一对应的,那么在当前t时刻下,用户可用的基站数和算力节点数均为k∈{1,2,3....K},第j个基站为用户提供的上行通信链路的信道状况记作σj,第j个算力节点的计算能力记作Cj,那么信道状况如公式(8)所示,算力节点的状态/>如公式(9)所示:
综上,整个系统的状态空间S定义为:
S=(s1,s2...st..sT) (10)
其中,T为时间段,当前时刻t属于时间段T。
行为空间为卸载决策构成的总集合表示行为空间,表示为:
at(l)=[ai,0(l),ai,1(l)...ai,j(l)...ai,k(l)] (11)
其中,ai,j(l)={0,1},当ai,0(l)=1时,表示子任务Ai在本地智能终端执行,当ai,j(l)=1(1≤j≤k)时,表示子任务Ai卸载到算力节点Vj处理。
因此,行为空间B可以表示为:
B=[a1(l),a2(l)...aT(l)] (12)
奖励函数:通过奖励函数计算出的奖励值的大小直观反映系统在当前状态采取某种行为的优劣。多目标优化问题设定的优化目标是通过降低时延和能耗来达到总成本Costi最小化,考虑到强化学习以长期累计奖励值最大化作为解决问题的首要目标。因此,将奖励函数设置为总成本Costi的倒数,如公式(13)所示:
其中,Cost(st,at)表示智算融合网络系统的系统状态为st,执行动作at的总成本。
将计算卸载问题中最小化时延和能耗的综合开销问题,转换成求解深度强化学习中能实现最大化长期累计奖励期望值的最优决策问题。所以整个过程中的长期奖励值可以表示为:
其中,0≤γ≤1,表折扣因子,表明了未来回报相较于当前奖励的重要程度。
根据上述状态空间、动作空间以及奖励函数,生成预先训练的神经网络、评估神经网络以及参考神经网络,其中,预先训练的神经网络可采用DNN神经网络(Deep NueralNetwork,深度神经网络),并利用智算融合网络系统的运行数据对其进行训练。评估神经网络和参考神经网络结构相同,为避免网络结构臃肿,数据训练速度减慢,陷入局部最优解。设计一种半连接的神经网络结构,即上层节点与下层节点之间并不是完全连接,如图3所示,该神经网络具有一个输入层,两个半连接的隐藏层和一个输出层。在当前时刻t下,系统状态st的维度决定该神经网络输入层神经元的个数。中间是两层半连接隐藏层,假设两个隐藏层的节点数均为P,规定前一层的第i个节点和下一层的第i个、第i+1个节点相连。特别地,前一层的第P个节点和下一层的第P个节点、第1个节点相连。当前系统状态st所对应行为空间的所有动作的数目,决定了神经网络输出层的数目。当前系统状态st所有可能的状态—动作值函数,决定了神经网络输出层的输出值,输出值Q(st,at,0)表示智算融合网络系统在系统状态st下,执行动作at,0的回报值,Q(st,at,1)表示智算融合网络系统在系统状态st下,执行动作at,1的回报值,Q(st,at,k)表示智算融合网络系统在系统状态st下,执行动作at,k的回报值。
在本实施方式中,根据完成子任务所消耗的总成本,生成多目标优化问题和约束条件;构建统计模型的状态空间、动作空间以及奖励函数,生成预先训练的神经网络、评估神经网络以及参考神经网络。将计算任务卸载过程中最小化时延和能耗的综合开销问题,转换成实现最大化长期累计奖励期望值的最优决策问题。通过设定合适的奖励函数,匹配最优卸载位置,有效地平衡资源的供需关系,实现可靠、高效的资源提供。
在一些可选的实施方式中,获取完成子任务所消耗的总成本,包括:
获取本地设备的第一计算能力和计算功率,其中,本地设备包含于智算融合网络系统;
根据子任务、第一计算能力以及计算功率,得到子任务在本地设备执行所需要的第一成本;
获取算力节点对应的传输速率、第二计算能力、本地设备的等待功率以及发射功率,其中,算力节点包含于智算融合网络系统;
根据子任务、传输速率、第二计算能力、等待功率以及发射功率,得到子任务在算力节点执行所需要的第二成本;
根据第一成本、第二成本以及第一预设公式,得到总成本。
具体地,本发明引入一种需求匹配的计算模型,包括本地执行模型和远程计算模型。在系统中,每个算力服务请求方都有需要处理的计算任务,其中包含若干个子任务。每个子任务都可以选择在算力服务请求方的本地智能终端本地执行,也可以卸载到算力节点处执行,通过本地执行模型能够确定子任务在本地设备(即本地智能终端)执行所需要的第一成本,通过远程计算模型能够确定子任务在算力节点执行所需要的第二成本。
获取本地设备的第一计算能力Clocal和计算功率通过本地执行模型,根据子任务、第一计算能力Clocal以及计算功率/>得到子任务在本地设备执行所需要的第一成本Costi,local。
获取算力节点对应的传输速率第二计算能力C、本地设备的等待功率/>以及发射功率/>其中,传输速率/>Bij表示算力服务请求方到算力节点Vj之间的链路带宽,单位为Hz;/>表示用户终端设备的发射功率,单位为W;hij表示上行链路的信道增益;N0表示信道中的噪声功率。
通过远程计算模型,根据子任务、传输速率第二计算能力C、等待功率/>以及发射功率/>得到子任务在算力节点执行所需要的第二成本Costi,off。
根据第一成本Costi,local、第二成本Costi,off以及第一预设公式,第一预设公式例如公式(4),计算得到总成本Costi。
Costi=(1-ζi(l))Costi,local+ζi(l)Costi,off (4)
在本实施方式中,计算子任务在本地设备执行所需要的第一成本、子任务在算力节点执行所需要的第二成本,综合第一成本和第二成本得到处理子任务的总成本。便于后续生成多目标优化问题和约束条件。
在一些可选的实施方式中,根据子任务、第一计算能力以及计算功率,得到子任务在本地设备执行所需要的第一成本,包括:
根据子任务,得到子任务的计算资源需求;
根据第一计算能力、计算资源需求以及第二预设公式,得到本地设备处理子任务的第一消耗时间;
根据计算功率、第一消耗时间以及第三预设公式,得到本地设备处理子任务的第一能耗;
根据第一消耗时间、第一能耗、预设权重系数以及第四预设公式,得到第一成本。
具体地,当卸载变量ζi(l)=0时,子任务Ai直接在本地设备(即本地智能终端)处理。此时时延和能耗均为在本地设备执行所产生。
根据子任务,得到子任务的计算资源需求,例如:子任务Ai={wi,ci,si},其中,子任务Ai的计算资源需求为ci。
假定本地设备没有缓存区来存放计算结果,则每个子任务会被立刻执行,第一消耗时间只考虑计算时延,即本地CPU处理计算任务Ai所消耗的时间,第一消耗时间记作Ti,local。根据第一计算能力Clocal、计算资源需求ci以及第二预设公式,例如公式(14),计算得到本地设备处理子任务的第一消耗时间Ti,local:
其中,Clocal为本地设备U的计算能力即第一计算能力,例如:CPU的时钟周期数(单位Hz)。
第一成本除了需要考虑执行子任务的时延,还需要考虑本地设备的能耗。根据计算功率第一消耗时间Ti,local以及第三预设公式,例如公式(15),计算得到本地设备处理子任务的第一能耗Ei,local:
其中,表示本地设备的计算功率。
另外,计算功率其中,α、β均为与具体CPU型号有关的常数,通常α=10-11,β=2。因此,第一能耗还可以表示为:Ei,local=α×(Clocal)β-1×ci。
根据第一消耗时间Ti,local、第一能耗Ei,local、预设权重系数λT、λE以及第四预设公式,例如公式(16),计算得到第一成本Costi,local:
其中,λT表示执行时延的权重系数,0≤λT≤1;λE表示能量消耗的权重系数,0≤λE≤1;用户可以根据自身需求选择不同的权重系数。
在一些可选的实施方式中,根据子任务、传输速率、第二计算能力、等待功率以及发射功率,得到子任务在算力节点执行所需要的第二成本,包括:
根据子任务,得到子任务的输入数据长度和计算资源需求;
根据计算资源需求、第二计算能力以及第五预设公式,得到算力节点处理子任务的第二消耗时间;
根据传输速率、输入数据长度以及第六预设公式,得到传输时延;
根据第二消耗时间和传输时延,得到算力节点的总时延;
根据发射功率、输入数据长度、传输速率以及第七预设公式,得到传输能耗;
根据等待功率和第二消耗时间,得到等待能耗;
根据传输能耗和等待能耗,得到算力节点的总能耗;
根据总时延、总能耗、预设权重系数以及第八预设公式,得到第二成本。
具体地,对于子任务Ai,当卸载变量ζi(l)=1时,表示计算任务被传输到算力节点执行。假设在一段时间内,系统中共有k个算力节点处理子任务,即V={V1,V2...Vk},每个节点的计算能力可以表示为C={C1,C2...Ck}。
根据子任务,得到子任务的输入数据长度和计算资源需求,例如:子任务Ai={wi,ci,si},其中,子任务Ai的计算资源需求为ci,输入数据长度为wi。
根据计算资源需求ci、第二计算能力C以及第五预设公式,例如公式(17),计算得到算力节点处理子任务的第二消耗时间 表示算力节点Vj对子任务Ai进行计算的处理时延。
根据传输速率输入数据长度wi以及第六预设公式,例如公式(18),得到传输时延/> 表示子任务Ai通过无线链路上传到节点Vj的传输时延。
忽略将计算结果回传给算力服务请求方这一过程所产生的开销,当计算任务被卸载到算力节点处执行,总时延包括上行链路的传输时延和节点处理时延,用Toff来表示计算任务被卸载到算力节点处的总时延。根据第二消耗时间和传输时延/>得到算力节点的总时延:
根据发射功率输入数据长度wi、传输速率/>以及第七预设公式,例如公式(19),计算得到传输能耗/> 表示计算服务Ai传输到算力节点Vj过程中,通过上行通信链路所产生的传输能量消耗。
在算力节点执行计算任务的过程中,本地设备处于等待结果回传的状态,将此时本地设备的功率记作等待功率根据等待功率/>和第二消耗时间/>得到等待能耗/> 表示Vj节点执行计算请求Ai时,本地设备等待结果回传时产生的能耗。
同理,当计算任务被卸载到算力节点处执行时,忽略结果回传过程的能耗,总能耗只考虑用户通过上行链路到节点的传输能耗和节点处理数据时本地设备等待结果回传时产生的能耗,将总能耗用Eoff来表示。根据传输能耗和等待能耗/>得到算力节点Vj的总能耗/>
根据算力节点Vj的总时延算力节点Vj的总能耗/>预设权重系数λT、λE以及第八预设公式,例如公式(20),计算得到第二成本Costi,off。
其中,λT表示执行时延的权重系数,0≤λT≤1;λE表示能量消耗的权重系数,0≤λE≤1;用户可以根据自身需求选择不同的权重系数。
在本实施例中提供了一种算网一体的集中式多维资源智能适配方法,与上述步骤S101-步骤S104解决了相同的技术问题,具有相同的技术效果,如图4所示,该流程包括如下步骤:
步骤S1:建立智算融合网络的系统模型。
步骤S2:将计算卸载过程抽象为通信模型、计算模型。
步骤S3:提出关于时延和能耗的多目标优化问题。
步骤S4:构建马尔科夫决策过程模型。
步骤S5:设计集中式多维资源智能适配机制。
步骤S6:应用深度强化学习算法优化时延和能量消耗。
通过上述步骤S1至步骤S6,设计了一个可靠、低成本辅助计算的最优计算卸载机制,用于解决下一代物联网爆发式数据增长导致的约束边缘资源消耗和不可靠性的问题。
在本实施例中还提供了一种确定计算任务卸载策略的装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
本实施例提供一种确定计算任务卸载策略的装置,如图5所示,包括:
第一获取模块501,用于获取计算任务,其中,计算任务包含预设数量个子任务;
第二获取模块502,用于根据计算任务,获取智算融合网络系统的系统状态,其中,智算融合网络系统用于处理计算任务;
第一得到模块503,用于将系统状态输入目标神经网络,得到每个子任务的候选卸载位置的回报值,其中,候选卸载位置包含于智算融合网络系统;
第一生成模块504,用于根据回报值,生成计算任务中每个子任务的目标卸载策略,其中,目标卸载策略用于确定子任务的目标卸载位置。
在一些可选的实施方式中,该装置还包括:
第三获取模块,用于获取训练样本;
第一得到模块,用于根据训练样本和评估神经网络,得到训练回报值;
第二得到模块,用于根据训练样本和参考神经网络,得到参考回报值,其中,参考神经网络和评估神经网络结构相同;
第三得到模块,用于根据训练回报值、参考回报值以及误差函数,得到损失值;
循环模块,用于根据损失值调整评估神经网络的第一参数,每隔预设步长,将参考神经网络的第二参数修改为对应的评估神经网络的第一参数,并从获取训练样本开始执行后续步骤,如果调整第一参数的次数达到第一预设阈值或损失值小于第二预设阈值的次数达到第三预设阈值,则停止训练,将参考神经网络作为目标神经网络。
在一些可选的实施方式中,该装置还包括:
第四获取模块,用于获取历史计算任务和历史计算任务对应的历史系统状态;
第四得到模块,用于将历史系统状态输入预先训练的神经网络,得到所有候选动作的状态动作值;
第五得到模块,用于根据预设策略、候选动作以及状态动作值,得到目标动作;
第六得到模块,用于执行目标动作,得到历史系统状态的下一系统状态和目标动作的奖励值;
保存模块,用于将历史系统状态、目标动作、下一系统状态以及奖励值作为一个训练样本,并保存训练样本。
在一些可选的实施方式中,该装置还包括:
第五获取模块,用于获取完成子任务所消耗的总成本;
第二生成模块,用于根据总成本,生成多目标优化问题,并获取多目标优化问题的约束条件;
构建模块,用于根据多目标优化问题和约束条件,构建统计模型的状态空间、动作空间以及奖励函数,其中,奖励函数是根据总成本得到的;
第三生成模块,用于根据状态空间、动作空间以及奖励函数,生成预先训练的神经网络、评估神经网络以及参考神经网络。
在一些可选的实施方式中,第五获取模块包括:
第一获取单元,用于获取本地设备的第一计算能力和计算功率,其中,本地设备包含于智算融合网络系统;
第一得到单元,用于根据子任务、第一计算能力以及计算功率,得到子任务在本地设备执行所需要的第一成本;
第二获取单元,用于获取算力节点对应的传输速率、第二计算能力、本地设备的等待功率以及发射功率,其中,算力节点包含于智算融合网络系统;
第二得到单元,用于根据子任务、传输速率、第二计算能力、等待功率以及发射功率,得到子任务在算力节点执行所需要的第二成本;
第三得到单元,用于根据第一成本、第二成本以及第一预设公式,得到总成本。
在一些可选的实施方式中,第一得到单元包括:
第一得到子模块,用于根据子任务,得到子任务的计算资源需求;
第二得到子模块,用于根据第一计算能力、计算资源需求以及第二预设公式,得到本地设备处理子任务的第一消耗时间;
第三得到子模块,用于根据计算功率、第一消耗时间以及第三预设公式,得到本地设备处理子任务的第一能耗;
第四得到子模块,用于根据第一消耗时间、第一能耗、预设权重系数以及第四预设公式,得到第一成本。
在一些可选的实施方式中,第二得到单元包括:
第五得到子模块,用于根据子任务,得到子任务的输入数据长度和计算资源需求;
第六得到子模块,用于根据计算资源需求、第二计算能力以及第五预设公式,得到算力节点处理子任务的第二消耗时间;
第七得到子模块,用于根据传输速率、输入数据长度以及第六预设公式,得到传输时延;
第八得到子模块,用于根据第二消耗时间和传输时延,得到算力节点的总时延;
第九得到子模块,用于根据发射功率、输入数据长度、传输速率以及第七预设公式,得到传输能耗;
第十得到子模块,用于根据等待功率和第二消耗时间,得到等待能耗;
第十一得到子模块,用于根据传输能耗和等待能耗,得到算力节点的总能耗;
第十二得到子模块,用于根据总时延、总能耗、预设权重系数以及第八预设公式,得到第二成本。
上述各个模块和单元的更进一步的功能描述与上述对应实施例相同,在此不再赘述。
本实施例中的确定计算任务卸载策略的装置是以功能单元的形式来呈现,这里的单元是指ASIC(Application Specific Integrated Circuit,专用集成电路)电路,执行一个或多个软件或固定程序的处理器和存储器,和/或其他可以提供上述功能的器件。
本发明实施例还提供一种计算机设备,具有上述图5所示的确定计算任务卸载策略的装置。
请参阅图6,图6是本发明可选实施例提供的一种计算机设备的结构示意图,如图6所示,该计算机设备包括:一个或多个处理器10、存储器20,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相通信连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在计算机设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在一些可选的实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个计算机设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器10为例。
处理器10可以是中央处理器,网络处理器或其组合。其中,处理器10还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路,可编程逻辑器件或其组合。上述可编程逻辑器件可以是复杂可编程逻辑器件,现场可编程逻辑门阵列,通用阵列逻辑或其任意组合。
其中,存储器20存储有可由至少一个处理器10执行的指令,以使至少一个处理器10执行实现上述实施例示出的方法。
存储器20可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器20可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些可选的实施方式中,存储器20可选包括相对于处理器10远程设置的存储器,这些远程存储器可以通过网络连接至该计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
存储器20可以包括易失性存储器,例如,随机存取存储器;存储器也可以包括非易失性存储器,例如,快闪存储器,硬盘或固态硬盘;存储器20还可以包括上述种类的存储器的组合。
该计算机设备还包括通信接口30,用于该计算机设备与其他设备或通信网络通信。
本发明实施例还提供了一种计算机可读存储介质,上述根据本发明实施例的方法可在硬件、固件中实现,或者被实现为可记录在存储介质,或者被实现通过网络下载的原始存储在远程存储介质或非暂时机器可读存储介质中并将被存储在本地存储介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件的存储介质上的这样的软件处理。其中,存储介质可为磁碟、光盘、只读存储记忆体、随机存储记忆体、快闪存储器、硬盘或固态硬盘等;进一步地,存储介质还可以包括上述种类的存储器的组合。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件,当软件或计算机代码被计算机、处理器或硬件访问且执行时,实现上述实施例示出的方法。
虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。
Claims (10)
1.一种确定计算任务卸载策略的方法,其特征在于,所述方法包括:
获取计算任务,其中,所述计算任务包含预设数量个子任务;
根据所述计算任务,获取智算融合网络系统的系统状态,其中,所述智算融合网络系统用于处理所述计算任务;
将所述系统状态输入目标神经网络,得到每个所述子任务的候选卸载位置的回报值,其中,所述候选卸载位置包含于所述智算融合网络系统;
根据所述回报值,生成所述计算任务中每个子任务的目标卸载策略,其中,所述目标卸载策略用于确定所述子任务的目标卸载位置。
2.根据权利要求1所述的方法,其特征在于,在所述将所述系统状态输入目标神经网络之前,所述方法还包括:
获取训练样本;
根据所述训练样本和评估神经网络,得到训练回报值;
根据所述训练样本和参考神经网络,得到参考回报值,其中,所述参考神经网络和所述评估神经网络结构相同;
根据所述训练回报值、所述参考回报值以及误差函数,得到损失值;
根据所述损失值调整所述评估神经网络的第一参数,每隔预设步长,将所述参考神经网络的第二参数修改为对应的所述评估神经网络的第一参数,并从所述获取训练样本开始执行后续步骤,如果调整所述第一参数的次数达到第一预设阈值或所述损失值小于第二预设阈值的次数达到第三预设阈值,则停止训练,将所述参考神经网络作为所述目标神经网络。
3.根据权利要求2所述的方法,其特征在于,在所述获取训练样本之前,所述方法还包括:
获取历史计算任务和所述历史计算任务对应的历史系统状态;
将所述历史系统状态输入预先训练的神经网络,得到所有候选动作的状态动作值;
根据预设策略、所述候选动作以及所述状态动作值,得到目标动作;
执行所述目标动作,得到所述历史系统状态的下一系统状态和所述目标动作的奖励值;
将所述历史系统状态、所述目标动作、所述下一系统状态以及所述奖励值作为一个所述训练样本,并保存所述训练样本。
4.根据权利要求3所述的方法,其特征在于,在所述将所述历史系统状态输入预先训练的神经网络之前,所述方法还包括:
获取完成所述子任务所消耗的总成本;
根据所述总成本,生成多目标优化问题,并获取所述多目标优化问题的约束条件;
根据所述多目标优化问题和所述约束条件,构建统计模型的状态空间、动作空间以及奖励函数,其中,所述奖励函数是根据所述总成本得到的;
根据所述状态空间、所述动作空间以及所述奖励函数,生成所述预先训练的神经网络、所述评估神经网络以及所述参考神经网络。
5.根据权利要求4所述的方法,其特征在于,所述获取完成所述子任务所消耗的总成本,包括:
获取本地设备的第一计算能力和计算功率,其中,所述本地设备包含于所述智算融合网络系统;
根据所述子任务、所述第一计算能力以及所述计算功率,得到所述子任务在所述本地设备执行所需要的第一成本;
获取算力节点对应的传输速率、第二计算能力、所述本地设备的等待功率以及发射功率,其中,所述算力节点包含于所述智算融合网络系统;
根据所述子任务、所述传输速率、所述第二计算能力、所述等待功率以及所述发射功率,得到所述子任务在所述算力节点执行所需要的第二成本;
根据所述第一成本、所述第二成本以及第一预设公式,得到所述总成本。
6.根据权利要求5所述的方法,其特征在于,所述根据所述子任务、所述第一计算能力以及所述计算功率,得到所述子任务在所述本地设备执行所需要的第一成本,包括:
根据所述子任务,得到所述子任务的计算资源需求;
根据所述第一计算能力、所述计算资源需求以及第二预设公式,得到所述本地设备处理所述子任务的第一消耗时间;
根据所述计算功率、所述第一消耗时间以及第三预设公式,得到所述本地设备处理所述子任务的第一能耗;
根据所述第一消耗时间、所述第一能耗、预设权重系数以及第四预设公式,得到所述第一成本。
7.根据权利要求5所述的方法,其特征在于,所述根据所述子任务、所述传输速率、所述第二计算能力、所述等待功率以及所述发射功率,得到所述子任务在所述算力节点执行所需要的第二成本,包括:
根据所述子任务,得到所述子任务的输入数据长度和计算资源需求;
根据所述计算资源需求、所述第二计算能力以及第五预设公式,得到所述算力节点处理所述子任务的第二消耗时间;
根据所述传输速率、所述输入数据长度以及第六预设公式,得到传输时延;
根据所述第二消耗时间和所述传输时延,得到所述算力节点的总时延;
根据所述发射功率、所述输入数据长度、所述传输速率以及第七预设公式,得到传输能耗;
根据所述等待功率和所述第二消耗时间,得到等待能耗;
根据所述传输能耗和所述等待能耗,得到所述算力节点的总能耗;
根据所述总时延、所述总能耗、预设权重系数以及第八预设公式,得到所述第二成本。
8.一种确定计算任务卸载策略的装置,其特征在于,所述装置包括:
第一获取模块,用于获取计算任务,其中,所述计算任务包含预设数量个子任务;
第二获取模块,用于根据所述计算任务,获取智算融合网络系统的系统状态,其中,所述智算融合网络系统用于处理所述计算任务;
第一得到模块,用于将所述系统状态输入目标神经网络,得到每个所述子任务的候选卸载位置的回报值,其中,所述候选卸载位置包含于所述智算融合网络系统;
第一生成模块,用于根据所述回报值,生成所述计算任务中每个子任务的目标卸载策略,其中,所述目标卸载策略用于确定所述子任务的目标卸载位置。
9.一种计算机设备,其特征在于,包括:
存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行权利要求1至7中任一项所述的确定计算任务卸载策略的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机指令,所述计算机指令用于使计算机执行权利要求1至7中任一项所述的确定计算任务卸载策略的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311386125.8A CN117608821A (zh) | 2023-10-24 | 2023-10-24 | 确定计算任务卸载策略的方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311386125.8A CN117608821A (zh) | 2023-10-24 | 2023-10-24 | 确定计算任务卸载策略的方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117608821A true CN117608821A (zh) | 2024-02-27 |
Family
ID=89943261
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311386125.8A Pending CN117608821A (zh) | 2023-10-24 | 2023-10-24 | 确定计算任务卸载策略的方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117608821A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117806806A (zh) * | 2024-02-28 | 2024-04-02 | 湖南科技大学 | 任务部分卸载调度方法、终端设备及存储介质 |
-
2023
- 2023-10-24 CN CN202311386125.8A patent/CN117608821A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117806806A (zh) * | 2024-02-28 | 2024-04-02 | 湖南科技大学 | 任务部分卸载调度方法、终端设备及存储介质 |
CN117806806B (zh) * | 2024-02-28 | 2024-05-17 | 湖南科技大学 | 任务部分卸载调度方法、终端设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111756812B (zh) | 一种能耗感知的边云协同动态卸载调度方法 | |
CN109976909B (zh) | 边缘计算网络中基于学习的低延时任务调度方法 | |
CN117608821A (zh) | 确定计算任务卸载策略的方法、装置、设备及介质 | |
CN116708443A (zh) | 多层次算力网络任务调度方法及装置 | |
Mostafavi et al. | A stochastic approximation approach for foresighted task scheduling in cloud computing | |
CN112817741B (zh) | 一种边缘计算的dnn任务控制方法 | |
CN113781002A (zh) | 云边协同网络中基于代理模型和多种群优化的低成本工作流应用迁移方法 | |
CN113946423A (zh) | 基于图注意力网络的多任务边缘计算调度优化方法 | |
Qi et al. | Vehicular edge computing via deep reinforcement learning | |
CN115499441A (zh) | 超密集网络中基于深度强化学习的边缘计算任务卸载方法 | |
CN114706631B (zh) | 基于深度q学习的移动边缘计算中卸载决策方法及系统 | |
CN114205353A (zh) | 一种基于混合动作空间强化学习算法的计算卸载方法 | |
CN113573363A (zh) | 基于深度强化学习的mec计算卸载与资源分配方法 | |
CN112905315A (zh) | 移动边缘计算mec网络中的任务处理方法、装置及设备 | |
Zhang et al. | EdgeShard: Efficient LLM Inference via Collaborative Edge Computing | |
CN117880122A (zh) | 一种基于madfpg的任务卸载和资源分配联合优化方法 | |
Yang et al. | PerLLM: Personalized Inference Scheduling with Edge-Cloud Collaboration for Diverse LLM Services | |
Ding et al. | A multiagent meta-based task offloading strategy for mobile-edge computing | |
CN114090108A (zh) | 算力任务执行方法、装置、电子设备及存储介质 | |
CN117749796A (zh) | 一种云边算力网络系统计算卸载方法及系统 | |
Chai et al. | A dynamic queuing model based distributed task offloading algorithm using deep reinforcement learning in mobile edge computing | |
CN117369964A (zh) | 边缘计算系统的任务处理方法及相关装置 | |
CN116866353A (zh) | 通算融合的分布式资源协同调度方法、装置、设备及介质 | |
CN116431326A (zh) | 一种基于边缘计算和深度强化学习的多用户依赖性任务卸载方法 | |
CN117008995A (zh) | 一种工业软件组件服务功能链装配集成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |