CN111507601B - 基于深度强化学习与区块链共识的资源优化分配决策方法 - Google Patents
基于深度强化学习与区块链共识的资源优化分配决策方法 Download PDFInfo
- Publication number
- CN111507601B CN111507601B CN202010282682.5A CN202010282682A CN111507601B CN 111507601 B CN111507601 B CN 111507601B CN 202010282682 A CN202010282682 A CN 202010282682A CN 111507601 B CN111507601 B CN 111507601B
- Authority
- CN
- China
- Prior art keywords
- state
- action
- consensus
- controller
- energy consumption
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 78
- 230000002787 reinforcement Effects 0.000 title claims abstract description 13
- 238000005457 optimization Methods 0.000 title claims description 20
- 238000005265 energy consumption Methods 0.000 claims abstract description 46
- 238000012545 processing Methods 0.000 claims abstract description 19
- 238000004364 calculation method Methods 0.000 claims abstract description 14
- 230000008901 benefit Effects 0.000 claims abstract description 6
- 230000009471 action Effects 0.000 claims description 46
- 230000008569 process Effects 0.000 claims description 28
- 238000013528 artificial neural network Methods 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 13
- 238000012795 verification Methods 0.000 claims description 12
- 230000005540 biological transmission Effects 0.000 claims description 9
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 238000004891 communication Methods 0.000 claims description 6
- 230000000875 corresponding effect Effects 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 5
- 230000005284 excitation Effects 0.000 claims description 2
- 239000011159 matrix material Substances 0.000 claims description 2
- 230000007246 mechanism Effects 0.000 claims description 2
- 238000004806 packaging method and process Methods 0.000 claims description 2
- 239000004576 sand Substances 0.000 claims description 2
- 238000012546 transfer Methods 0.000 claims description 2
- 230000007704 transition Effects 0.000 claims description 2
- 230000006855 networking Effects 0.000 claims 1
- 238000004088 simulation Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 10
- 238000013468 resource allocation Methods 0.000 description 6
- 239000003795 chemical substances by application Substances 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 229920003087 methylethyl cellulose Polymers 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 229910003460 diamond Inorganic materials 0.000 description 1
- 239000010432 diamond Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000004513 sizing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06313—Resource planning in a project environment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5083—Techniques for rebalancing the load in a distributed system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/40—Business processes related to the transportation industry
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Development Economics (AREA)
- Tourism & Hospitality (AREA)
- Finance (AREA)
- Software Systems (AREA)
- Accounting & Taxation (AREA)
- Entrepreneurship & Innovation (AREA)
- General Engineering & Computer Science (AREA)
- Biodiversity & Conservation Biology (AREA)
- Educational Administration (AREA)
- Life Sciences & Earth Sciences (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Technology Law (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了基于深度强化学习与区块链共识的资源优化分配决策方法,通过构建计算任务模型和服务器状态模型,计算主控制器本地计算和卸载计算的能耗和经济开销,以及区块链共识过程产生的计算经济开销,从而通过训练深度神经网络和策略网络,指导调整控制器选择、卸载决策、区块尺寸和服务器选择,完成场景内的最优资源分配。本发明克服了工业互联网数据安全、设备因处理计算任务而能耗过高、工作周期短,以及系统总体经济开销过高等问题。仿真实验表明,本发明提出的基于深度强化学习与区块链共识的工业互联网资源优化分配决策方法在节省控制器能耗、系统经济开销以及延长控制器群组工作总时长方面具有一定的优势。
Description
技术领域
本发明涉及一种基于深度强化学习与区块链共识的工业互联网资源优化分配决策方法,通过深度强化学习算法,设计一种各小区工业互联网数据在区块链共识过程中,通过优化资源分配策略,有效减少系统经济开销和控制器能耗的决策优化方法,属于资源分配和系统决策的相关领域。
背景技术
当前,工业互联网(industrial Internet)的快速发展吸引了来自工业界和学术界的大量关注。工业互联网技术的应用实现了机器与机器、机器与人的高效便捷的交互。多种类型的工业互联网设备,又名机器类型通信设备,被广泛应用在了多种工业领域中,包括环境监测、制造业、视频监控以及智能网络等。
在工业互联网场景中,工业数据的安全性和真实性至关重要。然而,由于设备分布广泛以及交互数据种类多样,数据的隐私性和安全性往往很难得到保证。另一方面,工业互联网设备的能量资源和计算资源短缺明显,主要原因是大多数设备在脱离人工控制下进行工作,并且为了延长工作寿命,仅装配有限的电池设备和轻量的计算资源。因此,一些复杂繁重的计算任务很难在这些设备中独立完成。
计算任务卸载(computation offloading)作为一种新兴技术,可有效提高设备和节点的计算能力。通过将计算任务从设备卸载到计算服务器,不仅可明显地提升计算效率,还可有效减少设备的能耗。近年来,大量的研究工作聚焦于包含有中心云计算(cloudcomputing)和移动边缘计算(mobile edge computing,MEC)的混合数据计算模型。其中,相比于中心化的云计算,分布式的MEC拥有低传输时延、低计算开销以及低设备能耗等优势。更重要的是,分布式的计算卸载结构可支撑区块链中共识节点的验证计算过程。因此,将区块链和MEC整合至工业互联网场景成为了一种研究发展方向。对此,内蒙古大学的Zhang等人提出了一种结合了区块链和MEC技术的车载自组织网络安全结构。他们应用区块链保证数据的可追溯性,应用边缘计算解决区块链中的高维计算问题。此外,中山大学的Qiu等人提出了一种计算卸载方法来提升移动设备的计算能力,区块链共识等高强度计算过程可卸载至云服务器或是边缘计算服务器。
然而,在将区块链和MEC整合入工业互联网时,仍将面临一些潜在的问题和挑战。例如,如何在本地处理和计算卸载间选择,以平衡设备能耗和系统经济开销。另一个问题是考虑到服务器的计算资源和开销,哪一个服务器更适合支持计算过程。此外,由于区块链技术的引入,能耗和计算负载的问题更加严峻。因此,这些问题在设计系统时均须仔细考虑。
同时,针对工业互联网系统中状态高动态性、高维度性等特点,近年来,深度强化学习(deep reinforcement learning,DRL)逐渐成为一类热门高效的优化方法。智能体agent按照一定策略对环境施加动作。环境返回给agent即时奖励并转移至下一状态。两者交互过程持续进行直到环境达到最终状态,agent在此过程中不断调整策略以获得最大的长期奖励。DRL中加入了深度神经网络对agent的动作进行评价估计,可更好应对高维的状态、动作问题。近年来,应用DRL方法对工业互联网系统性能进行优化的研究逐渐增加。北京邮电大学的Qiu等人应用一种dueling deep Q-learning算法对基于区块链的工业互联网系统中的吞吐量进行了优化。西安电子科技大学的Feng等人应用DRL算法对基于区块链的工业互联网系统中MEC系统的计算效率和区块链系统的交易吞吐量进行了优化。尽管上述研究均对系统的吞吐量等进行了优化。然而,在工业互联网系统中,设备能耗与系统经济开销仍是极其重要的系统性能指标,设备的能量分配也是不可忽视的问题。当前,针对此类系统能耗、经济开销等问题的研究仍十分欠缺。
综上所述,本发明面向工业互联网场景中设备计算任务卸载、数据区块链共识以及服务器选择等问题,提出一种基于深度强化学习与区块链共识的工业互联网资源优化分配决策方法,通过联合考虑场景下控制器和服务器的状态,同时优化设备的能量消耗和能量分配,并有效降低系统经济开销。
发明内容
本发明的主要目的是在场景内资源优化分配最优的角度上,考虑场景内存在多小区、多控制器、多基站和多MEC服务器的情况下,以降低主控制器能耗、延长控制器群组工作时长和减少系统经济开销为优化目标,对场景进行建模,并应用DRL算法对模型进行迭代学习,获得节能且低经济开销的资源优化分配最优策略。本方法解决了在场景下存在多小区、多控制器、多基站和多MEC服务器的情况下,如何确定最优资源分配策略的问题,并通过执行最优资源分配策略有效减少主控制器能耗、系统经济开销,并延长控制器群组工作时长。
本发明所适应的多小区环境场景模型见图1。
本发明技术方案中的系统运行原理流程图见图2。
本发明控制器群组工作总时长与小区数量关系图见图3。
本发明主控制器能耗与小区数量关系图见图4。
本发明系统经济开销与小区数量关系图见图5。
本发明系统加权和开销与小区数量关系图见图6。
本发明的多小区环境场景模型如图1所示,基于深度强化学习与区块链共识的工业互联网资源优化分配决策方法,在某个通信场景下,存在u个小区和与每个小区一一对应的u个控制器,每个控制器旁部署有1个基站和1个本地MEC服务器,此外,还存在n个区块链共识节点和v个用于支持区块链共识过程的服务器。当已知小区数量后,根据实际环境情况设置计算任务模型和服务器状态模型,并确定能耗和经济开销的加权参数。而后构造DRL中的状态空间、动作空间和奖励函数,并设置训练网络中的样本空间大小、抽样数量等参数,结合场景模型进行迭代学习,训练深度神经网络参数,用以估计状态动作值。最后在策略网络指导下执行资源分配最优策略,从而有效减少工业互联网数据在区块链共识时产生的主控制器能耗和系统经济开销,并延长控制器群组工作时长。具体依次按以下步骤实现:
步骤(1),主控制器收集各小区控制器采集的工业互联网数据,将数据处理打包,具体步骤如下:
通信场景中存在u个有数据共识需求的小区,小区内的工业互联网设备在工作时间内向本地的控制器传输工业互联网数据,并且在每个时间节点t∈{0,1···T-1},T为控制器群组中有任意控制器能量耗尽的时刻,控制器群组指定一个控制器作为主控制器,用于接收其他小区控制器收集的工业互联网数据并进行处理打包,主控制器选择在本地处理数据时,产生的处理能耗Ec表示为:
Ec=zn·q
其中,q为数据处理任务的复杂程度,zn为CPU每轮处理过程消耗的能量,表示为:
zn=10-27·(Cu)2
Cu为主控制器u的CPU计算频次,因主控制器在本地处理数据,不产生计算开销,对应的,主控制器选择将数据处理任务卸载至本地MEC服务器处理时,无处理能耗,而产生的传输能耗Es表示为:
其中,d为数据处理任务的数据量,pt为主控制器传输功率,rcs为主控制器与本地MEC服务器间的传输速率,同时,主控制器卸载计算任务而产生的经济开销Ms表示为:
Ms=ξ+μ·q
其中,ξ为服务器固定收费系数,μ为服务器比例收费系数;
步骤(2),主控制器将处理后的数据打包入块并传输到区块链系统,产生的能耗表示为:
其中,rcn为主控制器与区块链节点间的传输速率,n为区块链系统中的共识节点数量,产生区块的经济开销Mb表示为:
Mb=ε·s
其中,ε为区块开销系数,s为区块大小;
步骤(3),区块链系统的共识节点对主控制器发送的交易数据进行验证和共识,具体步骤如下:
步骤(3.1),共识节点采用实用拜占庭容错(PBFT)共识机制对区块和交易进行验证共识,验证签名所需的计算轮数为θ,产生和验证消息验证码(MAC)所需的计算轮数为α,各共识节点完成一次共识过程所需的总计算轮数为:
其中,g为主节点发送验证正确交易比例,b为总交易大小,h为平均交易大小,f为最多可容纳的错误节点数量,f=(n-1)/3;
共识过程的计算经济开销表示为:
Mn=η
步骤(3.3),场景下工业互联网数据进行区块链共识产生的主控制器能耗表示为:
产生的经济开销表示为:
M=Ms+Mn+Mb
由此计算出系统加权和开销表示为:
W=ke·E+km·M
其中,ke和km分别为能耗和经济开销的加权系数;
步骤(4),根据步骤(1)-(3),结合场景和优化目标,设置DRL中的状态空间、动作空间和奖励函数,具体步骤如下:
步骤(4.1),根据场景内小区数量、支持共识过程的MEC服务器数量和云服务器数量,设置状态空间:
其中,gu为控制器能量状态,γv和ηv分别为服务器的计算资源状态和计算经济开销状态;
步骤(4.2),根据场景内小区数量、支持共识过程的MEC服务器数量和云服务器数量,设置动作空间:
a(t)=[ac(t),ap(t),ab(t),as(t)]
其中,ac∈(1,2,...,u)为选择控制器的动作,ap∈(0,1)为卸载决策动作,ab∈(1,2,...,b)为调整区块尺寸动作,as∈(1,2,...,v)为选择共识服务器的动作;
步骤(4.3),根据优化目标,设置奖励函数:
其中,σ为共识成功的奖励,k为加权开销调节系数,tl为共识时限,ρ为控制器选择激励,表示为:
ρ(t)=p·(ga(t)-g(t))
其中,p为惩罚系数,ga为控制器平均能量状态,g为所选中的主控制器能量状态;
步骤(5),根据步骤(4)中构建的状态空间、动作空间和奖励函数,设置样本空间大小、抽样数量以及网络层数,对深度神经网络进行训练,用于近似描述状态动作值(Q值):
Q(s,a)=Q(s,a,θ)
其中,θ为深度神经网络中的权值和偏置,Q值的迭代在策略网络中完成,可表示为:
Q(s,a)←Q(s,a)+α[r+γmaxQ(s’,a’)-Q(s,a)]
其中,Q(s,a)表示在状态s下做动作a时的Q值。α为学习效率,影响Q表的更新速度。r为即时奖励,γ为奖励延迟,maxQ(s’,a’)表示下一状态中选动作中的最大Q值,深度神经网络中的参数θ由损失函数进行训练,表示为:
通过减小损失函数,逐渐将深度神经网络中的参数调整到足以近似描述Q值;
步骤(6),根据步骤(5)中训练完成的深度神经网络在各状态下生成所有可选动作的Q值,将Q值最大的动作作为该状态下的最优动作,持续执行各状态的最优动作,直至执行指令结束。
本发明的优势在于,在具有多小区、多服务器的通信场景下,通过考虑各小区控制器能量状态以及各服务器的计算资源和计算经济开销状态,使工作周期内主控制器能耗和系统经济开销的加权和开销有效减少,并延长了控制器群组的工作时长。通过仿真实验考察基于深度强化学习与区块链共识的工业互联网资源优化分配决策方法对场景中系统能耗和经济开销的加权和开销、控制器群组工作时长的影响。
附图说明
图1,通信场景模型包含小区、控制器、基站、本地MEC服务器、用于支持区块链共识过程的MEC服务器和云服务器、区块链共识节点的结构示意图。
图2,基于深度强化学习与区块链共识的工业互联网资源优化分配决策方法设计流程图。
图3,控制器群组工作总时长与小区数量关系图,图中下三角表示本发明所述方法,菱形表示无主控制器选择的框架,上三角表示无卸载决策的框架,方框表示现有框架。
图4,主控制器能耗与小区数量关系图,图中下三角表示本发明所述方法,上三角表示无卸载决策的框架。
图5,系统经济开销与小区数量关系图,图中下三角表示本发明所述方法,五角星表示无服务器选择框架,圈表示无区块尺寸调整框架,方框表示现有框架。
图6,系统加权和开销与小区数量关系图,图中下三角表示本发明所述方法,五角星表示无服务器选择框架,圆圈表示无区块尺寸调整框架,上三角表示无卸载决策的框架,方框表示现有框架。
具体实施方式
下面结合附图和实例对基于深度强化学习与区块链共识的工业互联网资源优化分配决策方法的技术方案做进一步说明。
本发明所述方法流程图如图2所示,包括以下步骤:
步骤一,系统初始化,设定小区数量、区块链系统共识节点数量、用于服务区块链共识过程的服务器数量以及控制器功率、基站传输速率等;
步骤二,根据实际情况,计算主控制器处理数据的能耗Ec、卸载计算任务产生的传输能耗Es和经济开销Ms、主控制器向区块链系统传输交易的能耗En以及区块链共识过程产生的经济开销Mb+Mn;
步骤三,根据优化目标,设置DRL算法的状态空间s(t),动作空间a(t)和奖励函数r(t);
步骤四,设置深度神经网络层数、样本空间大小和抽样批次大小;
步骤五,训练深度神经网络,并在策略网络中迭代Q值;
步骤六,根据各状态下相应动作Q值选择最优动作,获得最大收益。
图3为控制器群组工作总时长与小区数量关系图。由图3可知,本发明所述方法在不同小区数量条件下,场景中控制器群组工作的总时长情况。当小区数量为6时,本发明所述方法对应的工作时长可达105,而其余方法最多工作时长仅为80。可以得出,控制器群组工作时长与小区数量有关,且随小区数量增加而降低,但基于本发明所述方法优化后的工作时长始终高于基于其他方法的情况。
图4为主控制器能耗与小区数量关系图。由图4可知,当小区数量增加时,由于产生的数据任务量增加,主控制器能耗也随之增加。当小区数量为8时,本发明所述方法对应的主控制器能耗仅为1050J,而无卸载决策的方法对应的主控制器能耗则高达2600J。从另一个角度,在相同的主控制器能耗情况下,本发明方法可增加服务小区的数量,例如主控制器能耗为1300J,在本发明所述方法下可服务10个小区,而在无卸载决策的方法下仅可服务4个小区。
图5为系统经济开销与小区数量关系图。由图5可知,在相同的小区数量下,本发明所述方法对应的系统经济开销始终低于其余方法,且当花费相同的系统经济开销时,在本发明所述方法下可服务更多小区数据的区块链共识。例如,当小区数量为12时,本发明方法可降低系统经济开销至3500,而其余方法优化后的系统经济开销均高于3800。
为了综合从主控制器能耗和系统经济开销对比本发明方法和现有方法的优化效果,图6展示了在不同小区数量下,各方法优化后的系统能耗和经济开销的加权和开销情况。由图6可知,在任意小区数量下,本发明联合考虑主控制器能耗和系统经济开销,产生的系统加权和开销均优于只考虑部分因素的方法,而只考虑部分因素的方法取得的收益均优于未考虑优化的方法。
Claims (2)
1.基于深度强化学习与区块链共识的资源优化分配决策方法,其特征在于:该方法包括如下步骤,步骤一,系统初始化,设定小区数量、区块链系统共识节点数量、用于服务区块链共识过程的服务器数量以及控制器功率、基站传输速率;
步骤二,根据实际情况,计算主控制器处理数据的能耗Ec、卸载计算任务产生的传输能耗Es和经济开销Ms、主控制器向区块链系统传输交易的能耗En以及区块链共识过程产生的经济开销Mb+Mn;
步骤三,根据优化目标,设置DRL算法的状态空间s(t),动作空间a(t)和奖励函数r(t);
步骤四,设置深度神经网络层数、样本空间大小和抽样批次大小;
步骤五,训练深度神经网络,并在策略网络中迭代状态动作Q值;
步骤六,根据各状态下相应动作的状态动作Q值选择最优动作,获得最大收益,即通过考虑各小区控制器能量状态以及各服务器的计算资源和计算经济开销状态,使工作周期内主控制器能耗和系统经济开销的加权和开销减少,延长控制器群组的工作时长;
其中,步骤一中,主控制器收集各小区控制器采集的工业互联网数据,将数据处理打包,具体步骤如下:
通信场景中存在u1个有数据共识需求的小区,小区内的工业互联网设备在工作时间内向本地的控制器传输工业互联网数据,并且在每个时间节点t∈{0,1…T-1},T为控制器群组中有任意控制器能量耗尽的时刻,控制器群组指定一个控制器作为主控制器,用于接收其他小区控制器收集的工业互联网数据并进行处理打包,主控制器选择在本地处理数据时,产生的处理能耗Ec表示为:
Ec=zn·q
其中,q为数据处理任务的复杂程度,zn为CPU每轮处理过程消耗的能量,表示为:
zn=10-27·(Cu)2
Cu为主控制器u的CPU计算频次,因主控制器在本地处理数据,不产生计算开销,对应的,主控制器选择将数据处理任务卸载至本地MEC服务器处理时,无处理能耗,而产生的传输能耗Es表示为:
其中,d为数据处理任务的数据量,pt为主控制器传输功率,rcs为主控制器与本地MEC服务器间的传输速率,同时,主控制器卸载计算任务而产生的经济开销Ms表示为:
Ms=ξ+μ·q
其中,ξ为服务器固定收费系数,μ为服务器比例收费系数;
步骤二中,主控制器将处理后的数据打包入块并传输到区块链系统,产生的能耗表示为:
其中,rcn为主控制器与区块链节点间的传输速率,n为区块链系统中的共识节点数量,产生区块的经济开销Mb表示为:
Mb=ε·s1
其中,ε为区块开销系数,s1为区块大小;
步骤三中,区块链系统的共识节点对主控制器发送的交易数据进行验证和共识,具体步骤如下:
步骤(3.1),共识节点采用实用拜占庭容错共识机制对区块和交易进行验证共识,验证签名所需的计算轮数为θ,产生和验证消息验证码所需的计算轮数为α,各共识节点完成一次共识过程所需的总计算轮数为:
其中,g为主节点发送验证正确交易比例,b为总交易大小,h为平均交易大小,f为最多可容纳的错误节点数量,f=(n-1)/3;
共识过程的计算经济开销表示为:
Mn=η
步骤(3.3),场景下工业互联网数据进行区块链共识产生的主控制器能耗表示为:
产生的经济开销表示为:
M=Ms+Mn+Mb
由此计算出系统加权和开销表示为:
W=ke·E+km·M
其中,ke和km分别为能耗和经济开销的加权系数;
步骤四中,根据步骤一至步骤三,结合场景和优化目标,设置DRL中的状态空间、动作空间和奖励函数,具体步骤如下:
步骤(4.1),根据场景内小区数量、支持共识过程的MEC服务器数量和云服务器数量,设置状态空间:
其中,gu为控制器能量状态,γv和ηv分别为服务器的计算资源状态和计算经济开销状态;
步骤(4.2),根据场景内小区数量、支持共识过程的MEC服务器数量和云服务器数量,设置动作空间:
a(t)=[ac(t),ap(t),ab(t),as(t)]
其中,ac∈(1,2,...,u)为选择控制器的动作,ap∈(0,1)为卸载决策动作,ab∈(1,2,...,b)为调整区块尺寸动作,as∈(1,2,...,v)为选择共识服务器的动作;
步骤(4.3),根据优化目标,设置奖励函数:
其中,σ为共识成功的奖励,k为加权开销调节系数,tl为共识时限,ρ为控制器选择激励,表示为:
ρ(t)=p·(ga(t)-g(t))
其中,p为惩罚系数,ga为控制器平均能量状态,g为所选中的主控制器能量状态;
步骤五中,根据步骤四中构建的状态空间、动作空间和奖励函数,设置样本空间大小、抽样批次大小以及网络层数,对深度神经网络进行训练,用于描述状态动作Q的近似值:
Q(s,a)=Q(s,a,θ)
其中,θ为深度神经网络中的权值和偏置,状态动作Q的近似值的迭代在策略网络中完成,表示为:
Q(s,a)←Q(s,a)+α[r+γmaxQ(s’,a’)-Q(s,a)]
其中,Q(s,a)表示在状态s下做动作a时的状态动作Q值;α为学习效率,影响状态动作Q表的更新速度;r为即时奖励,γ为奖励延迟,maxQ(s’,a’)表示下一状态s’中选动作a’中的最大状态动作Q值,深度神经网络中的参数θ由损失函数进行训练,表示为:
通过减小损失函数,逐渐将深度神经网络中的参数调整到能够描述状态动作Q的真实值。
2.根据权利要求1所述的基于深度强化学习与区块链共识的资源优化分配决策方法,其特征在于:
步骤六中,根据步骤五中训练完成的深度神经网络在各状态下生成所有可选动作的状态动作Q值,将状态动作Q值最大的动作作为该状态下的最优动作,持续执行各状态的最优动作,直至执行指令结束。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010282682.5A CN111507601B (zh) | 2020-04-12 | 2020-04-12 | 基于深度强化学习与区块链共识的资源优化分配决策方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010282682.5A CN111507601B (zh) | 2020-04-12 | 2020-04-12 | 基于深度强化学习与区块链共识的资源优化分配决策方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111507601A CN111507601A (zh) | 2020-08-07 |
CN111507601B true CN111507601B (zh) | 2022-06-07 |
Family
ID=71878766
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010282682.5A Active CN111507601B (zh) | 2020-04-12 | 2020-04-12 | 基于深度强化学习与区块链共识的资源优化分配决策方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111507601B (zh) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111866181B (zh) * | 2020-08-10 | 2022-05-13 | 重庆邮电大学 | 一种基于区块链的雾网络中任务卸载优化方法 |
CN112148478B (zh) * | 2020-09-02 | 2023-09-26 | 中国南方电网有限责任公司超高压输电公司 | 变电站分布式无线网中数据安全和资源分配联合优化方法 |
CN112134959B (zh) * | 2020-09-24 | 2022-10-28 | 北京工业大学 | 一种基于区块链的异构边缘资源共享方法 |
CN112261674A (zh) * | 2020-09-30 | 2021-01-22 | 北京邮电大学 | 一种基于移动边缘计算及区块链协同赋能的物联网场景的性能优化方法 |
CN112579194B (zh) * | 2020-11-27 | 2023-04-07 | 国网河南省电力公司信息通信公司 | 基于时延和事务吞吐量的区块链共识任务卸载方法及装置 |
CN113423091B (zh) * | 2021-05-24 | 2022-07-29 | 西安电子科技大学 | 一种车载算力网络的多维资源智能联合优化方法、系统 |
CN113364630A (zh) * | 2021-06-15 | 2021-09-07 | 广东技术师范大学 | 一种服务质量QoS差异化优化方法、装置 |
CN113570039B (zh) * | 2021-07-22 | 2024-02-06 | 同济大学 | 一种基于强化学习的优化共识的区块链系统 |
CN113645702B (zh) * | 2021-07-30 | 2022-06-03 | 同济大学 | 一种利用策略梯度技术优化的支持区块链的物联网系统 |
CN113743774B (zh) * | 2021-09-02 | 2024-01-16 | 苏州达家迎信息技术有限公司 | 业务资源平衡分配方法、装置、存储介质及电子设备 |
CN114036230B (zh) * | 2021-11-08 | 2024-07-26 | 北京航空航天大学 | 一种递归深度强化学习制导的工业区块链优化方法 |
CN114153640B (zh) * | 2021-11-26 | 2024-05-31 | 哈尔滨工程大学 | 一种基于深度强化学习的系统容错策略方法 |
CN114189892B (zh) * | 2021-12-15 | 2024-06-07 | 北京工业大学 | 一种基于区块链和集体强化学习的云边协同物联网系统资源分配方法 |
CN114726868B (zh) * | 2022-02-24 | 2024-03-08 | 北京工业大学 | 一种面向分布式网络的分级分片区块链架构 |
CN114943278B (zh) * | 2022-04-27 | 2023-09-12 | 浙江大学 | 基于强化学习的持续在线群体激励方法、装置及存储介质 |
CN115086189B (zh) * | 2022-05-20 | 2023-11-07 | 中国科学院软件研究所 | 一种面向无服务器计算的服务资源弹性伸缩方法和系统 |
CN115378788B (zh) * | 2022-08-22 | 2023-11-10 | 天津大学 | 基于分层共识和强化学习的区块链性能自适应优化方法 |
CN116032934B (zh) * | 2023-01-04 | 2024-06-21 | 北京工业大学 | 自组网场景下基于区块链和边缘计算的轨道交通网络资源分配方法 |
CN118413346A (zh) * | 2024-03-11 | 2024-07-30 | 无锡启盈信息科技有限公司 | 一种基于互联网的运营管理方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107864198A (zh) * | 2017-11-07 | 2018-03-30 | 济南浪潮高新科技投资发展有限公司 | 一种基于深度学习训练任务的区块链共识方法 |
CN109951897A (zh) * | 2019-03-08 | 2019-06-28 | 东华大学 | 一种能耗与延迟约束下的mec卸载方法 |
EP3543918A1 (en) * | 2018-03-20 | 2019-09-25 | Flink AI GmbH | Reinforcement learning method |
CN110351754A (zh) * | 2019-07-15 | 2019-10-18 | 北京工业大学 | 基于Q-learning的工业互联网机器设备用户数据计算卸载决策方法 |
CN110418416A (zh) * | 2019-07-26 | 2019-11-05 | 东南大学 | 移动边缘计算系统中基于多智能体强化学习的资源分配方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10375585B2 (en) * | 2017-07-06 | 2019-08-06 | Futurwei Technologies, Inc. | System and method for deep learning and wireless network optimization using deep learning |
-
2020
- 2020-04-12 CN CN202010282682.5A patent/CN111507601B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107864198A (zh) * | 2017-11-07 | 2018-03-30 | 济南浪潮高新科技投资发展有限公司 | 一种基于深度学习训练任务的区块链共识方法 |
EP3543918A1 (en) * | 2018-03-20 | 2019-09-25 | Flink AI GmbH | Reinforcement learning method |
CN109951897A (zh) * | 2019-03-08 | 2019-06-28 | 东华大学 | 一种能耗与延迟约束下的mec卸载方法 |
CN110351754A (zh) * | 2019-07-15 | 2019-10-18 | 北京工业大学 | 基于Q-learning的工业互联网机器设备用户数据计算卸载决策方法 |
CN110418416A (zh) * | 2019-07-26 | 2019-11-05 | 东南大学 | 移动边缘计算系统中基于多智能体强化学习的资源分配方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111507601A (zh) | 2020-08-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111507601B (zh) | 基于深度强化学习与区块链共识的资源优化分配决策方法 | |
CN111800828B (zh) | 一种超密集网络的移动边缘计算资源分配方法 | |
CN114189892A (zh) | 一种基于区块链和集体强化学习的云边协同物联网系统资源分配方法 | |
CN111445111B (zh) | 一种基于边缘协同的电力物联网任务分配方法 | |
CN113573324B (zh) | 工业物联网中协作式任务卸载和资源分配的联合优化方法 | |
Zhang et al. | Joint parallel offloading and load balancing for cooperative-MEC systems with delay constraints | |
CN113810233B (zh) | 一种在随机网络中基于算网协同的分布式计算卸载方法 | |
Li et al. | Downlink transmit power control in ultra-dense UAV network based on mean field game and deep reinforcement learning | |
CN111556461A (zh) | 一种基于深度q网络的车载边缘网络任务分发卸载方法 | |
CN107766135A (zh) | 移动朵云中基于粒子群和模拟退火优化的任务分配方法 | |
CN110351754A (zh) | 基于Q-learning的工业互联网机器设备用户数据计算卸载决策方法 | |
CN113543156A (zh) | 基于多智能体深度强化学习的工业无线网络资源分配方法 | |
CN113781002B (zh) | 云边协同网络中基于代理模型和多种群优化的低成本工作流应用迁移方法 | |
CN112115505A (zh) | 基于移动边缘计算和区块链技术的新能源汽车充电站计费数据传输方法 | |
CN113573363B (zh) | 基于深度强化学习的mec计算卸载与资源分配方法 | |
CN115065683B (zh) | 基于车辆聚类的车辆边缘网络任务分配卸载方法 | |
CN113961204A (zh) | 一种基于多目标强化学习的车联网计算卸载方法及系统 | |
CN116566838A (zh) | 一种区块链与边缘计算协同的车联网任务卸载和内容缓存方法 | |
CN115629873A (zh) | 车路云协同任务卸载与任务队列稳定性控制系统和方法 | |
Jin et al. | A Context-aware Task Offloading Scheme in Collaborative Vehicular Edge Computing Systems. | |
Han et al. | Multi-step reinforcement learning-based offloading for vehicle edge computing | |
CN113821346A (zh) | 基于深度强化学习的边缘计算中计算卸载与资源管理方法 | |
Hu et al. | Distributed task offloading based on multi-agent deep reinforcement learning | |
Chen et al. | DRL-based Contract Incentive for Wireless-powered and UAV-assisted Backscattering MEC System | |
CN111930435A (zh) | 一种基于pd-bpso技术的任务卸载决策方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |