CN112511619B - 无线边缘区块链场景中的资源节点间交易匹配方法 - Google Patents

无线边缘区块链场景中的资源节点间交易匹配方法 Download PDF

Info

Publication number
CN112511619B
CN112511619B CN202011348488.9A CN202011348488A CN112511619B CN 112511619 B CN112511619 B CN 112511619B CN 202011348488 A CN202011348488 A CN 202011348488A CN 112511619 B CN112511619 B CN 112511619B
Authority
CN
China
Prior art keywords
transaction
resource node
node
shared resource
resource
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011348488.9A
Other languages
English (en)
Other versions
CN112511619A (zh
Inventor
吴文君
高杨
孙德浩
司鹏搏
杨兆鑫
张延华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202011348488.9A priority Critical patent/CN112511619B/zh
Publication of CN112511619A publication Critical patent/CN112511619A/zh
Application granted granted Critical
Publication of CN112511619B publication Critical patent/CN112511619B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/64Protecting data integrity, e.g. using checksums, certificates or signatures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/104Peer-to-peer [P2P] networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/16Central resource management; Negotiation of resources or communication parameters, e.g. negotiating bandwidth or QoS [Quality of Service]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Computer Security & Cryptography (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Bioethics (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Technology Law (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明提供一种无线边缘区块链场景中的资源节点间交易匹配方法,包括:向网络中广播交易请求,接收网络中各个响应共享资源节点发送的接受竞争响应,接受竞争响应包括所述响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量;基于上述携带信息以及所述发起交易资源节点的历史行为置信度采用深度强化学习算法确定最优响应共享资源节点;交易过程中更新节点的可用计算资源量,交易完成后根据交易结果更新节点的历史行为置信度。本发明提供的方法,实现了充分考虑影响交易过程和收益的因素,使得交易匹配更合理,交易更容易成功完成。

Description

无线边缘区块链场景中的资源节点间交易匹配方法
技术领域
本发明涉及区块链技术领域,尤其涉及一种无线边缘区块链场景中的资源节点间交易匹配方法。
背景技术
首先,在目前的系统设计中,无线边缘区块链场景中的计算资源共享服务属于新兴场景及业务,面向其的节点服务性能评价方法领域尚无既有研究,但在传统计算共享场景及传统区块链系统中分别有类似的评价方案。
在传统计算共享场景中,如云计算平台,不同运营商提供的服务标准不同,配合广大用户的使用评价,可供其他用户后续使用,其中包括计算能力评价、数据安全评价、用户服务质量评价(QoS,Quality of Service)等。
在传统区块链系统中,尚未有针对于节点之间交易进行匹配过程中采用哪些因素的考量并且如何设定匹配规则作出明确规定。但从惩罚不诚实节点以保障系统整体正常运行的角度而言,目前,以太坊Casper共识中所应用的Slashers机制,是通过在共识机制中引入惩罚措施,从而制约潜在攻击者的利器,通过规定合理的惩罚条件与抵押金额,能够有效增强共识机制抵御各类网络攻击的能力。核心内容在于令参与区块生产的节点(被称为验证者)抵押一定保证金,并规定一系列惩罚条件。当节点出现惩罚条件中所列行动时,抵押保证金将被没收,并收回其验证者权利。惩罚条件通常包括同时在两条链上生产区块、没有在最新高度上生产区块等恶意行为。Slashers机制改变节点在可能出现分叉链时挖与不挖两种行为的预期收益,若节点发动攻击行为挖分叉链,其获得的预期收益将小于其抵押的保证金,则理性节点的选择将是遵守规则,做诚实节点,以此避免潜在攻击行为。
首先,在所提的新型无线边缘区块链场景中的计算资源共享业务中,对于节点交易匹配过程中采用哪些因素的考量并且如何设定匹配规则是具有较高存在意义的。
在无线移动通信领域,节点之间通过无线信道传输。参与场景的节点计算能力有差异,无线信道质量参差不齐。在业务中,节点不仅是维护区块链网络的重要部分,更是区块链交易的买卖双方。传统区块链中涉及的交易双方都是确定的,但在本场景中的交易双方是动态的,通过一定的规则来进行匹配卖家。由于节点既是区块链的维护者,又是交易的参与者,亟需引入新的匹配规则标准来服务交易过程中节点双方的匹配过程,同时对节点潜在的不诚实行为进行约束。
其次,综合现存的相关的传统匹配规则,不论从单纯的无线通信环境而言,还是单纯的区块链系统而言,均不适用于本申请中所提的新型无线边缘区块链场景中的计算资源共享业务。
一是单节点对单节点的应用场景中,节点用户多样,计算交易多样,需要统一的服务性能计算指标。在面向节点间一对一的资源共享业务中,基于广大用户的服务性能计算方式并不现实,全网中的任意具有计算资源的节点均可作为计算资源提供节点,共享资源提供者千差万别,其资源状态、供应能力均有所差异,采用以往计算方法平台的标准来面向用户节点并不恰当。
二是新型场景具有动态变化特点,需要简洁精准体现短期内某节点服务性能的物理参数计算方法。由于单节点内可而被共享的资源相比于运营商及各大平台所提供的计算资源而言,其资源状态的动态变化对实际共享效果的影响较大,故更需要实时动态变化的评估方案。在新型场景中,节点用户多为移动用户、网络接入节点等设备,其计算资源普遍具有小量、广分布、可整合的特点,在短期内其计算资源的占用程度变化较大,会直接影响到计算资源共享业务中其提供服务的质量效果。除此之外,在无线通信环境中,信道质量更具有动态缓慢变化的特性,在进行数据传输环节中会极大影响业务服务质量。因此,在新型无线边缘区块链场景中的计算资源共享业务中,简洁精准的计算某节点某时段服务性能资源数量时候更为急迫需要且更具有应用价值的。
三是新型场景下的计算资源共享业务中,节点的潜在劣质行为的诱因不同,需要综合多方因素,对节点服务质量进行客观公正的计算。在新型场景下,信道质量等客观不利因素及逃费等主观欺骗行为均会导致资源共享交易的失败,影响系统的正常良好发展,但由于其诱因不同,故不可一概而论,需要在节点匹配过程中考虑影响交易过程和收益的因素并且如何设定匹配规则中充分考虑到这些因素并做出区别对待。
因此,如何避免现有的区块链节点之间的交易匹配过程中设定匹配规则没有充分考虑区块链网络中信道资源和节点计算资源造成的交易匹配不合理和匹配上的交易也容易完成失败,仍然是本领域技术人员亟待解决的问题。
发明内容
本发明提供一种无线边缘区块链场景中的资源节点间交易匹配方法,用以解决现有的区块链节点之间的交易匹配过程中设定匹配规则没有充分考虑区块链网络中信道资源和节点计算资源造成的交易匹配不合理的缺陷,通过交易发起方和交易可能响应方之间的交互以及匹配确认响应,再基于响应方竞争交易时交易发起方综合计算资源、信道资源和收益成本选择最优响应方完成交易,实现充分考虑影响交易过程和收益的因素,使得交易匹配更合理,交易更容易成功完成。
本发明提供一种无线边缘区块链场景中的资源节点间交易匹配方法,该方法的执行主体为发起交易资源节点,该方法包括:
向所在无线边缘区块链网络中广播交易请求,所述交易请求包括发起交易资源节点的身份信息、历史行为置信度和信道质量测量参数;
接收所述无线边缘区块链网络中各个响应共享资源节点发送的接受竞争响应,所述接受竞争响应包括所述响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量;
其中,所述响应共享资源节点为所述无线边缘区块链网络中接收到所述交易请求后基于所述交易请求确定响应所述交易请求的共享资源节点;
基于所述各个响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量,以及所述发起交易资源节点的历史行为置信度采用深度强化学习算法确定最优响应共享资源节点;
其中,所述最优响应共享资源节点用于和所述发起交易资源节点进行交易,交易过程中交易系统根据交易占用计算资源更新所述最优响应共享资源节点的可用计算资源量,交易完成后所述交易系统根据交易结果更新所述发起交易资源节点和所述最优响应共享资源节点的历史行为置信度。
根据本发明提供的一种无线边缘区块链场景中的资源节点间交易匹配方法,所述基于所述各个响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量,以及所述发起交易资源节点的历史行为置信度采用深度强化学习算法确定最优响应共享资源节点,具体包括:
基于所述各个响应共享资源节点的身份信息进行身份验证,确定验证通过的响应共享资源节点为有效响应共享资源节点;
基于所述发起交易资源节点的历史行为置信度、所述各个响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量构建第一状态空间矩阵;
基于深度强化学习算法训练过程中的第一决策网络输入所述第一状态空间矩阵后每轮循环迭代训练输出的预测任一所述有效接收共享资源节点是否确定响应结果构建第一动作集合;
用于调整所述第一决策网络中的待调参数的第一反馈奖励函数包括共享匹配收益项、匹配后提供服务资费成本、占用信道资源成本和耗时成本。
根据本发明提供的一种无线边缘区块链场景中的资源节点间交易匹配方法,所述基于所述发起交易资源节点的历史行为置信度、所述各个响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量构建第一状态空间矩阵,具体包括:
第一状态空间矩阵s通过如下公式表示:
s=[sp,sr,so,su]T×U
Figure BDA0002800573760000058
Figure BDA0002800573760000051
Figure BDA0002800573760000052
Figure BDA0002800573760000053
其中,sp表示可观察到的NP个响应共享资源节点各自的信道质量参数和可用计算资源量,si表示可观察到的第i个响应共享资源节点自身的信道质量参数和可用计算资源量,当n∈[1,Lb]时,
Figure BDA0002800573760000054
表示在第m个时隙内第i个响应共享资源节点的第n个信道资源块已被占用,
Figure BDA0002800573760000055
表示在第m个时隙内第i个响应共享资源节点的第n个信道资源块未被占用,当n∈[Lb+1,Lc]时,
Figure BDA0002800573760000056
表示在第m时隙内第i个响应共享资源节点的第n-Lb个计算资源块已被占用,
Figure BDA0002800573760000057
表示在第m时隙内第i个响应共享资源节点的第n-Lb个计算资源块未被占用,Lb表示所述响应共享资源节点每一时隙内所拥有的所有信道资源块,Lc表示所述响应共享资源节点每一时隙内所拥有的所有计算资源块,sr表示当前可观察到的NP个响应共享资源节点正在进行的交易中的前Nr个交易的具体信息,
Figure BDA0002800573760000061
表示第
Figure BDA0002800573760000067
个正在进行的交易的第
Figure BDA0002800573760000068
个信息参数值,当
Figure BDA0002800573760000069
时,其指示该交易的资源提供节点的ID,当
Figure BDA00028005737600000610
时,其指示该交易的资源提供节点的历史行为置信度,当
Figure BDA00028005737600000611
时,其指示该交易成功完成后其交易发起资源节点的收益,当
Figure BDA00028005737600000612
时,其指示该交易成功完成后其交易发起资源节点向其资源提供节点支付的服务费用,so表示可观察到所述发起交易资源节点的具体任务信息的前No个交易的信息形成的列向量,所述列向量中任一元素bi为维度为NpLb+Lc+1的行向量,当n∈[1,NPLb]时,
Figure BDA0002800573760000062
表示第i个交易在其发起交易资源节点与其所有所述有效接收共享资源节点自身之间的信道状态下需要占用第n个信道资源块,
Figure BDA0002800573760000063
表示第i个交易在其发起交易资源节点与其所有响应共享资源节点中第
Figure BDA00028005737600000613
个响应共享资源节点之间的信道状态下需要占用其第
Figure BDA00028005737600000614
个信道资源块,
Figure BDA0002800573760000064
表示第i个交易在其发起交易资源节点与其所有响应共享资源节点中第
Figure BDA00028005737600000615
个响应共享资源节点之间的信道状态下不需要占用其第
Figure BDA00028005737600000616
个信道资源块,当n=NPLb+Lc+1时,
Figure BDA0002800573760000065
表示第i个交易的收益,su表示不可观察到具体交易信息的前Nu个交易,
Figure BDA0002800573760000066
表示第
Figure BDA00028005737600000617
个交易的第
Figure BDA00028005737600000618
个信息参数值,当
Figure BDA00028005737600000619
时,第
Figure BDA00028005737600000620
个信息参数为其交易的到达时间,当
Figure BDA00028005737600000621
时,第
Figure BDA00028005737600000622
个信息参数为其交易的成功完成后的收益,当
Figure BDA00028005737600000623
时,第
Figure BDA00028005737600000624
个信息参数为其交易的完成耗时;
对应地,所述用于调整所述第一决策网络中的待调参数的第一反馈奖励函数包括共享匹配收益项、匹配后提供服务资费成本、占用信道资源成本和耗时成本,具体包括:
基于梯度下降算法调整所述第一决策网络中的待调参数的每一时隙t中环境反馈的第一反馈奖励函数rt通过如下公式表示:
Figure BDA0002800573760000071
其中,J1(t)表示已经开始处理、未处理完成且能够成功完成的交易集合,Pj表示交易的收益值,qj表示所述交易发起资源节点支付给响应共享资源节点的服务资费,
Figure BDA0002800573760000072
和tj,b分别表示交易实际所需的传输时延和交易最初所期望的传输时延,tj,c表示交易所需的计算处理耗时,J2(t)代表无法成功完成的交易集,J3(t)表示所述发起交易资源节点已接受且已到达但未开始处理的交易集合。
根据本发明提供的一种无线边缘区块链场景中的资源节点间交易匹配方法,所述无线边缘区块链网络中接收到所述交易请求的共享资源节点基于所述交易请求确定响应所述交易请求的过程,具体包括:
所述无线边缘区块链网络中接收到所述交易请求的任一接收共享资源节点提取所述交易请求中的信道质量测量参数,基于所述信道质量测量参数进行信道质量测量确定所述任一共享资源节点与所述发起交易资源节点之间信道的质量参数;
所述任一接收共享资源节点基于所述发起交易资源节点的身份信息、自身可用计算资源量、其与所述发起交易资源节点之间信道的质量参数、正在匹配的其他交易的信息采用深度强化学习算法确定是否响应所述交易请求。
根据本发明提供的一种无线边缘区块链场景中的资源节点间交易匹配方法,所述任一接收共享资源节点基于所述发起交易资源节点的身份信息、自身可用计算资源量、其与所述发起交易资源节点之间信道的质量参数、其正在匹配的其他交易的信息采用深度强化学习算法确定是否响应所述交易请求,具体包括:
所述任一接收共享资源节点基于所述发起交易资源节点的身份信息进行身份验证,确定验证通过的所述任一接收共享资源节点为有效接收共享资源节点;
所述有效接收共享资源节点基于自身可用计算资源量、其与所述发起交易资源节点之间信道的质量参数和其正在匹配的其他交易的信息构建第二状态空间矩阵;
基于深度强化学习算法训练过程中的第二决策网络输入所述第二状态空间矩阵后每轮循环迭代训练输出的预测任一所述有效接收共享资源节点是否确定响应结果构建第二动作集合;
用于基于梯度下降算法调整所述第二决策网络中的待调参数的第二反馈奖励函数包括共享匹配收益项、匹配后提供服务资费成本、占用信道资源成本和耗时成本。
根据本发明提供的一种无线边缘区块链场景中的资源节点间交易匹配方法,所述有效接收共享资源节点基于自身可用计算资源量、其与所述发起交易资源节点之间信道的质量参数和其正在匹配的其他交易的信息构建第二状态空间矩阵,具体包括:
第二状态空间矩阵ss通过如下公式表示:
ss=[sspb,sspc,ssr,sso,ssu]T×U
Figure BDA0002800573760000081
Figure BDA0002800573760000082
其中,sspb表示所述有效接收共享资源节点与所述发起交易资源节点之间信道的质量参数,Lb表示所述有效接收共享资源节点每一时隙内所拥有的所有信道资源块,T表示时隙总数,
Figure BDA0002800573760000083
的数值取1表示在第m个时隙内第n个信道资源块已经被占用,
Figure BDA0002800573760000084
的数值取0表示在第m个时隙内第n个信道资源块未被占用,sspc表示所述有效接收共享资源节点自身可用计算资源量,Lc表示所述有效接收共享资源节点每一时隙内所拥有的所有计算资源块,
Figure BDA0002800573760000085
的数值取1表示在第m个时隙内第n个计算资源块已经被占用,
Figure BDA0002800573760000091
的数值取0表示在第m个时隙内第n个计算资源块未被占用,ssr表示观察有效接收共享资源节点正在匹配的其他交易中的前Nr个交易的具体信息,
Figure BDA0002800573760000092
表示第
Figure BDA0002800573760000099
个正在进行的交易的第
Figure BDA00028005737600000910
个信息参数值,当
Figure BDA00028005737600000911
时,其指示发起交易资源节点的历史行为置信度参数,当
Figure BDA00028005737600000912
时,其指示该交易成功完成后的收益,sso表示可观察到具体交易信息的前No个交易的信息形成的列向量,所述列向量中任一元素bbi为维度为Lb+Lc+2的行向量,当n∈[1,Lb]时,
Figure BDA0002800573760000093
表示第i个交易在其发起交易资源节点与所述有效接收共享资源节点自身之间的信道状态下需要占用第n个信道资源块,否则,不占用,当n∈[Lb+1,Lc]时,
Figure BDA0002800573760000094
表示第i个交易需要占用所述有效接收共享资源节点自身第n-Lb个计算资源块,否则,不占用,当n=Lb+Lc+1时,
Figure BDA0002800573760000095
表示第i个交易的收益,当n=Lb+Lc+2时,
Figure BDA0002800573760000096
表示第i个交易的发起交易资源节点的历史行为置信度,ssu表示不可观察到具体交易信息的前Nu个交易,
Figure BDA0002800573760000097
表示第
Figure BDA00028005737600000913
个交易的第
Figure BDA00028005737600000914
个信息参数值,当
Figure BDA00028005737600000915
时,第
Figure BDA00028005737600000916
个信息参数为其交易的到达时间,当
Figure BDA00028005737600000917
时,第
Figure BDA00028005737600000918
个信息参数为其交易的成功完成后的收益,当
Figure BDA00028005737600000919
时,第
Figure BDA00028005737600000920
个信息参数为其交易的完成耗时;
对应地,所述用于基于梯度下降算法调整所述第二决策网络中的待调参数的第二反馈奖励函数包括共享匹配收益项、匹配后提供服务资费成本、占用信道资源成本和耗时成本,具体包括:
基于梯度下降算法调整所述第二决策网络中的待调参数的每一时隙t中环境反馈的第二反馈奖励函数rrt通过如下公式表示:
Figure BDA0002800573760000098
其中,J1(t)表示已经开始处理、未处理完成且能够成功完成的交易集合,Pj表示交易的收益值,
Figure BDA0002800573760000101
和tj,b分别表示实际所需传输时延和交易最初所期望传输时延,tj,c表示交易所需的计算处理耗时,J2(t)表示所述有效接收共享资源节点已接受且已到达但未开始处理的交易集合,Eb和Eb分别表示每个信道资源块成本和每个计算资源块成本,N(·)为计数函数。
本发明提供另外一种无线边缘区块链场景中的资源节点间交易匹配方法,其执行主体为共享资源节点,包括:
接收在无线边缘区块链网络中广播的交易请求,提取所述交易请求中交易发起资源节点的身份信息、信道质量测量参数和历史行为置信度;
基于所述信道质量测量参数进行自身共享资源节点信道质量测量确定与所述发起交易资源节点之间信道的质量参数;
基于所述发起交易资源节点的身份信息、所述自身共享资源节点可用计算资源量、所述信道的质量参数、自身共享资源节点正在匹配的其他交易的信息采用深度强化学习算法确定是否响应所述交易请求;
若确定响应,则向所述发起交易资源节点发送接受竞争响应,所述接受竞争响应包括所述响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量;
其中,所述接受竞争响应用于所述发起交易资源节点接收后基于各个接受竞争响应确定最优响应共享资源节点,所述最优响应共享资源节点用于和所述发起交易资源节点进行交易,交易过程中交易系统根据交易占用计算资源更新所述最优响应共享资源节点的可用计算资源量,交易完成后所述交易系统根据交易结果更新所述发起交易资源节点和所述最优响应共享资源节点的历史行为置信度。
本发明还提供一种发起交易资源节点,包括:
发送单元,用于向所在无线边缘区块链网络中广播交易请求,所述交易请求包括发起交易资源节点的身份信息、历史行为置信度和信道质量测量参数;
接收单元,用于接收所述无线边缘区块链网络中各个响应共享资源节点发送的接受竞争响应,所述接受竞争响应包括所述响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量;
其中,所述响应共享资源节点为所述无线边缘区块链网络中接收到所述交易请求后基于所述交易请求确定响应所述交易请求的共享资源节点;
匹配单元,用于基于所述各个响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量,以及所述发起交易资源节点的历史行为置信度采用深度强化学习算法确定最优响应共享资源节点;
其中,所述最优响应共享资源节点用于和所述发起交易资源节点进行交易,交易过程中交易系统根据交易占用计算资源更新所述最优响应共享资源节点的可用计算资源量,交易完成后所述交易系统根据交易结果更新所述发起交易资源节点和所述最优响应共享资源节点的历史行为置信度。
本发明还提供一种共享资源节点,包括:
接收单元,用于接收在无线边缘区块链网络中广播的交易请求,提取所述交易请求中交易发起资源节点的身份信息、信道质量测量参数和历史行为置信度;
测量单元,用于基于所述信道质量测量参数进行自身共享资源节点信道质量测量确定与所述发起交易资源节点之间信道的质量参数;
响应单元,用于基于所述发起交易资源节点的身份信息、所述自身共享资源节点可用计算资源量、所述信道的质量参数、自身共享资源节点正在匹配的其他交易的信息采用深度强化学习算法确定是否响应所述交易请求;
发送单元,用于若确定响应,则向所述发起交易资源节点发送接受竞争响应,所述接受竞争响应包括所述响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量;
其中,所述接受竞争响应用于所述发起交易资源节点接收后基于各个接受竞争响应确定最优响应共享资源节点,所述最优响应共享资源节点用于和所述发起交易资源节点进行交易,交易过程中交易系统根据交易占用计算资源更新所述最优响应共享资源节点的可用计算资源量,交易完成后所述交易系统根据交易结果更新所述发起交易资源节点和所述最优响应共享资源节点的历史行为置信度。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述的无线边缘区块链场景中的资源节点间交易匹配方法的步骤。
本发明提供的无线边缘区块链场景中的资源节点间交易匹配方法,通过向所在无线边缘区块链网络中广播交易请求,所述交易请求包括发起交易资源节点的身份信息、历史行为置信度和信道质量测量参数;接收所述无线边缘区块链网络中各个响应共享资源节点发送的接受竞争响应,所述接受竞争响应包括所述响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量;其中,所述响应共享资源节点为所述无线边缘区块链网络中接收到所述交易请求后基于所述交易请求确定响应所述交易请求的共享资源节点;基于所述各个响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量,以及所述发起交易资源节点的历史行为置信度采用深度强化学习算法确定最优响应共享资源节点;其中,所述最优响应共享资源节点用于和所述发起交易资源节点进行交易,交易过程中交易系统根据交易占用计算资源更新所述最优响应共享资源节点的可用计算资源量,交易完成后所述交易系统根据交易结果更新所述发起交易资源节点和所述最优响应共享资源节点的历史行为置信度。由于限定了无线边缘区块链网络中接收到交易请求的可能响应共享资源节点基于交易请求中携带的信息确定是否进行响应,而确定响应后在响应共享资源节点都向发起交易资源节点返回的接受竞争响应时由发起交易资源节点根据各个响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量,以及所述发起交易资源节点的历史行为置信度采用深度强化学习算法确定最优响应共享资源节点,即交易匹配充分考虑了双方的历史行为置信度、双方节点之间信道资源量以及响应共享资源节点的可用计算资源,使得交易匹配更合理,在考虑了历史行为置信度的情况下,可以保证匹配上的交易成功完成概率,交易过程中交易系统根据交易占用计算资源更新所述最优响应共享资源节点的可用计算资源量,交易完成后还根据交易结果更新所述发起交易资源节点和所述最优响应共享资源节点的历史行为置信度,实现及时更新交易匹配需要考虑的数据。因此,本发明提供的方法,实现了充分考虑影响交易过程和收益的因素,使得交易匹配更合理,交易更容易成功完成。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的无线边缘区块链场景中的资源节点间交易匹配方法的流程示意图;
图2为本发明提供的匹配选择的策略网络迭代训练过程示意图;
图3为本发明提供的决策响应的策略网络迭代训练过程示意图;
图4为本发明提供的另一无线边缘区块链场景中的资源节点间交易匹配方法的流程示意图;
图5为本发明提供的发起交易资源节点的结构示意图;
图6为本发明提供的共享资源节点的结构示意图;
图7为本发明提供的新型无线边缘区块链场景中计算资源共享服务的流程示例图;
图8为本发明提供的一种电子设备的实体结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
新型无线边缘区块链场景中的计算资源共享服务主要涉及两类参与节点,B-AP和B-UE,分别代表隶属于运营商的网络接入节点(基站)和一般用户节点(移动通讯设备)。通常而言,B-AP具有较高的计算能力及信道通信质量,能够为资源请求节点提供更优质的共享体验。但在一些情况下,B-UE能够为物理距离上临近的节点提供对时延敏感业务的计算资源共享服务,相较于远距离处的B-AP节点,临近的B-UE具有更短的时延,从而使资源共享体验提高。于是,在计算资源共享服务中,资源请求节点与资源提供节点间的自主匹配过程对后续资源共享业务的服务质量具有较大的影响,而其中,自主匹配所依据的参考信息的设计更为关键。
本发明的提供的匹配规则和匹配参考因素正是为解决以上问题为自主匹配过程提供其所需依据的参考信息。将所述匹配规则和匹配参考因素应用于新型无线边缘区块链场景中面向计算资源共享业务中一般的计算资源共享服务得到本发明提供的无线边缘区块链场景中的资源节点间交易匹配方法。
现有的区块链节点之间的交易匹配普遍存在匹配过程中设定匹配规则没有充分考虑区块链网络中信道资源和节点计算资源造成的交易匹配不合理且匹配后交易成功完成概率不高的问题。下面结合图1-图3描述本发明的一种无线边缘区块链场景中的资源节点间交易匹配方法。图1为本发明提供的无线边缘区块链场景中的资源节点间交易匹配方法的流程示意图,如图1所示,该方法的执行主体为发起交易资源节点,该方法包括:
步骤110,向所在无线边缘区块链网络中广播交易请求,所述交易请求包括发起交易资源节点的身份信息、历史行为置信度和信道质量测量参数。
具体地,发起交易资源节点要找到无线边缘区块链网络中合适的交易对象,首先需要向无线边缘区块链网络中广播出自己的交易请求,并让交易请求中携带有发起交易资源节点的身份信息、历史行为置信度和信道质量测量参数。当无线边缘区块链网络中的共享资源节点接收到所述交易请求后,根据交易请求中的信息基于预设的决策规则决策是否响应该交易请求返回接受竞争响应成为多个竞争该交易的共享资源节点之一。
步骤120,接收所述无线边缘区块链网络中各个响应共享资源节点发送的接受竞争响应,所述接受竞争响应包括所述响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量;
其中,所述响应共享资源节点为所述无线边缘区块链网络中接收到所述交易请求后基于所述交易请求确定响应所述交易请求的共享资源节点。
具体地,当所述无线边缘区块链网络中接收到所述交易请求后根据所述交易请求中的信息并基于预设的决策规则决策响应该交易后会向所述发起交易资源节点返回接受竞争响应,当发起交易资源节点接收到来自各个响应共享资源节点发送的接受竞争响应,发起交易资源节点会提取各个接受竞争响应中携带的对应响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量。
此处对历史行为置信度、信道质量参数和可用计算资源量进行详细说明,信道质量参数为两节点之间信道的误码率、SINR等常用信道QoS参数或任意组合,组合中对各个物理参数设置对应加权系数方便总信道质量参数的求和,为了方便后续计算,还可以对信道质量参数进行类似归一化处理,即可将信道质量参数其值β设计为五个等级,β={1,2,3,4,5},其中β值越大表示等级越高,可用信道资源越多,通信质量越好,节点可用计算资源量为节点使用的硬件CPU型号、当前RAM资源占用率、对交易数据处理效果、交易处理时延等常用计算资源QoS参数或任意组合,组合中对各个物理参数设置对应加权系数方便总可用计算资源量的求和,历史行为置信度是基于无线边缘区块链网络中的资源共享节点参与交易的成功次数和失败次数确定的,对于任一共享资源节点,当其交易成功完成,则对其历史行为置信度进行升级,当其交易完成失败,则对其历史行为置信度进行降级,根据应用场景中对于失败的惩罚严格程度和对成功的认可程度,设定对应的升级权重系数和降级权重系数,得到历史行为置信度的确定方法对任一资源共享节点的历史行为进行升级或降级的累加,得到该点的可靠程度作为其历史行为置信度。例如:
历史行为置信度可作为对无线边缘区块链网络中资源共享节点历史行为的可靠度数值,以便其他节点对当前观察节点的诚实性有一个基础的判断。对于历史行为置信度其值α的设计,通过线性值记录。其值范围设计为α=[1,5],初始值设为αinit=3,其更新规则如下公式所示,
Figure BDA0002800573760000171
其中,α为更新前的值,Δα为更新量,α'为更新后的值,当交易成功时,为交易双方的历史行为置信度值加上0.1,当交易失败时,对交易中的过错节点的历史行为置信度值减去0.5。
步骤130,基于所述各个响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量,以及所述发起交易资源节点的历史行为置信度采用深度强化学习算法确定最优响应共享资源节点;
其中,所述最优响应共享资源节点用于和所述发起交易资源节点进行交易,交易过程中交易系统根据交易占用计算资源更新所述最优响应共享资源节点的可用计算资源量,交易完成后所述交易系统根据交易结果更新所述发起交易资源节点和所述最优响应共享资源节点的历史行为置信度。
具体地,发起交易资源节点在提取到各个响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量后,基于上述数据以及自身的节点的历史行为置信度采用深度强化学习算法确定最优响应共享资源节点,采用深度强化学习算法可以在无样本标签监督的情况下根据奖励反馈机制选择出最优响应共享资源节点用于和自身节点进行交易。同时,在进行交易的过程中交易系统设置有特定的更新机制根据该交易占用的节点计算资源更新所述最优响应共享资源节点的可用计算资源量,交易完成后所述交易系统还根据交易结果更新所述发起交易资源节点和所述最优响应共享资源节点的历史行为置信度。此处需要说明的是所述交易系统包括所有参与交易的交易发起资源节点和资源共享节点、节点之间交互时搭建的链路以及对各个节点可用计算资源、历史行为置信度和信道状态参数的采集监控装置和更新装置。
本发明提供的无线边缘区块链场景中的资源节点间交易匹配方法,通过向所在无线边缘区块链网络中广播交易请求,所述交易请求包括发起交易资源节点的身份信息、历史行为置信度和信道质量测量参数;接收所述无线边缘区块链网络中各个响应共享资源节点发送的接受竞争响应,所述接受竞争响应包括所述响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量;其中,所述响应共享资源节点为所述无线边缘区块链网络中接收到所述交易请求后基于所述交易请求确定响应所述交易请求的共享资源节点;基于所述各个响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量,以及所述发起交易资源节点的历史行为置信度采用深度强化学习算法确定最优响应共享资源节点;其中,所述最优响应共享资源节点用于和所述发起交易资源节点进行交易,交易过程中交易系统根据交易占用计算资源更新所述最优响应共享资源节点的可用计算资源量,交易完成后所述交易系统根据交易结果更新所述发起交易资源节点和所述最优响应共享资源节点的历史行为置信度。由于限定了无线边缘区块链网络中接收到交易请求的可能响应共享资源节点基于交易请求中携带的信息确定是否进行响应,而确定响应后在响应共享资源节点都向发起交易资源节点返回的接受竞争响应时由发起交易资源节点根据各个响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量,以及所述发起交易资源节点的历史行为置信度采用深度强化学习算法确定最优响应共享资源节点,即交易匹配充分考虑了双方的历史行为置信度、双方节点之间信道资源量以及响应共享资源节点的可用计算资源,使得交易匹配更合理,在考虑了历史行为置信度的情况下,可以保证匹配上的交易成功完成概率,交易过程中交易系统根据交易占用计算资源更新所述最优响应共享资源节点的可用计算资源量,交易完成后还根据交易结果更新所述发起交易资源节点和所述最优响应共享资源节点的历史行为置信度,实现及时更新交易匹配需要考虑的数据。因此,本发明提供的方法,实现了充分考虑影响交易过程和收益的因素,使得交易匹配更合理,交易更容易成功完成。
在上述实施例的基础上,所述基于所述各个响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量,以及所述发起交易资源节点的历史行为置信度采用深度强化学习算法确定最优响应共享资源节点,具体包括:
基于所述各个响应共享资源节点的身份信息进行身份验证,确定验证通过的响应共享资源节点为有效响应共享资源节点;
基于所述发起交易资源节点的历史行为置信度、所述各个响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量构建第一状态空间矩阵;
基于深度强化学习算法训练过程中的第一决策网络输入所述第一状态空间矩阵后每轮循环迭代训练输出的预测任一所述有效接收共享资源节点是否确定响应结果构建第一动作集合;
用于调整所述第一决策网络中的待调参数的第一反馈奖励函数包括共享匹配收益项、匹配后提供服务资费成本、占用信道资源成本和耗时成本。
具体地,交易发起资源节点在竞争该交易的响应共享资源节点中选择最优响应共享资源节点时,具体选择流程为:首先基于所述各个响应共享资源节点的身份信息进行身份验证,确定验证通过的响应共享资源节点为有效响应共享资源节点,即首先要进行身份验证,例如对于自身黑名单中拒绝交易的响应共享资源节点一律排除,因此,通过身份验证的响应共享资源节点为有效响应共享资源节点,它们有资格参与下面的采用深度强化学习算法作为预设的预测方法确定最优响应共享资源节点。
而采用深度强化学习算法作为预设的预测方法的具体流程是:基于所述发起交易资源节点的历史行为置信度、所述各个响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量构建第一状态空间矩阵;基于深度强化学习算法训练过程中的第一决策网络输入所述第一状态空间矩阵后每轮循环迭代训练输出的预测任一所述有效接收共享资源节点是否确定响应结果构建第一动作集合;用于调整所述第一决策网络中的待调参数的第一反馈奖励函数包括共享匹配收益项、匹配后提供服务资费成本、占用信道资源成本和耗时成本。
在上述实施例的基础上,所述基于所述发起交易资源节点的历史行为置信度、所述各个响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量构建第一状态空间矩阵,具体包括:
第一状态空间矩阵s通过如下公式表示:
s=[sp,sr,so,su]T×U
Figure BDA0002800573760000208
Figure BDA0002800573760000201
Figure BDA0002800573760000202
Figure BDA0002800573760000203
其中,sp表示可观察到的NP个响应共享资源节点各自的信道质量参数和可用计算资源量,si表示可观察到的第i个响应共享资源节点自身的信道质量参数和可用计算资源量,当n∈[1,Lb]时,
Figure BDA0002800573760000204
表示在第m个时隙内第i个响应共享资源节点的第n个信道资源块已被占用,
Figure BDA0002800573760000205
表示在第m个时隙内第i个响应共享资源节点的第n个信道资源块未被占用,当n∈[Lb+1,Lc]时,
Figure BDA0002800573760000206
表示在第m时隙内第i个响应共享资源节点的第n-Lb个计算资源块已被占用,
Figure BDA0002800573760000207
表示在第m时隙内第i个响应共享资源节点的第n-Lb个计算资源块未被占用,Lb表示所述响应共享资源节点每一时隙内所拥有的所有信道资源块,Lc表示所述响应共享资源节点每一时隙内所拥有的所有计算资源块,sr表示当前可观察到的NP个响应共享资源节点正在进行的交易中的前Nr个交易的具体信息,
Figure BDA0002800573760000211
表示第
Figure BDA0002800573760000217
个正在进行的交易的第
Figure BDA0002800573760000218
个信息参数值,当
Figure BDA0002800573760000219
时,其指示该交易的资源提供节点的ID,当
Figure BDA00028005737600002110
时,其指示该交易的资源提供节点的历史行为置信度,当
Figure BDA00028005737600002111
时,其指示该交易成功完成后其交易发起资源节点的收益,当
Figure BDA00028005737600002112
时,其指示该交易成功完成后其交易发起资源节点向其资源提供节点支付的服务费用,so表示可观察到所述发起交易资源节点的具体任务信息的前No个交易的信息形成的列向量,所述列向量中任一元素bi为维度为NpLb+Lc+1的行向量,当n∈[1,NPLb]时,
Figure BDA0002800573760000212
表示第i个交易在其发起交易资源节点与其所有所述有效接收共享资源节点自身之间的信道状态下需要占用第n个信道资源块,
Figure BDA0002800573760000213
表示第i个交易在其发起交易资源节点与其所有响应共享资源节点中第
Figure BDA00028005737600002113
个响应共享资源节点之间的信道状态下需要占用其第
Figure BDA00028005737600002114
个信道资源块,
Figure BDA0002800573760000214
表示第i个交易在其发起交易资源节点与其所有响应共享资源节点中第
Figure BDA00028005737600002115
个响应共享资源节点之间的信道状态下不需要占用其第
Figure BDA00028005737600002116
个信道资源块,当n=NPLb+Lc+1时,
Figure BDA0002800573760000215
表示第i个交易的收益,su表示不可观察到具体交易信息的前Nu个交易,
Figure BDA0002800573760000216
表示第
Figure BDA00028005737600002117
个交易的第
Figure BDA00028005737600002118
个信息参数值,当
Figure BDA00028005737600002119
时,第
Figure BDA00028005737600002120
个信息参数为其交易的到达时间,当
Figure BDA00028005737600002121
时,第
Figure BDA00028005737600002122
个信息参数为其交易的成功完成后的收益,当
Figure BDA00028005737600002123
时,第
Figure BDA00028005737600002124
个信息参数为其交易的完成耗时;
对应地,所述用于调整所述第一决策网络中的待调参数的第一反馈奖励函数包括共享匹配收益项、匹配后提供服务资费成本、占用信道资源成本和耗时成本,具体包括:
基于梯度下降算法调整所述第一决策网络中的待调参数的每一时隙t中环境反馈的第一反馈奖励函数rt通过如下公式表示:
Figure BDA0002800573760000221
其中,J1(t)表示已经开始处理、未处理完成且能够成功完成的交易集合,Pj表示交易的收益值,
Figure BDA0002800573760000222
和tj,b分别表示实际所需以及交易最初所期望的传输时延,tj,c表示交易所需的计算处理耗时,J2(t)表示所述有效接收共享资源节点已接受且已到达但未开始处理的交易集合,Eb和Eb分别表示每个信道资源块成本和每个计算资源块成本,N(·)为计数函数。
具体地,图2为本发明提供的匹配选择的策略网络(即第一决策网络)迭代训练过程示意图,如图2所示,奖励值为交易成功时的交易收益(交易失败时则无收益)减去计算及信道资源成本以及时延消耗。PG网络通过输入的环境状态及奖励反馈输出当前的最佳决策(交易发起资源节点B-UE0在响应共享资源节点B-UE4、B-AP1中选择最优响应共享资源节点),而后作用到环境中,环境状态进行更新而后提取关键信息并根据优化目标计算出奖励值,随后继续将更新后的环境状态信息及奖励反馈输入到PG网络中,从而更新网络决策能力。当第一策略网络训练结束后,可直接将第一决策网络应用到实际中,直接提取网络信息而后经过第一决策网络决策处理得到最佳决策,在所有响应共享资源节点中选择最优响应共享资源节点作为交易发起资源节点的交易对象。
图2中,B-UE0在选择B-UE4或B-AP1在接受交易时,采用最基本的贪婪算法,采用DRL(DRL,Deep Reinforcement Learning)来根据当前动态变化的情景需要做出选出最佳的响应共享资源节的决策,其策略网络迭代训练过程如图2所示。以实时的系统环境状态为输入,充分考虑交易资源提供者(即响应共享资源节点)B-UE04、B-AP1的历史行为置信度、信道质量参数、可用计算资源量,而策略网络的输出则为每一调度动作的概率值。在此步的训练阶段,以整体的优化目标函数作为策略网络的训练依据,例如以尽量少的交易资费(支付给交易资源提供者的资费)和资源成本完成更多的交易以及服务为目标,如图2所示,奖励值为交易成功时的交易收益(交易失败时则无收益)减去交易资费、信道资源成本以及时延消耗。从而,可以对策略网络训练中的具体量s、a、rt进行设计及定义。
在训练网络的阶段,资源提供者通过多次迭代对多个交易到达序列的多次仿真来更新网络参数θ从而提升网络决策能力。首先,策略网络以实时的环境状态为输入,输出每一调度动作的概率值,而后以轮盘赌的方式选择出调度动作(当动作概率越大时,其被选中的概率越大),故而策略网络可以通过πθ来表示。随后,策略网络依据环境反馈的奖励值以及环境状态变化来更新自身网络参数θ,从而提升策略网络πθ。其中涉及输入策略网络的状态空间定义、策略网络输出的动作空间定义,以及每一时隙中环境反馈的奖励值rt
第一状态空间矩阵s通过如下公式表示:
s=[sp,sr,so,su]T×U
Figure BDA0002800573760000235
Figure BDA0002800573760000231
Figure BDA0002800573760000232
Figure BDA0002800573760000233
其中,sp表示可观察到的NP个响应共享资源节点各自的信道质量参数和可用计算资源量,si表示可观察到的第i个响应共享资源节点自身的信道质量参数和可用计算资源量,当n∈[1,Lb]时,
Figure BDA0002800573760000234
表示在第m个时隙内第i个响应共享资源节点的第n个信道资源块已被占用,
Figure BDA0002800573760000241
表示在第m个时隙内第i个响应共享资源节点的第n个信道资源块未被占用,当n∈[Lb+1,Lc]时,
Figure BDA0002800573760000242
表示在第m时隙内第i个响应共享资源节点的第n-Lb个计算资源块已被占用,
Figure BDA0002800573760000243
表示在第m时隙内第i个响应共享资源节点的第n-Lb个计算资源块未被占用,Lb表示所述响应共享资源节点每一时隙内所拥有的所有信道资源块,Lc表示所述响应共享资源节点每一时隙内所拥有的所有计算资源块,sr表示当前可观察到的NP个响应共享资源节点正在进行的交易中的前Nr个交易的具体信息,
Figure BDA0002800573760000244
表示第
Figure BDA00028005737600002410
个正在进行的交易的第
Figure BDA00028005737600002411
个信息参数值,当
Figure BDA00028005737600002412
时,其指示该交易的资源提供节点的ID,当
Figure BDA00028005737600002413
时,其指示该交易的资源提供节点的历史行为置信度,当
Figure BDA00028005737600002414
时,其指示该交易成功完成后其交易发起资源节点的收益,当
Figure BDA00028005737600002415
时,其指示该交易成功完成后其交易发起资源节点向其资源提供节点支付的服务费用,so表示可观察到所述发起交易资源节点的具体任务信息的前No个交易的信息形成的列向量,所述列向量中任一元素bi为维度为NpLb+Lc+1的行向量,当n∈[1,NPLb]时,
Figure BDA0002800573760000245
表示第i个交易在其发起交易资源节点与其所有所述有效接收共享资源节点自身之间的信道状态下需要占用第n个信道资源块,
Figure BDA0002800573760000246
表示第i个交易在其发起交易资源节点与其所有响应共享资源节点中第
Figure BDA00028005737600002416
个响应共享资源节点之间的信道状态下需要占用其第
Figure BDA00028005737600002417
个信道资源块,
Figure BDA0002800573760000247
表示第i个交易在其发起交易资源节点与其所有响应共享资源节点中第
Figure BDA00028005737600002418
个响应共享资源节点之间的信道状态下不需要占用其第
Figure BDA00028005737600002419
个信道资源块,当n=NPLb+Lc+1时,
Figure BDA0002800573760000248
表示第i个交易的收益,su表示不可观察到具体交易信息的前Nu个交易,
Figure BDA0002800573760000249
表示第
Figure BDA00028005737600002420
个交易的第
Figure BDA00028005737600002421
个信息参数值,当
Figure BDA00028005737600002422
时,第
Figure BDA00028005737600002423
个信息参数为其交易的到达时间,当
Figure BDA0002800573760000256
时,第
Figure BDA0002800573760000257
个信息参数为其交易的成功完成后的收益,当
Figure BDA0002800573760000258
时,第
Figure BDA0002800573760000259
个信息参数为其交易的完成耗时;
对于动作空间来说,定义为
Figure BDA00028005737600002510
由于NP确定,所以动作空间也能确定,即为当前交易选择接受当前时隙可观察到的NP个响应共享资源节点中的任意一个作为交易对象或是不接受任何一个响应共享资源节点作为交易对象。
对于每一时隙中环境反馈的奖励值rt可以根据图2中的奖励来按时隙分解后得到,
Figure BDA0002800573760000251
,图2中的R与rt之间的关系同样可以表示为
Figure BDA0002800573760000252
其中J1(t)代表已经开始处理、未处理完成且能够成功完成的交易集,pj代表交易成功完成后请求者可获得的奖励值,qj代表交易请求者需要支付给提供者的服务资费,
Figure BDA0002800573760000253
和tj,b分别代表实际所需以及交易最初所期望的传输时延(信道质量会导致传输时延与预计传输时延之间的差异),tj,c代表交易所需的计算处理时延,J2(t)代表已经开始处理、未处理完成且已经超时,即无法成功完成的交易集,J3(t)代表已经生成但尚未开始处理的交易集。
交易发起资源节点选择最优的响应共享资源节点的决策的第一决策网络训练过程如图2所示。每一次迭代训练时,需要进行多次情节仿真,得到策略网络的一组训练数据{st,at,rt},据此对网络参数θ进行训练及更新,可以依据REINFORCE with baseline方法,θ的更新量为
Figure BDA0002800573760000254
其中
Figure BDA0002800573760000255
为基底平均值。经过多次迭代后,策略网络参数被不断更新,从而能够根据环境状态的实时变化做出更好的决策。
当第一策略网络训练结束后,可直接将网络应用到实际中,直接提取网络信息而后经过网络决策处理得到最佳决策,为交易发起资源节点B-UE0决策最优的响应共享资源节点作为交易对象来接受自己的交易。
在上述实施例的基础上,所述无线边缘区块链网络中接收到所述交易请求的共享资源节点基于所述交易请求确定响应所述交易请求的过程,具体包括:
所述无线边缘区块链网络中接收到所述交易请求的任一接收共享资源节点提取所述交易请求中的信道质量测量参数,基于所述信道质量测量参数进行信道质量测量确定所述任一共享资源节点与所述发起交易资源节点之间信道的质量参数;
所述任一接收共享资源节点基于所述发起交易资源节点的身份信息、自身可用计算资源量、其与所述发起交易资源节点之间信道的质量参数、正在匹配的其他交易的信息采用深度强化学习算法确定是否响应所述交易请求。
具体地,除了发起交易资源节点在收到各个响应共享资源节点返回的接受竞争响应后要进行预设的匹配决策选出最优响应共享资源节点作为交易参与方,在响应共享资源节点决定返回的接受竞争响应之前,该响应共享资源节点在接收到广播的交易请求后还需要根据双方之间的信道资源、自身可用计算资源以及自身正在匹配的其他交易的信息进行决策是否响应该交易请求参与竞争匹配上该交易。而此决策同样使用的是基于深度强化学习算法确定的决策规则,即基于所述发起交易资源节点的身份信息、自身可用计算资源量、其与所述发起交易资源节点之间信道的质量参数、正在匹配的其他交易的信息采用深度强化学习算法确定是否响应所述交易请求,其中,任一共享资源节点与所述发起交易资源节点之间信道的质量参数的确定是通过无线边缘区块链网络中接收到所述交易请求的所述任一接收共享资源节点提取所述交易请求中的信道质量测量参数,基于所述信道质量测量参数进行信道质量测量的,即交易请求中首先发送的测试参数,即要求接收到的交易请求的共享资源节点进行某些信道物理参数的测量,共享资源节点进行两点之间上述某些信道物理参数的测量后将所述某些信道物理参数作为两节点之间的信道质量资源。
在上述实施例的基础上,所述任一接收共享资源节点基于所述发起交易资源节点的身份信息、自身可用计算资源量、其与所述发起交易资源节点之间信道的质量参数、其正在匹配的其他交易的信息采用深度强化学习算法确定是否响应所述交易请求,具体包括:
所述任一接收共享资源节点基于所述发起交易资源节点的身份信息进行身份验证,确定验证通过的所述任一接收共享资源节点为有效接收共享资源节点;
所述有效接收共享资源节点基于自身可用计算资源量、其与所述发起交易资源节点之间信道的质量参数和其正在匹配的其他交易的信息构建第二状态空间矩阵;
基于深度强化学习算法训练过程中的第二决策网络输入所述第二状态空间矩阵后每轮循环迭代训练输出的预测任一所述有效接收共享资源节点是否确定响应结果构建第二动作集合;
用于基于梯度下降算法调整所述第二决策网络中的待调参数的第二反馈奖励函数包括共享匹配收益项、匹配后提供服务资费成本、占用信道资源成本和耗时成本。
具体地,接收到广播的交易请求的共享资源节点在决策是否要在当前自身已有的交易中作为响应共享资源节点选择响应该交易请求返回接受竞争响应,具体的决策流程为:首先基于所述发起交易资源节点的身份信息进行身份验证,确定验证通过的接收共享资源节点为有效接收共享资源节点,即首先要进行身份验证,例如对于接收共享资源节点自身黑名单中拒绝交易的发起交易资源节点一律排除,因此,通过身份验证的接收共享资源节点为有效接收共享资源节点,通过后才会继续参与下面的采用深度强化学习算法作为预设的决策方法决策是否要在当前自身已有的交易中作为响应共享资源节点选择响应该交易请求返回接受竞争响应。如果身份验证都不通过,那么该接收共享资源节点直接拒绝响应该交易请求,放弃竞争参与交易。
而采用深度强化学习算法作为预设的决策方法的具体流程是:所述有效接收共享资源节点基于自身可用计算资源量、其与所述发起交易资源节点之间信道的质量参数和其正在匹配的其他交易的信息构建第二状态空间矩阵;基于深度强化学习算法训练过程中的第二决策网络输入所述第二状态空间矩阵后每轮循环迭代训练输出的预测任一所述有效接收共享资源节点是否确定响应结果构建第二动作集合;用于基于梯度下降算法调整所述第二决策网络中的待调参数的第二反馈奖励函数包括共享匹配收益项、匹配后提供服务资费成本、占用信道资源成本和耗时成本。
在上述实施例的基础上,所述有效接收共享资源节点基于自身可用计算资源量、其与所述发起交易资源节点之间信道的质量参数和其正在匹配的其他交易的信息构建第二状态空间矩阵,具体包括:
第二状态空间矩阵ss通过如下公式表示:
ss=[sspb,sspc,ssr,sso,ssu]T×U
Figure BDA0002800573760000281
Figure BDA0002800573760000282
其中,sspb表示所述有效接收共享资源节点与所述发起交易资源节点之间信道的质量参数,Lb表示所述有效接收共享资源节点每一时隙内所拥有的所有信道资源块,T表示时隙总数,
Figure BDA0002800573760000283
的数值取1表示在第m个时隙内第n个信道资源块已经被占用,
Figure BDA0002800573760000284
的数值取0表示在第m个时隙内第n个信道资源块未被占用,sspc表示所述有效接收共享资源节点自身可用计算资源量,Lc表示所述有效接收共享资源节点每一时隙内所拥有的所有计算资源块,
Figure BDA0002800573760000291
的数值取1表示在第m个时隙内第n个计算资源块已经被占用,
Figure BDA0002800573760000292
的数值取0表示在第m个时隙内第n个计算资源块未被占用,ssr表示观察有效接收共享资源节点正在匹配的其他交易中的前Nr个交易的具体信息,
Figure BDA0002800573760000293
表示第
Figure BDA0002800573760000299
个正在进行的交易的第
Figure BDA00028005737600002910
个信息参数值,当
Figure BDA00028005737600002911
时,其指示发起交易资源节点的历史行为置信度参数,当
Figure BDA00028005737600002912
时,其指示该交易成功完成后的收益,sso表示可观察到具体交易信息的前No个交易的信息形成的列向量,所述列向量中任一元素bbi为维度为Lb+Lc+2的行向量,当n∈[1,Lb]时,
Figure BDA0002800573760000294
表示第i个交易在其发起交易资源节点与所述有效接收共享资源节点自身之间的信道状态下需要占用第n个信道资源块,否则,不占用,当n∈[Lb+1,Lc]时,
Figure BDA0002800573760000295
表示第i个交易需要占用所述有效接收共享资源节点自身第n-Lb个计算资源块,否则,不占用,当n=Lb+Lc+1时,
Figure BDA0002800573760000296
表示第i个交易的收益,当n=Lb+Lc+2时,
Figure BDA0002800573760000297
表示第i个交易的发起交易资源节点的历史行为置信度,ssu表示不可观察到具体交易信息的前Nu个交易,
Figure BDA0002800573760000298
表示第
Figure BDA00028005737600002913
个交易的第
Figure BDA00028005737600002914
个信息参数值,当
Figure BDA00028005737600002915
时,第
Figure BDA00028005737600002916
个信息参数为其交易的到达时间,当
Figure BDA00028005737600002917
时,第
Figure BDA00028005737600002918
个信息参数为其交易的成功完成后的收益,当
Figure BDA00028005737600002919
时,第
Figure BDA00028005737600002920
个信息参数为其交易的完成耗时;
对应地,所述用于基于梯度下降算法调整所述第二决策网络中的待调参数的第二反馈奖励函数包括共享匹配收益项、匹配后提供服务资费成本、占用信道资源成本和耗时成本,具体包括:
基于梯度下降算法调整所述第二决策网络中的待调参数的每一时隙t中环境反馈的第二反馈奖励函数rrt通过如下公式表示:
Figure BDA0002800573760000301
其中,J1(t)表示已经开始处理、未处理完成且能够成功完成的交易集合,Pj表示交易的收益值,
Figure BDA0002800573760000302
和tj,b分别表示实际所需传输时延和交易最初所期望传输时延,tj,c表示交易所需的计算处理耗时,J2(t)表示所述有效接收共享资源节点已接受且已到达但未开始处理的交易集合,Eb和Eb分别表示每个信道资源块成本和每个计算资源块成本,N(·)为计数函数。
具体地,无线边缘区块链网络中接收共享资源节点选择是否接受发起交易资源节点的交易请求时,可以采用最基本的贪婪算法,即,在自身资源能够满足条件的情况下,对任何一个交易都接受,此外可以采用一类智能算法,深度强化学习算法来根据当前动态变化的情景需要做出最佳的是否接受交易的决策。以系统状态为输入,其中充分考虑发起交易资源节点的历史行为置信度、根据发起交易资源节点给出的信道资源测试参数测得对应两节点之间信道的质量参数、交易相关信息(交易量大小、交易时延限制等)以及接收共享资源节点自身的可用计算资源量,而策略网络的输出则为决策。选择策略梯度下降算法来训练策略网络。在训练阶段,以整体的优化目标函数作为策略网络的训练依据,例如以尽量少的资源成本完成更多的交易以及服务为目标时,图3为本发明提供的决策响应的策略网络(即第二决策网络)迭代训练过程示意图,如图3所示,奖励值为交易成功时的交易收益(交易失败时则无收益)减去计算及信道资源成本以及时延消耗。PG网络通过输入的环境状态及奖励反馈输出当前的最佳决策(B-UE4或B-UE8或B-AP1是否应当接受B-UE0的交易,其中,B-UE0为发起交易资源节点,B-UE4、B-UE8和B-AP1均为接收共享资源节点),而后作用到环境中,环境状态进行更新而后提取关键信息并根据优化目标计算出奖励值,随后继续将更新后的环境状态信息及奖励反馈输入到PG网络中,从而更新网络决策能力。当策略网络训练结束后,可直接将网络应用到实际中,直接提取网络信息而后经过网络决策处理得到最佳决策,为每个节点决策是否接受B-UE0的交易。
在训练网络的阶段,资源提供者通过多次迭代对多个交易到达序列的多次仿真来更新网络参数θ’从而提升网络决策能力。首先,策略网络以实时的环境状态为输入,输出每一调度动作的概率值,而后以轮盘赌的方式选择出调度动作(当动作概率越大时,其被选中的概率越大),故而策略网络可以通过πθ’来表示。随后,策略网络依据环境反馈的奖励值以及环境状态变化来更新自身网络参数θ’,从而提升策略网络πθ’。其中涉及输入策略网络的状态空间定义、策略网络输出的动作空间定义,以及每一时隙中环境反馈的奖励值rrt
第二状态空间矩阵ss通过如下公式表示:
ss=[sspb,sspc,ssr,sso,ssu]T×U
Figure BDA0002800573760000311
Figure BDA0002800573760000312
其中,sspb表示所述有效接收共享资源节点与所述发起交易资源节点之间信道的质量参数,Lb表示所述有效接收共享资源节点每一时隙内所拥有的所有信道资源块,T表示时隙总数,
Figure BDA0002800573760000313
的数值取1表示在第m个时隙内第n个信道资源块已经被占用,
Figure BDA0002800573760000314
的数值取0表示在第m个时隙内第n个信道资源块未被占用,sspc表示所述有效接收共享资源节点自身可用计算资源量,Lc表示所述有效接收共享资源节点每一时隙内所拥有的所有计算资源块,
Figure BDA0002800573760000315
的数值取1表示在第m个时隙内第n个计算资源块已经被占用,
Figure BDA0002800573760000316
的数值取0表示在第m个时隙内第n个计算资源块未被占用,ssr表示观察有效接收共享资源节点正在匹配的其他交易中的前Nr个交易的具体信息,
Figure BDA0002800573760000317
表示第
Figure BDA0002800573760000318
个正在进行的交易的第
Figure BDA0002800573760000319
个信息参数值,当
Figure BDA0002800573760000329
时,其指示发起交易资源节点的历史行为置信度参数,当
Figure BDA00028005737600003210
时,其指示该交易成功完成后的收益,sso表示可观察到具体交易信息的前No个交易的信息形成的列向量,所述列向量中任一元素bbi为维度为Lb+Lc+2的行向量,当n∈[1,Lb]时,
Figure BDA0002800573760000321
表示第i个交易在其发起交易资源节点与所述有效接收共享资源节点自身之间的信道状态下需要占用第n个信道资源块,否则,不占用,当n∈[Lb+1,Lc]时,
Figure BDA0002800573760000322
表示第i个交易需要占用所述有效接收共享资源节点自身第n-Lb个计算资源块,否则,不占用,当n=Lb+Lc+1时,
Figure BDA0002800573760000323
表示第i个交易的收益,当n=Lb+Lc+2时,
Figure BDA0002800573760000324
表示第i个交易的发起交易资源节点的历史行为置信度,ssu表示不可观察到具体交易信息的前Nu个交易,
Figure BDA0002800573760000325
表示第
Figure BDA00028005737600003211
个交易的第
Figure BDA00028005737600003212
个信息参数值,当
Figure BDA00028005737600003213
时,第
Figure BDA00028005737600003214
个信息参数为其交易的到达时间,当
Figure BDA00028005737600003215
时,第
Figure BDA00028005737600003216
个信息参数为其交易的成功完成后的收益,当
Figure BDA00028005737600003217
时,第
Figure BDA00028005737600003218
个信息参数为其交易的完成耗时。
对于动作空间来说,定义为
Figure BDA0002800573760000328
由于No确定,所以动作空间确定,即选择接受当前时隙可观察到的前No个交易中的任意一个或是不接受任何交易。
基于梯度下降算法调整所述第二决策网络中的待调参数的每一时隙t中环境反馈的第二反馈奖励函数rrt通过如下公式表示:
Figure BDA0002800573760000326
其中,J1(t)表示已经开始处理、未处理完成且能够成功完成的交易集合,Pj表示交易的收益值,
Figure BDA0002800573760000327
和tj,b分别表示实际所需传输时延和交易最初所期望传输时延,tj,c表示交易所需的计算处理耗时,J2(t)表示所述有效接收共享资源节点已接受且已到达但未开始处理的交易集合,Eb和Eb分别表示每个信道资源块成本和每个计算资源块成本,N(·)为计数函数。
在训练策略网络之初,首先生成Ntask=50组交易序列,每一次策略网络迭代训练时,需要对Ntask=50组交易序列进行Nepi=5次情节仿真,从而达到对系统一般状态的模拟与仿真。对于一组交易序列的一次仿真的具体流程如下:首先初始化策略网络参数,当仿真时隙小于最大仿真时隙TM时,重复依据当前环境状态提取状态视图sst矩阵输入策略网络,根据输出做出动作选择aat,而后得到更新后的环境状态,即环境视图s't矩阵,并计算得到时隙奖励rrt,随后将ss't作为策略网络的输入,再次得到提供者依据当前策略网络应做出的下一时隙的决策动作aa't,如此往复直至最大仿真时隙,从而得到策略网络的一组训练数据{sst,aat,rrt}。
在每次迭代后,即完成一次对多组交易序列进行多组仿真后,进行网络参数θ’的训练及更新,依据REINFORCE with baseline方法,网络参数θ’的更新量为
Figure BDA0002800573760000331
其中LM为统一后的最大仿真时隙数,I为总情节仿真次数Ntask×Nepi=250,其中
Figure BDA0002800573760000332
Figure BDA0002800573760000333
则为基底平均值,减去其以加快策略网络的训练速度。经过多次迭代后,策略网络参数被不断更新,从而能够根据环境状态的实时变化做出更好的决策。
现有的区块链节点之间的交易匹配普遍存在匹配过程中设定匹配规则没有充分考虑区块链网络中信道资源和节点计算资源造成的交易匹配不合理且匹配后交易成功完成概率不高的问题。下面结合图4描述本发明的另一种无线边缘区块链场景中的资源节点间交易匹配方法。图4为本发明提供的另一无线边缘区块链场景中的资源节点间交易匹配方法的流程示意图,如图4所示,该方法的执行主体为发起交易资源节点,该方法包括:
步骤410,接收在无线边缘区块链网络中广播的交易请求,提取所述交易请求中交易发起资源节点的身份信息、信道质量测量参数和历史行为置信度。
具体地,接收共享资源节点为接收到交易发起资源节点广播出自身的交易请求的无线边缘区块链网络中的共享资源节点,然后提取所述交易请求中交易发起资源节点的身份信息、信道质量测量参数和历史行为置信度。
此处对历史行为置信度、信道质量参数和可用计算资源量进行详细说明,信道质量参数为两节点之间信道的误码率、SINR等常用信道QoS参数或任意组合,组合中对各个物理参数设置对应加权系数方便总信道质量参数的求和,为了方便后续计算,还可以对信道质量参数进行类似归一化处理,即可将信道质量参数其值β设计为五个等级,β={1,2,3,4,5},其中β值越大表示等级越高,可用信道资源越多,通信质量越好,节点可用计算资源量为节点使用的硬件CPU型号、当前RAM资源占用率、对交易数据处理效果、交易处理时延等常用计算资源QoS参数或任意组合,组合中对各个物理参数设置对应加权系数方便总可用计算资源量的求和,历史行为置信度是基于无线边缘区块链网络中的资源共享节点参与交易的成功次数和失败次数确定的,对于任一共享资源节点,当其交易成功完成,则对其历史行为置信度进行升级,当其交易完成失败,则对其历史行为置信度进行降级,根据应用场景中对于失败的惩罚严格程度和对成功的认可程度,设定对应的升级权重系数和降级权重系数,得到历史行为置信度的确定方法对任一资源共享节点的历史行为进行升级或降级的累加,得到该点的可靠程度作为其历史行为置信度。例如:
历史行为置信度可作为对无线边缘区块链网络中资源共享节点历史行为的可靠度数值,以便其他节点对当前观察节点的诚实性有一个基础的判断。对于历史行为置信度其值α的设计,通过线性值记录。其值范围设计为α=[1,5],初始值设为αinit=3,其更新规则如下公式所示,
Figure BDA0002800573760000351
其中,α为更新前的值,Δα为更新量,α'为更新后的值,当交易成功时,为交易双方的历史行为置信度值加上0.1,当交易失败时,对交易中的过错节点的历史行为置信度值减去0.5。
步骤420,基于所述信道质量测量参数进行自身共享资源节点信道质量测量确定与所述发起交易资源节点之间信道的质量参数。
具体地,接收到交易请求的共享资源节点进行某些信道物理参数的测量,共享资源节点进行两点之间上述某些信道物理参数的测量后将所述某些信道物理参数作为两节点之间的信道质量资源。
步骤430,基于所述发起交易资源节点的身份信息、所述自身共享资源节点可用计算资源量、所述信道的质量参数、自身共享资源节点正在匹配的其他交易的信息采用深度强化学习算法确定是否响应所述交易请求。
具体地,接收共享资源节点在提取到发起交易资源节点的身份信息并测量出所述信道的质量参数后,基于上述数据以及自身共享资源节点可用计算资源量和自身共享资源节点正在匹配的其他交易的信息采用深度强化学习算法确定是否做出竞争参与交易的决策,采用深度强化学习算法可以在无样本标签监督的情况下根据奖励反馈机制选择出是否做出竞争参与交易的最优决策。
步骤440,若确定响应,则向所述发起交易资源节点发送接受竞争响应,所述接受竞争响应包括所述响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量;
其中,所述接受竞争响应用于所述发起交易资源节点接收后基于各个接受竞争响应确定最优响应共享资源节点,所述最优响应共享资源节点用于和所述发起交易资源节点进行交易,交易过程中交易系统根据交易占用计算资源更新所述最优响应共享资源节点的可用计算资源量,交易完成后所述交易系统根据交易结果更新所述发起交易资源节点和所述最优响应共享资源节点的历史行为置信度。
具体地,若共享资源节点确定要竞争参与该交易,则向发起交易资源节点返回接受竞争响应,并在接受竞争响应中携带所述响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量以供发起交易资源节点根据各个响应共享资源节点返回的接受竞争响应中提供的信息进行最优响应共享资源节点的选择,确定最终参与交易的对象。同时,在进行交易的过程中还需要根据该交易占用的节点计算资源更新所述最优响应共享资源节点的可用计算资源量,交易完成后还根据交易结果更新所述发起交易资源节点和所述最优响应共享资源节点的历史行为置信度。
本发明提供的无线边缘区块链场景中的资源节点间交易匹配方法,通过接收在无线边缘区块链网络中广播的交易请求,提取所述交易请求中交易发起资源节点的身份信息、信道质量测量参数和历史行为置信度;基于所述信道质量测量参数进行自身共享资源节点信道质量测量确定与所述发起交易资源节点之间信道的质量参数;基于所述发起交易资源节点的身份信息、所述自身共享资源节点可用计算资源量、所述信道的质量参数、自身共享资源节点正在匹配的其他交易的信息采用深度强化学习算法确定是否响应所述交易请求;若确定响应,则向所述发起交易资源节点发送接受竞争响应,所述接受竞争响应包括所述响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量;其中,所述接受竞争响应用于所述发起交易资源节点接收后基于各个接受竞争响应确定最优响应共享资源节点,所述最优响应共享资源节点用于和所述发起交易资源节点进行交易,交易过程中交易系统根据交易占用计算资源更新所述最优响应共享资源节点的可用计算资源量,交易完成后所述交易系统根据交易结果更新所述发起交易资源节点和所述最优响应共享资源节点的历史行为置信度。由于限定了无线边缘区块链网络中接收到交易请求的可能响应共享资源节点基于交易请求中携带的信息确定是否进行响应,而确定响应后在响应共享资源节点都向发起交易资源节点返回的接受竞争响应时由发起交易资源节点根据各个响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量,以及所述发起交易资源节点的历史行为置信度采用深度强化学习算法确定最优响应共享资源节点,即交易匹配充分考虑了双方的历史行为置信度、双方节点之间信道资源量以及响应共享资源节点的可用计算资源,使得交易匹配更合理,在考虑了历史行为置信度的情况下,可以保证匹配上的交易成功完成概率,交易过程中交易系统根据交易占用计算资源更新所述最优响应共享资源节点的可用计算资源量,交易完成后还根据交易结果更新所述发起交易资源节点和所述最优响应共享资源节点的历史行为置信度,实现及时更新交易匹配需要考虑的数据。因此,本发明提供的方法,实现了充分考虑影响交易过程和收益的因素,使得交易匹配更合理,交易更容易成功完成。
下面对本发明提供的发起交易资源节点进行描述,下文描述的发起交易资源节点与上文描述的第一种无线边缘区块链场景中的资源节点间交易匹配方法可相互对应参照。
图5为本发明提供的发起交易资源节点的结构示意图,如图5所示,该发起交易资源节点包括发送单元510、接收单元520和匹配单元530,其中,
所述发送单元510,用于向所在无线边缘区块链网络中广播交易请求,所述交易请求包括发起交易资源节点的身份信息、历史行为置信度和信道质量测量参数;
所述接收单元520,用于接收所述无线边缘区块链网络中各个响应共享资源节点发送的接受竞争响应,所述接受竞争响应包括所述响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量;
其中,所述响应共享资源节点为所述无线边缘区块链网络中接收到所述交易请求后基于所述交易请求确定响应所述交易请求的共享资源节点;
所述匹配单元530,用于基于所述各个响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量,以及所述发起交易资源节点的历史行为置信度采用深度强化学习算法确定最优响应共享资源节点;
其中,所述最优响应共享资源节点用于和所述发起交易资源节点进行交易,交易过程中交易系统根据交易占用计算资源更新所述最优响应共享资源节点的可用计算资源量,交易完成后所述交易系统根据交易结果更新所述发起交易资源节点和所述最优响应共享资源节点的历史行为置信度。
本发明提供的发起交易资源节点,通过向所在无线边缘区块链网络中广播交易请求,所述交易请求包括发起交易资源节点的身份信息、历史行为置信度和信道质量测量参数;接收所述无线边缘区块链网络中各个响应共享资源节点发送的接受竞争响应,所述接受竞争响应包括所述响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量;其中,所述响应共享资源节点为所述无线边缘区块链网络中接收到所述交易请求后基于所述交易请求确定响应所述交易请求的共享资源节点;基于所述各个响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量,以及所述发起交易资源节点的历史行为置信度采用深度强化学习算法确定最优响应共享资源节点;其中,所述最优响应共享资源节点用于和所述发起交易资源节点进行交易,交易过程中交易系统根据交易占用计算资源更新所述最优响应共享资源节点的可用计算资源量,交易完成后所述交易系统根据交易结果更新所述发起交易资源节点和所述最优响应共享资源节点的历史行为置信度。由于限定了无线边缘区块链网络中接收到交易请求的可能响应共享资源节点基于交易请求中携带的信息确定是否进行响应,而确定响应后在响应共享资源节点都向发起交易资源节点返回的接受竞争响应时由发起交易资源节点根据各个响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量,以及所述发起交易资源节点的历史行为置信度采用深度强化学习算法确定最优响应共享资源节点,即交易匹配充分考虑了双方的历史行为置信度、双方节点之间信道资源量以及响应共享资源节点的可用计算资源,使得交易匹配更合理,在考虑了历史行为置信度的情况下,可以保证匹配上的交易成功完成概率,交易过程中交易系统根据交易占用计算资源更新所述最优响应共享资源节点的可用计算资源量,交易完成后还根据交易结果更新所述发起交易资源节点和所述最优响应共享资源节点的历史行为置信度,实现及时更新交易匹配需要考虑的数据。因此,本发明提供的发起交易资源节点,实现了充分考虑影响交易过程和收益的因素,使得交易匹配更合理,交易更容易成功完成。
在上述实施例的基础上,该发起交易资源节点中,所述基于所述各个响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量,以及所述发起交易资源节点的历史行为置信度采用深度强化学习算法确定最优响应共享资源节点,具体包括:
基于所述各个响应共享资源节点的身份信息进行身份验证,确定验证通过的响应共享资源节点为有效响应共享资源节点;
基于所述发起交易资源节点的历史行为置信度、所述各个响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量构建第一状态空间矩阵;
基于深度强化学习算法训练过程中的第一决策网络输入所述第一状态空间矩阵后每轮循环迭代训练输出的预测任一所述有效接收共享资源节点是否确定响应结果构建第一动作集合;
用于调整所述第一决策网络中的待调参数的第一反馈奖励函数包括共享匹配收益项、匹配后提供服务资费成本、占用信道资源成本和耗时成本。
在上述实施例的基础上,所述基于所述发起交易资源节点的历史行为置信度、所述各个响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量构建第一状态空间矩阵,具体包括:
第一状态空间矩阵s通过如下公式表示:
s=[sp,sr,so,su]T×U
Figure BDA0002800573760000409
Figure BDA0002800573760000401
Figure BDA0002800573760000402
Figure BDA0002800573760000403
其中,sp表示可观察到的NP个响应共享资源节点各自的信道质量参数和可用计算资源量,si表示可观察到的第i个响应共享资源节点自身的信道质量参数和可用计算资源量,当n∈[1,Lb]时,
Figure BDA0002800573760000404
表示在第m个时隙内第i个响应共享资源节点的第n个信道资源块已被占用,
Figure BDA0002800573760000405
表示在第m个时隙内第i个响应共享资源节点的第n个信道资源块未被占用,当n∈[Lb+1,Lc]时,
Figure BDA0002800573760000406
表示在第m时隙内第i个响应共享资源节点的第n-Lb个计算资源块已被占用,
Figure BDA0002800573760000407
表示在第m时隙内第i个响应共享资源节点的第n-Lb个计算资源块未被占用,Lb表示所述响应共享资源节点每一时隙内所拥有的所有信道资源块,Lc表示所述响应共享资源节点每一时隙内所拥有的所有计算资源块,sr表示当前可观察到的NP个响应共享资源节点正在进行的交易中的前Nr个交易的具体信息,
Figure BDA0002800573760000408
表示第
Figure BDA00028005737600004010
个正在进行的交易的第
Figure BDA0002800573760000417
个信息参数值,当
Figure BDA0002800573760000418
时,其指示该交易的资源提供节点的ID,当
Figure BDA0002800573760000419
时,其指示该交易的资源提供节点的历史行为置信度,当
Figure BDA00028005737600004110
时,其指示该交易成功完成后其交易发起资源节点的收益,当
Figure BDA00028005737600004111
时,其指示该交易成功完成后其交易发起资源节点向其资源提供节点支付的服务费用,so表示可观察到所述发起交易资源节点的具体任务信息的前No个交易的信息形成的列向量,所述列向量中任一元素bi为维度为NpLb+Lc+1的行向量,当n∈[1,NPLb]时,
Figure BDA0002800573760000411
表示第i个交易在其发起交易资源节点与其所有所述有效接收共享资源节点自身之间的信道状态下需要占用第n个信道资源块,
Figure BDA0002800573760000412
表示第i个交易在其发起交易资源节点与其所有响应共享资源节点中第
Figure BDA00028005737600004112
个响应共享资源节点之间的信道状态下需要占用其第
Figure BDA00028005737600004113
个信道资源块,
Figure BDA0002800573760000413
表示第i个交易在其发起交易资源节点与其所有响应共享资源节点中第
Figure BDA00028005737600004114
个响应共享资源节点之间的信道状态下不需要占用其第
Figure BDA00028005737600004115
个信道资源块,当n=NPLb+Lc+1时,
Figure BDA0002800573760000414
表示第i个交易的收益,su表示不可观察到具体交易信息的前Nu个交易,
Figure BDA0002800573760000415
表示第
Figure BDA00028005737600004116
个交易的第
Figure BDA00028005737600004117
个信息参数值,当
Figure BDA00028005737600004118
时,第
Figure BDA00028005737600004119
个信息参数为其交易的到达时间,当
Figure BDA00028005737600004120
时,第
Figure BDA00028005737600004121
个信息参数为其交易的成功完成后的收益,当
Figure BDA00028005737600004122
时,第
Figure BDA00028005737600004123
个信息参数为其交易的完成耗时;
对应地,所述用于调整所述第一决策网络中的待调参数的第一反馈奖励函数包括共享匹配收益项、匹配后提供服务资费成本、占用信道资源成本和耗时成本,具体包括:
基于梯度下降算法调整所述第一决策网络中的待调参数的每一时隙t中环境反馈的第一反馈奖励函数rt通过如下公式表示:
Figure BDA0002800573760000416
其中,J1(t)表示已经开始处理、未处理完成且能够成功完成的交易集合,Pj表示交易的收益值,qj表示所述交易发起资源节点支付给响应共享资源节点的服务资费,
Figure BDA0002800573760000421
和tj,b分别表示交易实际所需的传输时延和交易最初所期望的传输时延,tj,c表示交易所需的计算处理耗时,J2(t)代表无法成功完成的任务集,J3(t)表示所述发起交易资源节点已接受且已到达但未开始处理的交易集合。
在上述实施例的基础上,该发起交易资源节点中,所述无线边缘区块链网络中接收到所述交易请求的共享资源节点基于所述交易请求确定响应所述交易请求的过程,具体包括:
所述无线边缘区块链网络中接收到所述交易请求的任一接收共享资源节点提取所述交易请求中的信道质量测量参数,基于所述信道质量测量参数进行信道质量测量确定所述任一共享资源节点与所述发起交易资源节点之间信道的质量参数;
所述任一接收共享资源节点基于所述发起交易资源节点的身份信息、自身可用计算资源量、其与所述发起交易资源节点之间信道的质量参数、正在匹配的其他交易的信息采用深度强化学习算法确定是否响应所述交易请求。
在上述实施例的基础上,该发起交易资源节点中,所述任一接收共享资源节点基于所述发起交易资源节点的身份信息、自身可用计算资源量、其与所述发起交易资源节点之间信道的质量参数、其正在匹配的其他交易的信息采用深度强化学习算法确定是否响应所述交易请求,具体包括:
所述任一接收共享资源节点基于所述发起交易资源节点的身份信息进行身份验证,确定验证通过的所述任一接收共享资源节点为有效接收共享资源节点;
所述有效接收共享资源节点基于自身可用计算资源量、其与所述发起交易资源节点之间信道的质量参数和其正在匹配的其他交易的信息构建第二状态空间矩阵;
基于深度强化学习算法训练过程中的第二决策网络输入所述第二状态空间矩阵后每轮循环迭代训练输出的预测任一所述有效接收共享资源节点是否确定响应结果构建第二动作集合;
用于基于梯度下降算法调整所述第二决策网络中的待调参数的第二反馈奖励函数包括共享匹配收益项、匹配后提供服务资费成本、占用信道资源成本和耗时成本。
在上述实施例的基础上,该发起交易资源节点中,所述有效接收共享资源节点基于自身可用计算资源量、其与所述发起交易资源节点之间信道的质量参数和其正在匹配的其他交易的信息构建第二状态空间矩阵,具体包括:
第二状态空间矩阵ss通过如下公式表示:
ss=[sspb,sspc,ssr,sso,ssu]T×U
Figure BDA0002800573760000431
Figure BDA0002800573760000432
其中,sspb表示所述有效接收共享资源节点与所述发起交易资源节点之间信道的质量参数,Lb表示所述有效接收共享资源节点每一时隙内所拥有的所有信道资源块,T表示时隙总数,
Figure BDA0002800573760000433
的数值取1表示在第m个时隙内第n个信道资源块已经被占用,
Figure BDA0002800573760000434
的数值取0表示在第m个时隙内第n个信道资源块未被占用,sspc表示所述有效接收共享资源节点自身可用计算资源量,Lc表示所述有效接收共享资源节点每一时隙内所拥有的所有计算资源块,
Figure BDA0002800573760000435
的数值取1表示在第m个时隙内第n个计算资源块已经被占用,
Figure BDA0002800573760000436
的数值取0表示在第m个时隙内第n个计算资源块未被占用,ssr表示观察有效接收共享资源节点正在匹配的其他交易中的前Nr个交易的具体信息,
Figure BDA0002800573760000437
表示第
Figure BDA0002800573760000438
个正在进行的交易的第
Figure BDA0002800573760000439
个信息参数值,当
Figure BDA0002800573760000448
时,其指示发起交易资源节点的历史行为置信度参数,当
Figure BDA0002800573760000449
时,其指示该交易成功完成后的收益,sso表示可观察到具体交易信息的前No个交易的信息形成的列向量,所述列向量中任一元素bbi为维度为Lb+Lc+2的行向量,当n∈[1,Lb]时,
Figure BDA0002800573760000441
表示第i个交易在其发起交易资源节点与所述有效接收共享资源节点自身之间的信道状态下需要占用第n个信道资源块,否则,不占用,当n∈[Lb+1,Lc]时,
Figure BDA0002800573760000442
表示第i个交易需要占用所述有效接收共享资源节点自身第n-Lb个计算资源块,否则,不占用,当n=Lb+Lc+1时,
Figure BDA0002800573760000443
表示第i个交易的收益,当n=Lb+Lc+2时,
Figure BDA0002800573760000444
表示第i个交易的发起交易资源节点的历史行为置信度,ssu表示不可观察到具体交易信息的前Nu个交易,
Figure BDA0002800573760000445
表示第
Figure BDA00028005737600004410
个交易的第
Figure BDA00028005737600004411
个信息参数值,当
Figure BDA00028005737600004412
时,第
Figure BDA00028005737600004413
个信息参数为其交易的到达时间,当
Figure BDA00028005737600004414
时,第
Figure BDA00028005737600004415
个信息参数为其交易的成功完成后的收益,当
Figure BDA00028005737600004416
时,第
Figure BDA00028005737600004417
个信息参数为其交易的完成耗时;
对应地,所述用于基于梯度下降算法调整所述第二决策网络中的待调参数的第二反馈奖励函数包括共享匹配收益项、匹配后提供服务资费成本、占用信道资源成本和耗时成本,具体包括:
基于梯度下降算法调整所述第二决策网络中的待调参数的每一时隙t中环境反馈的第二反馈奖励函数rrt通过如下公式表示:
Figure BDA0002800573760000446
其中,J1(t)表示已经开始处理、未处理完成且能够成功完成的交易集合,Pj表示交易的收益值,
Figure BDA0002800573760000447
和tj,b分别表示实际所需传输时延和交易最初所期望传输时延,tj,c表示交易所需的计算处理耗时,J2(t)表示所述有效接收共享资源节点已接受且已到达但未开始处理的交易集合,Eb和Eb分别表示每个信道资源块成本和每个计算资源块成本,N(·)为计数函数。
下面对本发明提供的共享资源节点进行描述,下文描述的共享资源节点与上文描述的另一种无线边缘区块链场景中的资源节点间交易匹配方法可相互对应参照。
图6为本发明提供的共享资源节点的结构示意图,如图6所示,该共享资源节点包括接收单元610、测量单元620、响应单元630和发送单元640,其中,
所述接收单元610,用于接收在无线边缘区块链网络中广播的交易请求,提取所述交易请求中交易发起资源节点的身份信息、信道质量测量参数和历史行为置信度;
所述测量单元620,用于基于所述信道质量测量参数进行自身共享资源节点信道质量测量确定与所述发起交易资源节点之间信道的质量参数;
所述响应单元630,用于基于所述发起交易资源节点的身份信息、所述自身共享资源节点可用计算资源量、所述信道的质量参数、自身共享资源节点正在匹配的其他交易的信息采用深度强化学习算法确定是否响应所述交易请求;
所述发送单元640,用于若确定响应,则向所述发起交易资源节点发送接受竞争响应,所述接受竞争响应包括所述响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量;
其中,所述接受竞争响应用于所述发起交易资源节点接收后基于各个接受竞争响应确定最优响应共享资源节点,所述最优响应共享资源节点用于和所述发起交易资源节点进行交易,交易过程中交易系统根据交易占用计算资源更新所述最优响应共享资源节点的可用计算资源量,交易完成后所述交易系统根据交易结果更新所述发起交易资源节点和所述最优响应共享资源节点的历史行为置信度。
本发明提供的共享资源节点,通过接收在无线边缘区块链网络中广播的交易请求,提取所述交易请求中交易发起资源节点的身份信息、信道质量测量参数和历史行为置信度;基于所述信道质量测量参数进行自身共享资源节点信道质量测量确定与所述发起交易资源节点之间信道的质量参数;基于所述发起交易资源节点的身份信息、所述自身共享资源节点可用计算资源量、所述信道的质量参数、自身共享资源节点正在匹配的其他交易的信息采用深度强化学习算法确定是否响应所述交易请求;若确定响应,则向所述发起交易资源节点发送接受竞争响应,所述接受竞争响应包括所述响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量;其中,所述接受竞争响应用于所述发起交易资源节点接收后基于各个接受竞争响应确定最优响应共享资源节点,所述最优响应共享资源节点用于和所述发起交易资源节点进行交易,交易过程中交易系统根据交易占用计算资源更新所述最优响应共享资源节点的可用计算资源量,交易完成后所述交易系统根据交易结果更新所述发起交易资源节点和所述最优响应共享资源节点的历史行为置信度。由于限定了无线边缘区块链网络中接收到交易请求的可能响应共享资源节点基于交易请求中携带的信息确定是否进行响应,而确定响应后在响应共享资源节点都向发起交易资源节点返回的接受竞争响应时由发起交易资源节点根据各个响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量,以及所述发起交易资源节点的历史行为置信度采用深度强化学习算法确定最优响应共享资源节点,即交易匹配充分考虑了双方的历史行为置信度、双方节点之间信道资源量以及响应共享资源节点的可用计算资源,使得交易匹配更合理,在考虑了历史行为置信度的情况下,可以保证匹配上的交易成功完成概率,交易过程中交易系统根据交易占用计算资源更新所述最优响应共享资源节点的可用计算资源量,交易完成后还根据交易结果更新所述发起交易资源节点和所述最优响应共享资源节点的历史行为置信度,实现及时更新交易匹配需要考虑的数据。因此,本发明提供的共享资源节点,实现了充分考虑影响交易过程和收益的因素,使得交易匹配更合理,交易更容易成功完成。
在上述实施例的基础上,本发明提供一种新型无线边缘区块链场景中计算资源共享服务的流程,图7为本发明提供的新型无线边缘区块链场景中计算资源共享服务的流程示例图,如图7所示,B-UE0为计算资源共享请求节点,B-UE4为计算资源共享提供节点,B-UE8和B-AP1代表新型无线边缘区块链网络中的其余节点。
首先,B-UE0发起计算资源共享请求并生成交易T1,向网络中发布自己的身份信息(供网络中的其他节点验证自己身份的真实性)、交易T1信息、自身的历史行为置信度(Class.Crdt)、自身信道质量测量参数(Test.Chan)。随后,网络中其他节点接收到来自B-UE0的交易消息后,验证B-UE0身份信息并根据B-UE0的Test.Chan测得实际两节点间的信道质量参数Class.Chan,配合B-UE0的Class.Crdt及自身的可用计算资源量Class.Comp决定是否接受交易T1
其中,网络中其它节点选择是否接受B-UE0的交易时,可以采用最基本的贪婪算法,即,在自身资源能够满足条件的情况下,对任何一个交易都接受,此外可以采用一类智能算法,深度强化学习算法来根据当前动态变化的情景需要做出最佳的是否接受交易的决策。以系统状态为输入,其中充分考虑交易发起者B-UE0的Class.Crdt、根据B-UE0给出的Test.Chan测得信道质量Class.Chan、交易相关信息(交易量大小、交易时延限制等)以及节点自身的Class.Comp,而策略网络的输出则为决策。选择策略梯度下降算法来训练策略网络。在训练阶段,以整体的优化目标函数作为策略网络的训练依据,例如以尽量少的资源成本完成更多的交易以及服务为目标时,奖励值为交易成功时的交易收益(交易失败时则无收益)减去计算及信道资源成本以及时延消耗。PG网络通过输入的环境状态及奖励反馈输出当前的最佳决策(B-UE4或B-UE8或B-AP1是否应当接受B-UE0的交易),而后作用到环境中,环境状态进行更新而后提取关键信息并根据优化目标计算出奖励值,随后继续将更新后的环境状态信息及奖励反馈输入到PG网络中,从而更新网络决策能力。当策略网络训练结束后,可直接将网络应用到实际中,直接提取网络信息而后经过网络决策处理得到最佳决策,为每个节点决策是否接受B-UE0的交易。
在训练网络的阶段,资源提供者通过多次迭代对多个交易到达序列的多次仿真来更新网络参数θ从而提升网络决策能力。首先,策略网络以实时的环境状态为输入,输出每一调度动作的概率值,而后以轮盘赌的方式选择出调度动作(当动作概率越大时,其被选中的概率越大),故而策略网络可以通过πθ来表示。随后,策略网络依据环境反馈的奖励值以及环境状态变化来更新自身网络参数θ,从而提升策略网络πθ。其中涉及输入策略网络的状态空间定义、策略网络输出的动作空间定义,以及每一时隙中环境反馈的奖励值rt
第二状态空间矩阵ss通过如下公式表示:
ss=[sspb,sspc,ssr,sso,ssu]T×U
Figure BDA0002800573760000481
Figure BDA0002800573760000482
其中,sspb表示所述有效接收共享资源节点与所述发起交易资源节点之间信道的质量参数,Lb表示所述有效接收共享资源节点每一时隙内所拥有的所有信道资源块,T表示时隙总数,
Figure BDA0002800573760000483
的数值取1表示在第m个时隙内第n个信道资源块已经被占用,
Figure BDA0002800573760000484
的数值取0表示在第m个时隙内第n个信道资源块未被占用,sspc表示所述有效接收共享资源节点自身可用计算资源量,Lc表示所述有效接收共享资源节点每一时隙内所拥有的所有计算资源块,
Figure BDA0002800573760000485
的数值取1表示在第m个时隙内第n个计算资源块已经被占用,
Figure BDA0002800573760000486
的数值取0表示在第m个时隙内第n个计算资源块未被占用,ssr表示观察有效接收共享资源节点正在匹配的其他交易中的前Nr个交易的具体信息,
Figure BDA0002800573760000498
表示第
Figure BDA0002800573760000499
个正在进行的交易的第
Figure BDA00028005737600004910
个信息参数值,当
Figure BDA00028005737600004911
时,其指示发起交易资源节点的历史行为置信度参数,当
Figure BDA00028005737600004912
时,其指示该交易成功完成后的收益,sso表示可观察到具体交易信息的前No个交易的信息形成的列向量,所述列向量中任一元素bbi为维度为Lb+Lc+2的行向量,当n∈[1,Lb]时,
Figure BDA0002800573760000491
表示第i个交易在其发起交易资源节点与所述有效接收共享资源节点自身之间的信道状态下需要占用第n个信道资源块,否则,不占用,当n∈[Lb+1,Lc]时,
Figure BDA0002800573760000492
表示第i个交易需要占用所述有效接收共享资源节点自身第n-Lb个计算资源块,否则,不占用,当n=Lb+Lc+1时,
Figure BDA0002800573760000493
表示第i个交易的收益,当n=Lb+Lc+2时,
Figure BDA0002800573760000494
表示第i个交易的发起交易资源节点的历史行为置信度,ssu表示不可观察到具体交易信息的前Nu个交易,
Figure BDA0002800573760000495
表示第
Figure BDA00028005737600004913
个交易的第
Figure BDA00028005737600004914
个信息参数值,当
Figure BDA00028005737600004915
时,第
Figure BDA00028005737600004916
个信息参数为其交易的到达时间,当
Figure BDA00028005737600004917
时,第
Figure BDA00028005737600004918
个信息参数为其交易的成功完成后的收益,当
Figure BDA00028005737600004919
时,第
Figure BDA00028005737600004920
个信息参数为其交易的完成耗时;
对应地,所述用于基于梯度下降算法调整所述第二决策网络中的待调参数的第二反馈奖励函数包括共享匹配收益项、匹配后提供服务资费成本、占用信道资源成本和耗时成本,具体包括:
基于梯度下降算法调整所述第二决策网络中的待调参数的每一时隙t中环境反馈的第二反馈奖励函数rrt通过如下公式表示:
Figure BDA0002800573760000496
其中,J1(t)表示已经开始处理、未处理完成且能够成功完成的交易集合,Pj表示交易的收益值,
Figure BDA0002800573760000497
和tj,b分别表示实际所需传输时延和交易最初所期望传输时延,tj,c表示交易所需的计算处理耗时,J2(t)表示所述有效接收共享资源节点已接受且已到达但未开始处理的交易集合,Eb和Eb分别表示每个信道资源块成本和每个计算资源块成本,N(·)为计数函数。
对于动作空间来说,定义为
Figure BDA0002800573760000501
由于No确定,所以动作空间确定,即选择接受当前时隙可观察到的前No个交易中的任意一个或是不接受任何交易。
在训练策略网络之初,首先生成Ntask=50组交易序列,每一次策略网络迭代训练时,需要对Ntask=50组交易序列进行Nepi=5次情节仿真,从而达到对系统一般状态的模拟与仿真。对于一组交易序列的一次仿真的具体流程如下:首先初始化策略网络参数,当仿真时隙小于最大仿真时隙TM时,重复依据当前环境状态提取状态视图sst矩阵输入策略网络,根据输出做出动作选择aat,而后得到更新后的环境状态,即环境视图s't矩阵,并计算得到时隙奖励rrt,随后将ss't作为策略网络的输入,再次得到提供者依据当前策略网络应做出的下一时隙的决策动作aa't,如此往复直至最大仿真时隙,从而得到策略网络的一组训练数据{sst,aat,rrt}。
在每次迭代后,即完成一次对多组交易序列进行多组仿真后,进行网络参数θ’的训练及更新,依据REINFORCE with baseline方法,网络参数θ’的更新量为
Figure BDA0002800573760000502
其中LM为统一后的最大仿真时隙数,I为总情节仿真次数Ntask×Nepi=250,其中
Figure BDA0002800573760000503
则为基底平均值,减去其以加快策略网络的训练速度。经过多次迭代后,策略网络参数被不断更新,从而能够根据环境状态的实时变化做出更好的决策。
此后,确定了B-AP1及B-UE4均决定接受并竞争交易T1,将自身的Class.Crdt、Class.Comp及经过测量得到的Class.Chan发送给B-UE0。B-UE0对B-AP1及B-UE4的身份进行验证后选择B-UE4作为最合适且恰当的资源共享节点,并将交易T1相关的数据信息发送给B-UE4,同时自己的账户中扣除了相应的资源共享费用。
其中,B-UE0在选择B-UE4或B-AP1在接受交易时,同样可以采用最基本的贪婪算法,采用DRL来根据当前动态变化的情景需要做出选出最佳的响应共享资源节的决策,其策略网络迭代训练过程如图2所示。以实时的系统环境状态为输入,充分考虑交易资源提供者(即响应共享资源节点)B-UE04、B-AP1的历史行为置信度、信道质量参数、可用计算资源量,而策略网络的输出则为每一调度动作的概率值。在此步的训练阶段,以整体的优化目标函数作为策略网络的训练依据,例如以尽量少的交易资费(支付给交易资源提供者的资费)和资源成本完成更多的交易以及服务为目标,如图2所示,奖励值为交易成功时的交易收益(交易失败时则无收益)减去交易资费、信道资源成本以及时延消耗。从而,可以对策略网络训练中的具体量s、a、rt进行设计及定义。
在训练网络的阶段,资源提供者通过多次迭代对多个交易到达序列的多次仿真来更新网络参数θ从而提升网络决策能力。首先,策略网络以实时的环境状态为输入,输出每一调度动作的概率值,而后以轮盘赌的方式选择出调度动作(当动作概率越大时,其被选中的概率越大),故而策略网络可以通过πθ来表示。随后,策略网络依据环境反馈的奖励值以及环境状态变化来更新自身网络参数θ,从而提升策略网络πθ。其中涉及输入策略网络的状态空间定义、策略网络输出的动作空间定义,以及每一时隙中环境反馈的奖励值rt
第一状态空间矩阵s通过如下公式表示:
s=[sp,sr,so,su]T×U
Figure BDA0002800573760000512
Figure BDA0002800573760000511
Figure BDA0002800573760000521
Figure BDA0002800573760000522
其中,sp表示可观察到的NP个响应共享资源节点各自的信道质量参数和可用计算资源量,si表示可观察到的第i个响应共享资源节点自身的信道质量参数和可用计算资源量,当n∈[1,Lb]时,
Figure BDA0002800573760000529
表示在第m个时隙内第i个响应共享资源节点的第n个信道资源块已被占用,
Figure BDA0002800573760000523
表示在第m个时隙内第i个响应共享资源节点的第n个信道资源块未被占用,当n∈[Lb+1,Lc]时,
Figure BDA0002800573760000524
表示在第m时隙内第i个响应共享资源节点的第n-Lb个计算资源块已被占用,
Figure BDA0002800573760000525
表示在第m时隙内第i个响应共享资源节点的第n-Lb个计算资源块未被占用,Lb表示所述响应共享资源节点每一时隙内所拥有的所有信道资源块,Lc表示所述响应共享资源节点每一时隙内所拥有的所有计算资源块,sr表示当前可观察到的NP个响应共享资源节点正在进行的交易中的前Nr个交易的具体信息,
Figure BDA0002800573760000526
表示第
Figure BDA00028005737600005210
个正在进行的交易的第
Figure BDA00028005737600005211
个信息参数值,当
Figure BDA00028005737600005212
时,其指示该交易的资源提供节点的ID,当
Figure BDA00028005737600005213
时,其指示该交易的资源提供节点的历史行为置信度,当
Figure BDA00028005737600005214
时,其指示该交易成功完成后其交易发起资源节点的收益,当
Figure BDA00028005737600005215
时,其指示该交易成功完成后其交易发起资源节点向其资源提供节点支付的服务费用,so表示可观察到所述发起交易资源节点的具体任务信息的前No个交易的信息形成的列向量,所述列向量中任一元素bi为维度为NpLb+Lc+1的行向量,当n∈[1,NPLb]时,
Figure BDA0002800573760000527
表示第i个交易在其发起交易资源节点与其所有所述有效接收共享资源节点自身之间的信道状态下需要占用第n个信道资源块,
Figure BDA0002800573760000528
表示第i个交易在其发起交易资源节点与其所有响应共享资源节点中第
Figure BDA00028005737600005216
个响应共享资源节点之间的信道状态下需要占用其第
Figure BDA00028005737600005217
个信道资源块,
Figure BDA0002800573760000531
表示第i个交易在其发起交易资源节点与其所有响应共享资源节点中第
Figure BDA0002800573760000538
个响应共享资源节点之间的信道状态下不需要占用其第
Figure BDA0002800573760000539
个信道资源块,当n=NPLb+Lc+1时,
Figure BDA0002800573760000532
表示第i个交易的收益,su表示不可观察到具体交易信息的前Nu个交易,
Figure BDA0002800573760000533
表示第
Figure BDA00028005737600005310
个交易的第
Figure BDA00028005737600005311
个信息参数值,当
Figure BDA00028005737600005312
时,第
Figure BDA00028005737600005313
个信息参数为其交易的到达时间,当
Figure BDA00028005737600005314
时,第
Figure BDA00028005737600005315
个信息参数为其交易的成功完成后的收益,当
Figure BDA00028005737600005316
时,第
Figure BDA00028005737600005317
个信息参数为其交易的完成耗时;
对于动作空间来说,定义为
Figure BDA0002800573760000537
由于NP确定,所以动作空间也能确定,即为当前交易选择接受当前时隙可观察到的NP个响应共享资源节点中的任意一个作为交易对象或是不接受任何一个响应共享资源节点作为交易对象。
对于每一时隙中环境反馈的奖励值rt可以根据图2中的奖励来按时隙分解后得到,
Figure BDA0002800573760000534
,图2中的R与rt之间的关系同样可以表示为
Figure BDA0002800573760000535
其中J1(t)代表已经开始处理、未处理完成且能够成功完成的交易集,pj代表交易成功完成后请求者可获得的奖励值,qj代表交易请求者需要支付给提供者的服务资费,
Figure BDA0002800573760000536
和tj,b分别代表实际所需以及交易最初所期望的传输时延(信道质量会导致传输时延与预计传输时延之间的差异),tj,c代表交易所需的计算处理时延,J2(t)代表已经开始处理、未处理完成且已经超时,即无法成功完成的交易集,J3(t)代表已经生成但尚未开始处理的交易集。
交易发起资源节点选择最优的响应共享资源节点的决策的第一决策网络训练过程如图2所示。每一次迭代训练时,需要进行多次情节仿真,得到策略网络的一组训练数据{st,at,rt},据此对网络参数θ进行训练及更新,可以依据REINFORCE with baseline方法,θ的更新量为
Figure BDA0002800573760000541
其中
Figure BDA0002800573760000542
为基底平均值。经过多次迭代后,策略网络参数被不断更新,从而能够根据环境状态的实时变化做出更好的决策。
当第一策略网络训练结束后,可直接将网络应用到实际中,直接提取网络信息而后经过网络决策处理得到最佳决策,为交易发起资源节点B-UE0决策最优的响应共享资源节点作为交易对象来接受自己的交易。
图8示例了一种电子设备的实体结构示意图,如图8所示,该电子设备可以包括:处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令,以执行无线边缘区块链场景中的资源节点间交易匹配方法,该方法包括:向所在无线边缘区块链网络中广播交易请求,所述交易请求包括发起交易资源节点的身份信息、历史行为置信度和信道质量测量参数;接收所述无线边缘区块链网络中各个响应共享资源节点发送的接受竞争响应,所述接受竞争响应包括所述响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量;其中,所述响应共享资源节点为所述无线边缘区块链网络中接收到所述交易请求后基于所述交易请求确定响应所述交易请求的共享资源节点;基于所述各个响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量,以及所述发起交易资源节点的历史行为置信度采用深度强化学习算法确定最优响应共享资源节点;其中,所述最优响应共享资源节点用于和所述发起交易资源节点进行交易,交易过程中交易系统根据交易占用计算资源更新所述最优响应共享资源节点的可用计算资源量,交易完成后所述交易系统根据交易结果更新所述发起交易资源节点和所述最优响应共享资源节点的历史行为置信度。
处理器810还可以调用存储器830中的逻辑指令,以执行另一无线边缘区块链场景中的资源节点间交易匹配方法,该方法包括:接收在无线边缘区块链网络中广播的交易请求,提取所述交易请求中交易发起资源节点的身份信息、信道质量测量参数和历史行为置信度;基于所述信道质量测量参数进行自身共享资源节点信道质量测量确定与所述发起交易资源节点之间信道的质量参数;基于所述发起交易资源节点的身份信息、所述自身共享资源节点可用计算资源量、所述信道的质量参数、自身共享资源节点正在匹配的其他交易的信息采用深度强化学习算法确定是否响应所述交易请求;若确定响应,则向所述发起交易资源节点发送接受竞争响应,所述接受竞争响应包括所述响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量;其中,所述接受竞争响应用于所述发起交易资源节点接收后基于各个接受竞争响应确定最优响应共享资源节点,所述最优响应共享资源节点用于和所述发起交易资源节点进行交易,交易过程中交易系统根据交易占用计算资源更新所述最优响应共享资源节点的可用计算资源量,交易完成后所述交易系统根据交易结果更新所述发起交易资源节点和所述最优响应共享资源节点的历史行为置信度。
此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的无线边缘区块链场景中的资源节点间交易匹配方法,该方法包括:向所在无线边缘区块链网络中广播交易请求,所述交易请求包括发起交易资源节点的身份信息、历史行为置信度和信道质量测量参数;接收所述无线边缘区块链网络中各个响应共享资源节点发送的接受竞争响应,所述接受竞争响应包括所述响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量;其中,所述响应共享资源节点为所述无线边缘区块链网络中接收到所述交易请求后基于所述交易请求确定响应所述交易请求的共享资源节点;基于所述各个响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量,以及所述发起交易资源节点的历史行为置信度采用深度强化学习算法确定最优响应共享资源节点;其中,所述最优响应共享资源节点用于和所述发起交易资源节点进行交易,交易过程中交易系统根据交易占用计算资源更新所述最优响应共享资源节点的可用计算资源量,交易完成后所述交易系统根据交易结果更新所述发起交易资源节点和所述最优响应共享资源节点的历史行为置信度。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的另一无线边缘区块链场景中的资源节点间交易匹配方法,该方法包括:接收在无线边缘区块链网络中广播的交易请求,提取所述交易请求中交易发起资源节点的身份信息、信道质量测量参数和历史行为置信度;基于所述信道质量测量参数进行自身共享资源节点信道质量测量确定与所述发起交易资源节点之间信道的质量参数;基于所述发起交易资源节点的身份信息、所述自身共享资源节点可用计算资源量、所述信道的质量参数、自身共享资源节点正在匹配的其他交易的信息采用深度强化学习算法确定是否响应所述交易请求;若确定响应,则向所述发起交易资源节点发送接受竞争响应,所述接受竞争响应包括所述响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量;其中,所述接受竞争响应用于所述发起交易资源节点接收后基于各个接受竞争响应确定最优响应共享资源节点,所述最优响应共享资源节点用于和所述发起交易资源节点进行交易,交易过程中交易系统根据交易占用计算资源更新所述最优响应共享资源节点的可用计算资源量,交易完成后所述交易系统根据交易结果更新所述发起交易资源节点和所述最优响应共享资源节点的历史行为置信度。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的无线边缘区块链场景中的资源节点间交易匹配方法,该方法包括:向所在无线边缘区块链网络中广播交易请求,所述交易请求包括发起交易资源节点的身份信息、历史行为置信度和信道质量测量参数;接收所述无线边缘区块链网络中各个响应共享资源节点发送的接受竞争响应,所述接受竞争响应包括所述响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量;其中,所述响应共享资源节点为所述无线边缘区块链网络中接收到所述交易请求后基于所述交易请求确定响应所述交易请求的共享资源节点;基于所述各个响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量,以及所述发起交易资源节点的历史行为置信度采用深度强化学习算法确定最优响应共享资源节点;其中,所述最优响应共享资源节点用于和所述发起交易资源节点进行交易,交易过程中交易系统根据交易占用计算资源更新所述最优响应共享资源节点的可用计算资源量,交易完成后所述交易系统根据交易结果更新所述发起交易资源节点和所述最优响应共享资源节点的历史行为置信度。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的另一另一无线边缘区块链场景中的资源节点间交易匹配方法,该方法包括:接收在无线边缘区块链网络中广播的交易请求,提取所述交易请求中交易发起资源节点的身份信息、信道质量测量参数和历史行为置信度;基于所述信道质量测量参数进行自身共享资源节点信道质量测量确定与所述发起交易资源节点之间信道的质量参数;基于所述发起交易资源节点的身份信息、所述自身共享资源节点可用计算资源量、所述信道的质量参数、自身共享资源节点正在匹配的其他交易的信息采用深度强化学习算法确定是否响应所述交易请求;若确定响应,则向所述发起交易资源节点发送接受竞争响应,所述接受竞争响应包括所述响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量;其中,所述接受竞争响应用于所述发起交易资源节点接收后基于各个接受竞争响应确定最优响应共享资源节点,所述最优响应共享资源节点用于和所述发起交易资源节点进行交易,交易过程中交易系统根据交易占用计算资源更新所述最优响应共享资源节点的可用计算资源量,交易完成后所述交易系统根据交易结果更新所述发起交易资源节点和所述最优响应共享资源节点的历史行为置信度。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种无线边缘区块链场景中的资源节点间交易匹配方法,其特征在于,包括:
向所在无线边缘区块链网络中广播交易请求,所述交易请求包括发起交易资源节点的身份信息、历史行为置信度和信道质量测量参数;
接收所述无线边缘区块链网络中各个响应共享资源节点发送的接受竞争响应,所述接受竞争响应包括所述响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量;其中,所述响应共享资源节点为所述无线边缘区块链网络中接收到所述交易请求后基于所述交易请求确定响应所述交易请求的共享资源节点;
基于所述各个响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量,以及所述发起交易资源节点的历史行为置信度采用深度强化学习算法确定最优响应共享资源节点;其中,所述最优响应共享资源节点用于和所述发起交易资源节点进行交易,交易过程中交易系统根据交易占用计算资源更新所述最优响应共享资源节点的可用计算资源量,交易完成后所述交易系统根据交易结果更新所述发起交易资源节点和所述最优响应共享资源节点的历史行为置信度。
2.根据权利要求1所述的无线边缘区块链场景中的资源节点间交易匹配方法,其特征在于,所述基于所述各个响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量,以及所述发起交易资源节点的历史行为置信度采用深度强化学习算法确定最优响应共享资源节点,具体包括:
基于所述各个响应共享资源节点的身份信息进行身份验证,确定验证通过的响应共享资源节点为有效响应共享资源节点;
基于所述发起交易资源节点的历史行为置信度、所述各个响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量构建第一状态空间矩阵;
基于深度强化学习算法训练过程中的第一决策网络输入所述第一状态空间矩阵后每轮循环迭代训练输出的预测任一所述有效接收共享资源节点是否确定响应结果构建第一动作集合;
用于调整所述第一决策网络中的待调参数的第一反馈奖励函数包括共享匹配收益项、匹配后提供服务资费成本、占用信道资源成本和耗时成本。
3.根据权利要求2所述的无线边缘区块链场景中的资源节点间交易匹配方法,其特征在于,所述基于所述发起交易资源节点的历史行为置信度、所述各个响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量构建第一状态空间矩阵,具体包括:
第一状态空间矩阵s通过如下公式表示:
s=[sp,sr,so,su]T×U
Figure FDA0002800573750000021
Figure FDA0002800573750000022
Figure FDA0002800573750000023
Figure FDA0002800573750000024
其中,sp表示可观察到的NP个响应共享资源节点各自的信道质量参数和可用计算资源量,si表示可观察到的第i个响应共享资源节点自身的信道质量参数和可用计算资源量,当n∈[1,Lb]时,
Figure FDA0002800573750000025
表示在第m个时隙内第i个响应共享资源节点的第n个信道资源块已被占用,
Figure FDA0002800573750000026
表示在第m个时隙内第i个响应共享资源节点的第n个信道资源块未被占用,当n∈[Lb+1,Lc]时,
Figure FDA0002800573750000027
表示在第m时隙内第i个响应共享资源节点的第n-Lb个计算资源块已被占用,
Figure FDA0002800573750000028
表示在第m时隙内第i个响应共享资源节点的第n-Lb个计算资源块未被占用,Lb表示所述响应共享资源节点每一时隙内所拥有的所有信道资源块,Lc表示所述响应共享资源节点每一时隙内所拥有的所有计算资源块,sr表示当前可观察到的NP个响应共享资源节点正在进行的交易中的前Nr个交易的具体信息,
Figure FDA0002800573750000031
表示第
Figure FDA0002800573750000032
个正在进行的交易的第
Figure FDA0002800573750000033
个信息参数值,当
Figure FDA0002800573750000034
时,其指示该交易的资源提供节点的ID,当
Figure FDA0002800573750000035
时,其指示该交易的资源提供节点的历史行为置信度,当
Figure FDA0002800573750000036
时,其指示该交易成功完成后其交易发起资源节点的收益,当
Figure FDA0002800573750000037
时,其指示该交易成功完成后其交易发起资源节点向其资源提供节点支付的服务费用,so表示可观察到所述发起交易资源节点的具体任务信息的前No个交易的信息形成的列向量,所述列向量中任一元素bi为维度为NpLb+Lc+1的行向量,当n∈[1,NPLb]时,
Figure FDA0002800573750000038
表示第i个交易在其发起交易资源节点与其所有所述有效接收共享资源节点自身之间的信道状态下需要占用第n个信道资源块,
Figure FDA0002800573750000039
表示第i个交易在其发起交易资源节点与其所有响应共享资源节点中第
Figure FDA00028005737500000310
个响应共享资源节点之间的信道状态下需要占用其第
Figure FDA00028005737500000311
个信道资源块,
Figure FDA00028005737500000312
表示第i个交易在其发起交易资源节点与其所有响应共享资源节点中第
Figure FDA00028005737500000313
个响应共享资源节点之间的信道状态下不需要占用其第
Figure FDA00028005737500000314
个信道资源块,当n=NPLb+Lc+1时,
Figure FDA00028005737500000315
表示第i个交易的收益,su表示不可观察到具体交易信息的前Nu个交易,
Figure FDA00028005737500000316
表示第
Figure FDA00028005737500000317
个交易的第
Figure FDA00028005737500000318
个信息参数值,当
Figure FDA00028005737500000319
时,第
Figure FDA00028005737500000320
个信息参数为其交易的到达时间,当
Figure FDA00028005737500000321
时,第
Figure FDA00028005737500000322
个信息参数为其交易的成功完成后的收益,当
Figure FDA00028005737500000323
时,第
Figure FDA00028005737500000324
个信息参数为其交易的完成耗时;
对应地,所述用于调整所述第一决策网络中的待调参数的第一反馈奖励函数包括共享匹配收益项、匹配后提供服务资费成本、占用信道资源成本和耗时成本,具体包括:
基于梯度下降算法调整所述第一决策网络中的待调参数的每一时隙t中环境反馈的第一反馈奖励函数rt通过如下公式表示:
Figure FDA0002800573750000041
其中,J1(t)表示已经开始处理、未处理完成且能够成功完成的交易集合,Pj表示交易的收益值,qj表示所述交易发起资源节点支付给响应共享资源节点的服务资费,
Figure FDA0002800573750000042
和tj,b分别表示交易实际所需的传输时延和交易最初所期望的传输时延,tj,c表示交易所需的计算处理耗时,J2(t)代表无法成功完成的交易集,J3(t)表示所述发起交易资源节点已接受且已到达但未开始处理的交易集合。
4.根据权利要求1-3中任一项所述的无线边缘区块链场景中的资源节点间交易匹配方法,其特征在于,所述无线边缘区块链网络中接收到所述交易请求的共享资源节点基于所述交易请求确定响应所述交易请求的过程,具体包括:
所述无线边缘区块链网络中接收到所述交易请求的任一接收共享资源节点提取所述交易请求中的信道质量测量参数,基于所述信道质量测量参数进行信道质量测量确定所述任一共享资源节点与所述发起交易资源节点之间信道的质量参数;
所述任一接收共享资源节点基于所述发起交易资源节点的身份信息、自身可用计算资源量、其与所述发起交易资源节点之间信道的质量参数、正在匹配的其他交易的信息采用深度强化学习算法确定是否响应所述交易请求。
5.根据权利要求4所述的无线边缘区块链场景中的资源节点间交易匹配方法,其特征在于,所述任一接收共享资源节点基于所述发起交易资源节点的身份信息、自身可用计算资源量、其与所述发起交易资源节点之间信道的质量参数、其正在匹配的其他交易的信息采用深度强化学习算法确定是否响应所述交易请求,具体包括:
所述任一接收共享资源节点基于所述发起交易资源节点的身份信息进行身份验证,确定验证通过的所述任一接收共享资源节点为有效接收共享资源节点;
所述有效接收共享资源节点基于自身可用计算资源量、其与所述发起交易资源节点之间信道的质量参数和其正在匹配的其他交易的信息构建第二状态空间矩阵;
基于深度强化学习算法训练过程中的第二决策网络输入所述第二状态空间矩阵后每轮循环迭代训练输出的预测任一所述有效接收共享资源节点是否确定响应结果构建第二动作集合;
用于基于梯度下降算法调整所述第二决策网络中的待调参数的第二反馈奖励函数包括共享匹配收益项、匹配后提供服务资费成本、占用信道资源成本和耗时成本。
6.根据权利要求5所述的无线边缘区块链场景中的资源节点间交易匹配方法,所述有效接收共享资源节点基于自身可用计算资源量、其与所述发起交易资源节点之间信道的质量参数和其正在匹配的其他交易的信息构建第二状态空间矩阵,具体包括:
第二状态空间矩阵ss通过如下公式表示:
ss=[sspb,sspc,ssr,sso,ssu]T×U
Figure FDA0002800573750000051
Figure FDA0002800573750000052
其中,sspb表示所述有效接收共享资源节点与所述发起交易资源节点之间信道的质量参数,Lb表示所述有效接收共享资源节点每一时隙内所拥有的所有信道资源块,T表示时隙总数,
Figure FDA0002800573750000053
的数值取1表示在第m个时隙内第n个信道资源块已经被占用,
Figure FDA0002800573750000054
的数值取0表示在第m个时隙内第n个信道资源块未被占用,sspc表示所述有效接收共享资源节点自身可用计算资源量,Lc表示所述有效接收共享资源节点每一时隙内所拥有的所有计算资源块,
Figure FDA0002800573750000061
的数值取1表示在第m个时隙内第n个计算资源块已经被占用,
Figure FDA0002800573750000062
的数值取0表示在第m个时隙内第n个计算资源块未被占用,ssr表示观察有效接收共享资源节点正在匹配的其他交易中的前Nr个交易的具体信息,
Figure FDA0002800573750000063
表示第
Figure FDA0002800573750000064
个正在进行的交易的第
Figure FDA0002800573750000065
个信息参数值,当
Figure FDA0002800573750000066
时,其指示发起交易资源节点的历史行为置信度参数,当
Figure FDA0002800573750000067
时,其指示该交易成功完成后的收益,sso表示可观察到具体交易信息的前No个交易的信息形成的列向量,所述列向量中任一元素bbi为维度为Lb+Lc+2的行向量,当n∈[1,Lb]时,
Figure FDA00028005737500000620
表示第i个交易在其发起交易资源节点与所述有效接收共享资源节点自身之间的信道状态下需要占用第n个信道资源块,否则,不占用,当n∈[Lb+1,Lc]时,
Figure FDA0002800573750000068
表示第i个交易需要占用所述有效接收共享资源节点自身第n-Lb个计算资源块,否则,不占用,当n=Lb+Lc+1时,
Figure FDA0002800573750000069
表示第i个交易的收益,当n=Lb+Lc+2时,
Figure FDA00028005737500000610
表示第i个交易的发起交易资源节点的历史行为置信度,ssu表示不可观察到具体交易信息的前Nu个交易,
Figure FDA00028005737500000611
表示第
Figure FDA00028005737500000612
个交易的第
Figure FDA00028005737500000613
个信息参数值,当
Figure FDA00028005737500000614
时,第
Figure FDA00028005737500000615
个信息参数为其交易的到达时间,当
Figure FDA00028005737500000616
时,第
Figure FDA00028005737500000617
个信息参数为其交易的成功完成后的收益,当
Figure FDA00028005737500000618
时,第
Figure FDA00028005737500000619
个信息参数为其交易的完成耗时;
对应地,所述用于基于梯度下降算法调整所述第二决策网络中的待调参数的第二反馈奖励函数包括共享匹配收益项、匹配后提供服务资费成本、占用信道资源成本和耗时成本,具体包括:
基于梯度下降算法调整所述第二决策网络中的待调参数的每一时隙t中环境反馈的第二反馈奖励函数rrt通过如下公式表示:
Figure FDA0002800573750000071
其中,J1(t)表示已经开始处理、未处理完成且能够成功完成的交易集合,Pj表示交易的收益值,
Figure FDA0002800573750000072
和tj,b分别表示实际所需传输时延和交易最初所期望传输时延,tj,c表示交易所需的计算处理耗时,J2(t)表示所述有效接收共享资源节点已接受且已到达但未开始处理的交易集合,Eb和Eb分别表示每个信道资源块成本和每个计算资源块成本,N(·)为计数函数。
7.一种无线边缘区块链场景中的资源节点间交易匹配方法,其特征在于,包括:
接收在无线边缘区块链网络中广播的交易请求,提取所述交易请求中交易发起资源节点的身份信息、信道质量测量参数和历史行为置信度;
基于所述信道质量测量参数进行自身共享资源节点信道质量测量确定与所述发起交易资源节点之间信道的质量参数;
基于所述发起交易资源节点的身份信息、所述自身共享资源节点可用计算资源量、所述信道的质量参数、自身共享资源节点正在匹配的其他交易的信息采用深度强化学习算法确定是否响应所述交易请求;
若确定响应,则向所述发起交易资源节点发送接受竞争响应,所述接受竞争响应包括所述响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量;其中,所述接受竞争响应用于所述发起交易资源节点接收后基于各个接受竞争响应确定最优响应共享资源节点,所述最优响应共享资源节点用于和所述发起交易资源节点进行交易,交易过程中交易系统根据交易占用计算资源更新所述最优响应共享资源节点的可用计算资源量,交易完成后所述交易系统根据交易结果更新所述发起交易资源节点和所述最优响应共享资源节点的历史行为置信度。
8.一种发起交易资源节点,其特征在于,包括:
发送单元,用于向所在无线边缘区块链网络中广播交易请求,所述交易请求包括发起交易资源节点的身份信息、历史行为置信度和信道质量测量参数;
接收单元,用于接收所述无线边缘区块链网络中各个响应共享资源节点发送的接受竞争响应,所述接受竞争响应包括所述响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量;
其中,所述响应共享资源节点为所述无线边缘区块链网络中接收到所述交易请求后基于所述交易请求确定响应所述交易请求的共享资源节点;
匹配单元,用于基于所述各个响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量,以及所述发起交易资源节点的历史行为置信度采用深度强化学习算法确定最优响应共享资源节点;
其中,所述最优响应共享资源节点用于和所述发起交易资源节点进行交易,交易过程中交易系统根据交易占用计算资源更新所述最优响应共享资源节点的可用计算资源量,交易完成后所述交易系统根据交易结果更新所述发起交易资源节点和所述最优响应共享资源节点的历史行为置信度。
9.一种共享资源节点,其特征在于,包括:
接收单元,用于接收在无线边缘区块链网络中广播的交易请求,提取所述交易请求中交易发起资源节点的身份信息、信道质量测量参数和历史行为置信度;
测量单元,用于基于所述信道质量测量参数进行自身共享资源节点信道质量测量确定与所述发起交易资源节点之间信道的质量参数;
响应单元,用于基于所述发起交易资源节点的身份信息、所述自身共享资源节点可用计算资源量、所述信道的质量参数、自身共享资源节点正在匹配的其他交易的信息采用深度强化学习算法确定是否响应所述交易请求;
发送单元,用于若确定响应,则向所述发起交易资源节点发送接受竞争响应,所述接受竞争响应包括所述响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量;
其中,所述接受竞争响应用于所述发起交易资源节点接收后基于各个接受竞争响应确定最优响应共享资源节点,所述最优响应共享资源节点用于和所述发起交易资源节点进行交易,交易过程中交易系统根据交易占用计算资源更新所述最优响应共享资源节点的可用计算资源量,交易完成后所述交易系统根据交易结果更新所述发起交易资源节点和所述最优响应共享资源节点的历史行为置信度。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7中任一项所述的无线边缘区块链场景中的资源节点间交易匹配方法的步骤。
CN202011348488.9A 2020-11-26 2020-11-26 无线边缘区块链场景中的资源节点间交易匹配方法 Active CN112511619B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011348488.9A CN112511619B (zh) 2020-11-26 2020-11-26 无线边缘区块链场景中的资源节点间交易匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011348488.9A CN112511619B (zh) 2020-11-26 2020-11-26 无线边缘区块链场景中的资源节点间交易匹配方法

Publications (2)

Publication Number Publication Date
CN112511619A CN112511619A (zh) 2021-03-16
CN112511619B true CN112511619B (zh) 2022-11-18

Family

ID=74966309

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011348488.9A Active CN112511619B (zh) 2020-11-26 2020-11-26 无线边缘区块链场景中的资源节点间交易匹配方法

Country Status (1)

Country Link
CN (1) CN112511619B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113645702B (zh) * 2021-07-30 2022-06-03 同济大学 一种利用策略梯度技术优化的支持区块链的物联网系统
CN113627996B (zh) * 2021-09-17 2023-10-31 黑龙江粮食交易市场股份有限公司 一种交易资源量预测方法、装置、计算机设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108055119A (zh) * 2017-12-11 2018-05-18 北方工业大学 一种群智感知应用中基于区块链的安全激励方法和系统
CN109934662A (zh) * 2018-11-30 2019-06-25 阿里巴巴集团控股有限公司 基于区块链的共享资源租赁方法、装置和计算机设备
CN109964446A (zh) * 2018-06-08 2019-07-02 北京大学深圳研究生院 一种基于投票的共识方法
CN110417872A (zh) * 2019-07-08 2019-11-05 深圳供电局有限公司 一种面向移动区块链的边缘网络资源分配方法
CN111107506A (zh) * 2020-01-02 2020-05-05 南京邮电大学 一种基于区块链和竞拍博弈的网络资源安全共享方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190070163A (ko) * 2017-12-12 2019-06-20 엔에이치엔 주식회사 네트워크를 통해 서로 통신하는 노드들 각각의 자원 운영 방법, 그리고 그러한 노드들 중 어느 하나로 동작하는 컴퓨터 장치

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108055119A (zh) * 2017-12-11 2018-05-18 北方工业大学 一种群智感知应用中基于区块链的安全激励方法和系统
CN109964446A (zh) * 2018-06-08 2019-07-02 北京大学深圳研究生院 一种基于投票的共识方法
CN109934662A (zh) * 2018-11-30 2019-06-25 阿里巴巴集团控股有限公司 基于区块链的共享资源租赁方法、装置和计算机设备
CN110417872A (zh) * 2019-07-08 2019-11-05 深圳供电局有限公司 一种面向移动区块链的边缘网络资源分配方法
CN111107506A (zh) * 2020-01-02 2020-05-05 南京邮电大学 一种基于区块链和竞拍博弈的网络资源安全共享方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
DPoC: Distributed Proof of Correctness for Blockchain in the Internet of Things;Hang Yu等;《2020 IEEE International Conference on Advances in Electrical Engineering and Computer Applications( AEECA)》;20201006;全文 *
基于多路径传输的动态负载均衡路由算法;吴文君等;《北京工业大学学报》;20190430;全文 *
基于机器学习的区块链智能合约脚本设计;张延华等;《情报工程》;20190815(第04期);全文 *

Also Published As

Publication number Publication date
CN112511619A (zh) 2021-03-16

Similar Documents

Publication Publication Date Title
Jiao et al. Toward an automated auction framework for wireless federated learning services market
CN108055119B (zh) 一种群智感知应用中基于区块链的安全激励方法和系统
CN110417872B (zh) 一种面向移动区块链的边缘网络资源分配方法
Asheralieva et al. Learning-based mobile edge computing resource management to support public blockchain networks
CN112511619B (zh) 无线边缘区块链场景中的资源节点间交易匹配方法
CN111629380B (zh) 面向高并发多业务工业5g网络的动态资源分配方法
Boateng et al. Consortium blockchain-based spectrum trading for network slicing in 5G RAN: A multi-agent deep reinforcement learning approach
CN111064633A (zh) 一种云边协同电力信息通信设备自动化测试资源分配方法
CN114585006B (zh) 基于深度学习的边缘计算任务卸载和资源分配方法
CN109067583A (zh) 一种基于边缘计算的资源预测方法及系统
Besharati et al. An incentive-compatible offloading mechanism in fog-cloud environments using second-price sealed-bid auction
CN110650032A (zh) 一种构建多云环境下基于QoS的应用优化部署方案的方法
Xiao et al. Incentive mechanism design for federated learning: A two-stage stackelberg game approach
CN113015219B (zh) 基于策略梯度的网络资源选择方法、装置以及存储介质
Ye et al. Incentivizing semisupervised vehicular federated learning: A multidimensional contract approach with bounded rationality
CN113298668B (zh) 考虑社交网络的移动群智感知用户大规模快速招募方法
Fantacci et al. A d2d-aided federated learning scheme with incentive mechanism in 6G networks
Kwantwi et al. Blockchain-based computing resource trading in autonomous multi-access edge network slicing: A dueling double deep q-learning approach
Nguyen et al. Blockchain as a service for multi-access edge computing: A deep reinforcement learning approach
CN116720593A (zh) 基于信誉反向拍卖的联邦学习激励方法、系统和存储介质
CN110599337A (zh) 一种基于群智感知技术的联盟链安全激励方法
CN115202863A (zh) 任务卸载方法、电子设备及存储介质
Zhang et al. Quality-aware user scheduling for federated mobile crowdsensing
CN115481752B (zh) 模型训练方法、装置、电子设备以及存储介质
CN113298524B (zh) 基于质量检测的区块链数据共享系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant