CN112511619B

CN112511619B - 无线边缘区块链场景中的资源节点间交易匹配方法

Info

Publication number: CN112511619B
Application number: CN202011348488.9A
Authority: CN
Inventors: 吴文君; 高杨; 孙德浩; 司鹏搏; 杨兆鑫; 张延华
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2020-11-26
Filing date: 2020-11-26
Publication date: 2022-11-18
Anticipated expiration: 2040-11-26
Also published as: CN112511619A

Abstract

本发明提供一种无线边缘区块链场景中的资源节点间交易匹配方法，包括：向网络中广播交易请求，接收网络中各个响应共享资源节点发送的接受竞争响应，接受竞争响应包括所述响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量；基于上述携带信息以及所述发起交易资源节点的历史行为置信度采用深度强化学习算法确定最优响应共享资源节点；交易过程中更新节点的可用计算资源量，交易完成后根据交易结果更新节点的历史行为置信度。本发明提供的方法，实现了充分考虑影响交易过程和收益的因素，使得交易匹配更合理，交易更容易成功完成。

Description

无线边缘区块链场景中的资源节点间交易匹配方法

技术领域

本发明涉及区块链技术领域，尤其涉及一种无线边缘区块链场景中的资源节点间交易匹配方法。

背景技术

首先，在目前的系统设计中，无线边缘区块链场景中的计算资源共享服务属于新兴场景及业务，面向其的节点服务性能评价方法领域尚无既有研究，但在传统计算共享场景及传统区块链系统中分别有类似的评价方案。

在传统计算共享场景中，如云计算平台，不同运营商提供的服务标准不同，配合广大用户的使用评价，可供其他用户后续使用，其中包括计算能力评价、数据安全评价、用户服务质量评价(QoS，Quality of Service)等。

在传统区块链系统中，尚未有针对于节点之间交易进行匹配过程中采用哪些因素的考量并且如何设定匹配规则作出明确规定。但从惩罚不诚实节点以保障系统整体正常运行的角度而言，目前，以太坊Casper共识中所应用的Slashers机制，是通过在共识机制中引入惩罚措施，从而制约潜在攻击者的利器，通过规定合理的惩罚条件与抵押金额，能够有效增强共识机制抵御各类网络攻击的能力。核心内容在于令参与区块生产的节点(被称为验证者)抵押一定保证金，并规定一系列惩罚条件。当节点出现惩罚条件中所列行动时，抵押保证金将被没收，并收回其验证者权利。惩罚条件通常包括同时在两条链上生产区块、没有在最新高度上生产区块等恶意行为。Slashers机制改变节点在可能出现分叉链时挖与不挖两种行为的预期收益，若节点发动攻击行为挖分叉链，其获得的预期收益将小于其抵押的保证金，则理性节点的选择将是遵守规则，做诚实节点，以此避免潜在攻击行为。

首先，在所提的新型无线边缘区块链场景中的计算资源共享业务中，对于节点交易匹配过程中采用哪些因素的考量并且如何设定匹配规则是具有较高存在意义的。

在无线移动通信领域，节点之间通过无线信道传输。参与场景的节点计算能力有差异，无线信道质量参差不齐。在业务中，节点不仅是维护区块链网络的重要部分，更是区块链交易的买卖双方。传统区块链中涉及的交易双方都是确定的，但在本场景中的交易双方是动态的，通过一定的规则来进行匹配卖家。由于节点既是区块链的维护者，又是交易的参与者，亟需引入新的匹配规则标准来服务交易过程中节点双方的匹配过程，同时对节点潜在的不诚实行为进行约束。

其次，综合现存的相关的传统匹配规则，不论从单纯的无线通信环境而言，还是单纯的区块链系统而言，均不适用于本申请中所提的新型无线边缘区块链场景中的计算资源共享业务。

一是单节点对单节点的应用场景中，节点用户多样，计算交易多样，需要统一的服务性能计算指标。在面向节点间一对一的资源共享业务中，基于广大用户的服务性能计算方式并不现实，全网中的任意具有计算资源的节点均可作为计算资源提供节点，共享资源提供者千差万别，其资源状态、供应能力均有所差异，采用以往计算方法平台的标准来面向用户节点并不恰当。

二是新型场景具有动态变化特点，需要简洁精准体现短期内某节点服务性能的物理参数计算方法。由于单节点内可而被共享的资源相比于运营商及各大平台所提供的计算资源而言，其资源状态的动态变化对实际共享效果的影响较大，故更需要实时动态变化的评估方案。在新型场景中，节点用户多为移动用户、网络接入节点等设备，其计算资源普遍具有小量、广分布、可整合的特点，在短期内其计算资源的占用程度变化较大，会直接影响到计算资源共享业务中其提供服务的质量效果。除此之外，在无线通信环境中，信道质量更具有动态缓慢变化的特性，在进行数据传输环节中会极大影响业务服务质量。因此，在新型无线边缘区块链场景中的计算资源共享业务中，简洁精准的计算某节点某时段服务性能资源数量时候更为急迫需要且更具有应用价值的。

三是新型场景下的计算资源共享业务中，节点的潜在劣质行为的诱因不同，需要综合多方因素，对节点服务质量进行客观公正的计算。在新型场景下，信道质量等客观不利因素及逃费等主观欺骗行为均会导致资源共享交易的失败，影响系统的正常良好发展，但由于其诱因不同，故不可一概而论，需要在节点匹配过程中考虑影响交易过程和收益的因素并且如何设定匹配规则中充分考虑到这些因素并做出区别对待。

因此，如何避免现有的区块链节点之间的交易匹配过程中设定匹配规则没有充分考虑区块链网络中信道资源和节点计算资源造成的交易匹配不合理和匹配上的交易也容易完成失败，仍然是本领域技术人员亟待解决的问题。

发明内容

本发明提供一种无线边缘区块链场景中的资源节点间交易匹配方法，用以解决现有的区块链节点之间的交易匹配过程中设定匹配规则没有充分考虑区块链网络中信道资源和节点计算资源造成的交易匹配不合理的缺陷，通过交易发起方和交易可能响应方之间的交互以及匹配确认响应，再基于响应方竞争交易时交易发起方综合计算资源、信道资源和收益成本选择最优响应方完成交易，实现充分考虑影响交易过程和收益的因素，使得交易匹配更合理，交易更容易成功完成。

本发明提供一种无线边缘区块链场景中的资源节点间交易匹配方法，该方法的执行主体为发起交易资源节点，该方法包括：

向所在无线边缘区块链网络中广播交易请求，所述交易请求包括发起交易资源节点的身份信息、历史行为置信度和信道质量测量参数；

接收所述无线边缘区块链网络中各个响应共享资源节点发送的接受竞争响应，所述接受竞争响应包括所述响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量；

其中，所述响应共享资源节点为所述无线边缘区块链网络中接收到所述交易请求后基于所述交易请求确定响应所述交易请求的共享资源节点；

基于所述各个响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量，以及所述发起交易资源节点的历史行为置信度采用深度强化学习算法确定最优响应共享资源节点；

其中，所述最优响应共享资源节点用于和所述发起交易资源节点进行交易，交易过程中交易系统根据交易占用计算资源更新所述最优响应共享资源节点的可用计算资源量，交易完成后所述交易系统根据交易结果更新所述发起交易资源节点和所述最优响应共享资源节点的历史行为置信度。

根据本发明提供的一种无线边缘区块链场景中的资源节点间交易匹配方法，所述基于所述各个响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量，以及所述发起交易资源节点的历史行为置信度采用深度强化学习算法确定最优响应共享资源节点，具体包括：

基于所述各个响应共享资源节点的身份信息进行身份验证，确定验证通过的响应共享资源节点为有效响应共享资源节点；

基于所述发起交易资源节点的历史行为置信度、所述各个响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量构建第一状态空间矩阵；

基于深度强化学习算法训练过程中的第一决策网络输入所述第一状态空间矩阵后每轮循环迭代训练输出的预测任一所述有效接收共享资源节点是否确定响应结果构建第一动作集合；

用于调整所述第一决策网络中的待调参数的第一反馈奖励函数包括共享匹配收益项、匹配后提供服务资费成本、占用信道资源成本和耗时成本。

根据本发明提供的一种无线边缘区块链场景中的资源节点间交易匹配方法，所述基于所述发起交易资源节点的历史行为置信度、所述各个响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量构建第一状态空间矩阵，具体包括：

第一状态空间矩阵s通过如下公式表示：

s＝[s^p,s^r,s^o,s^u]_T×U

其中，s^p表示可观察到的N_P个响应共享资源节点各自的信道质量参数和可用计算资源量，sⁱ表示可观察到的第i个响应共享资源节点自身的信道质量参数和可用计算资源量，当n∈[1,L_b]时，

表示在第m个时隙内第i个响应共享资源节点的第n个信道资源块已被占用，

表示在第m个时隙内第i个响应共享资源节点的第n个信道资源块未被占用，当n∈[L_b+1,L_c]时，

表示在第m时隙内第i个响应共享资源节点的第n-L_b个计算资源块已被占用，

表示在第m时隙内第i个响应共享资源节点的第n-L_b个计算资源块未被占用，L_b表示所述响应共享资源节点每一时隙内所拥有的所有信道资源块，L_c表示所述响应共享资源节点每一时隙内所拥有的所有计算资源块，s^r表示当前可观察到的N_P个响应共享资源节点正在进行的交易中的前N_r个交易的具体信息，

表示第

个正在进行的交易的第

个信息参数值，当

时，其指示该交易的资源提供节点的ID，当

时，其指示该交易的资源提供节点的历史行为置信度，当

时，其指示该交易成功完成后其交易发起资源节点的收益，当

时，其指示该交易成功完成后其交易发起资源节点向其资源提供节点支付的服务费用，s^o表示可观察到所述发起交易资源节点的具体任务信息的前N_o个交易的信息形成的列向量，所述列向量中任一元素bⁱ为维度为N_pL_b+L_c+1的行向量，当n∈[1,N_PL_b]时，

表示第i个交易在其发起交易资源节点与其所有所述有效接收共享资源节点自身之间的信道状态下需要占用第n个信道资源块，

表示第i个交易在其发起交易资源节点与其所有响应共享资源节点中第

个响应共享资源节点之间的信道状态下需要占用其第

个信道资源块，

个响应共享资源节点之间的信道状态下不需要占用其第

个信道资源块，当n＝N_PL_b+L_c+1时，

表示第i个交易的收益，s^u表示不可观察到具体交易信息的前N_u个交易，

表示第

个交易的第

个信息参数值，当

时，第

个信息参数为其交易的到达时间，当

时，第

个信息参数为其交易的成功完成后的收益，当

时，第

个信息参数为其交易的完成耗时；

对应地，所述用于调整所述第一决策网络中的待调参数的第一反馈奖励函数包括共享匹配收益项、匹配后提供服务资费成本、占用信道资源成本和耗时成本，具体包括：

基于梯度下降算法调整所述第一决策网络中的待调参数的每一时隙t中环境反馈的第一反馈奖励函数r_t通过如下公式表示：

其中，J₁(t)表示已经开始处理、未处理完成且能够成功完成的交易集合，P_j表示交易的收益值，q_j表示所述交易发起资源节点支付给响应共享资源节点的服务资费，

和t_j,b分别表示交易实际所需的传输时延和交易最初所期望的传输时延，t_j,c表示交易所需的计算处理耗时，J₂(t)代表无法成功完成的交易集，J₃(t)表示所述发起交易资源节点已接受且已到达但未开始处理的交易集合。

根据本发明提供的一种无线边缘区块链场景中的资源节点间交易匹配方法，所述无线边缘区块链网络中接收到所述交易请求的共享资源节点基于所述交易请求确定响应所述交易请求的过程，具体包括：

所述无线边缘区块链网络中接收到所述交易请求的任一接收共享资源节点提取所述交易请求中的信道质量测量参数，基于所述信道质量测量参数进行信道质量测量确定所述任一共享资源节点与所述发起交易资源节点之间信道的质量参数；

所述任一接收共享资源节点基于所述发起交易资源节点的身份信息、自身可用计算资源量、其与所述发起交易资源节点之间信道的质量参数、正在匹配的其他交易的信息采用深度强化学习算法确定是否响应所述交易请求。

根据本发明提供的一种无线边缘区块链场景中的资源节点间交易匹配方法，所述任一接收共享资源节点基于所述发起交易资源节点的身份信息、自身可用计算资源量、其与所述发起交易资源节点之间信道的质量参数、其正在匹配的其他交易的信息采用深度强化学习算法确定是否响应所述交易请求，具体包括：

所述任一接收共享资源节点基于所述发起交易资源节点的身份信息进行身份验证，确定验证通过的所述任一接收共享资源节点为有效接收共享资源节点；

所述有效接收共享资源节点基于自身可用计算资源量、其与所述发起交易资源节点之间信道的质量参数和其正在匹配的其他交易的信息构建第二状态空间矩阵；

基于深度强化学习算法训练过程中的第二决策网络输入所述第二状态空间矩阵后每轮循环迭代训练输出的预测任一所述有效接收共享资源节点是否确定响应结果构建第二动作集合；

用于基于梯度下降算法调整所述第二决策网络中的待调参数的第二反馈奖励函数包括共享匹配收益项、匹配后提供服务资费成本、占用信道资源成本和耗时成本。

根据本发明提供的一种无线边缘区块链场景中的资源节点间交易匹配方法，所述有效接收共享资源节点基于自身可用计算资源量、其与所述发起交易资源节点之间信道的质量参数和其正在匹配的其他交易的信息构建第二状态空间矩阵，具体包括：

第二状态空间矩阵ss通过如下公式表示：

ss＝[ss^pb,ss^pc,ss^r,ss^o,ss^u]_T×U

其中，ss^pb表示所述有效接收共享资源节点与所述发起交易资源节点之间信道的质量参数，L_b表示所述有效接收共享资源节点每一时隙内所拥有的所有信道资源块，T表示时隙总数，

的数值取1表示在第m个时隙内第n个信道资源块已经被占用，

的数值取0表示在第m个时隙内第n个信道资源块未被占用，ss^pc表示所述有效接收共享资源节点自身可用计算资源量，L_c表示所述有效接收共享资源节点每一时隙内所拥有的所有计算资源块，

的数值取1表示在第m个时隙内第n个计算资源块已经被占用，

的数值取0表示在第m个时隙内第n个计算资源块未被占用，ss^r表示观察有效接收共享资源节点正在匹配的其他交易中的前N_r个交易的具体信息，

表示第

个正在进行的交易的第

个信息参数值，当

时，其指示发起交易资源节点的历史行为置信度参数，当

时，其指示该交易成功完成后的收益，ss^o表示可观察到具体交易信息的前N_o个交易的信息形成的列向量，所述列向量中任一元素bbⁱ为维度为L_b+L_c+2的行向量，当n∈[1,L_b]时，

表示第i个交易在其发起交易资源节点与所述有效接收共享资源节点自身之间的信道状态下需要占用第n个信道资源块，否则，不占用，当n∈[L_b+1,L_c]时，

表示第i个交易需要占用所述有效接收共享资源节点自身第n-L_b个计算资源块，否则，不占用，当n＝L_b+L_c+1时，

表示第i个交易的收益，当n＝L_b+L_c+2时，

表示第i个交易的发起交易资源节点的历史行为置信度，ss^u表示不可观察到具体交易信息的前N_u个交易，

表示第

个交易的第

个信息参数值，当

时，第

个信息参数为其交易的到达时间，当

时，第

个信息参数为其交易的成功完成后的收益，当

时，第

个信息参数为其交易的完成耗时；

对应地，所述用于基于梯度下降算法调整所述第二决策网络中的待调参数的第二反馈奖励函数包括共享匹配收益项、匹配后提供服务资费成本、占用信道资源成本和耗时成本，具体包括：

基于梯度下降算法调整所述第二决策网络中的待调参数的每一时隙t中环境反馈的第二反馈奖励函数rr_t通过如下公式表示：

其中，J₁(t)表示已经开始处理、未处理完成且能够成功完成的交易集合，P_j表示交易的收益值，

和t_j,b分别表示实际所需传输时延和交易最初所期望传输时延，t_j,c表示交易所需的计算处理耗时，J₂(t)表示所述有效接收共享资源节点已接受且已到达但未开始处理的交易集合，E_b和E_b分别表示每个信道资源块成本和每个计算资源块成本，N(·)为计数函数。

本发明提供另外一种无线边缘区块链场景中的资源节点间交易匹配方法，其执行主体为共享资源节点，包括：

接收在无线边缘区块链网络中广播的交易请求，提取所述交易请求中交易发起资源节点的身份信息、信道质量测量参数和历史行为置信度；

基于所述信道质量测量参数进行自身共享资源节点信道质量测量确定与所述发起交易资源节点之间信道的质量参数；

基于所述发起交易资源节点的身份信息、所述自身共享资源节点可用计算资源量、所述信道的质量参数、自身共享资源节点正在匹配的其他交易的信息采用深度强化学习算法确定是否响应所述交易请求；

若确定响应，则向所述发起交易资源节点发送接受竞争响应，所述接受竞争响应包括所述响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量；

其中，所述接受竞争响应用于所述发起交易资源节点接收后基于各个接受竞争响应确定最优响应共享资源节点，所述最优响应共享资源节点用于和所述发起交易资源节点进行交易，交易过程中交易系统根据交易占用计算资源更新所述最优响应共享资源节点的可用计算资源量，交易完成后所述交易系统根据交易结果更新所述发起交易资源节点和所述最优响应共享资源节点的历史行为置信度。

本发明还提供一种发起交易资源节点，包括：

发送单元，用于向所在无线边缘区块链网络中广播交易请求，所述交易请求包括发起交易资源节点的身份信息、历史行为置信度和信道质量测量参数；

接收单元，用于接收所述无线边缘区块链网络中各个响应共享资源节点发送的接受竞争响应，所述接受竞争响应包括所述响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量；

匹配单元，用于基于所述各个响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量，以及所述发起交易资源节点的历史行为置信度采用深度强化学习算法确定最优响应共享资源节点；

本发明还提供一种共享资源节点，包括：

接收单元，用于接收在无线边缘区块链网络中广播的交易请求，提取所述交易请求中交易发起资源节点的身份信息、信道质量测量参数和历史行为置信度；

测量单元，用于基于所述信道质量测量参数进行自身共享资源节点信道质量测量确定与所述发起交易资源节点之间信道的质量参数；

响应单元，用于基于所述发起交易资源节点的身份信息、所述自身共享资源节点可用计算资源量、所述信道的质量参数、自身共享资源节点正在匹配的其他交易的信息采用深度强化学习算法确定是否响应所述交易请求；

发送单元，用于若确定响应，则向所述发起交易资源节点发送接受竞争响应，所述接受竞争响应包括所述响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量；

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述的无线边缘区块链场景中的资源节点间交易匹配方法的步骤。

本发明提供的无线边缘区块链场景中的资源节点间交易匹配方法，通过向所在无线边缘区块链网络中广播交易请求，所述交易请求包括发起交易资源节点的身份信息、历史行为置信度和信道质量测量参数；接收所述无线边缘区块链网络中各个响应共享资源节点发送的接受竞争响应，所述接受竞争响应包括所述响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量；其中，所述响应共享资源节点为所述无线边缘区块链网络中接收到所述交易请求后基于所述交易请求确定响应所述交易请求的共享资源节点；基于所述各个响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量，以及所述发起交易资源节点的历史行为置信度采用深度强化学习算法确定最优响应共享资源节点；其中，所述最优响应共享资源节点用于和所述发起交易资源节点进行交易，交易过程中交易系统根据交易占用计算资源更新所述最优响应共享资源节点的可用计算资源量，交易完成后所述交易系统根据交易结果更新所述发起交易资源节点和所述最优响应共享资源节点的历史行为置信度。由于限定了无线边缘区块链网络中接收到交易请求的可能响应共享资源节点基于交易请求中携带的信息确定是否进行响应，而确定响应后在响应共享资源节点都向发起交易资源节点返回的接受竞争响应时由发起交易资源节点根据各个响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量，以及所述发起交易资源节点的历史行为置信度采用深度强化学习算法确定最优响应共享资源节点，即交易匹配充分考虑了双方的历史行为置信度、双方节点之间信道资源量以及响应共享资源节点的可用计算资源，使得交易匹配更合理，在考虑了历史行为置信度的情况下，可以保证匹配上的交易成功完成概率，交易过程中交易系统根据交易占用计算资源更新所述最优响应共享资源节点的可用计算资源量，交易完成后还根据交易结果更新所述发起交易资源节点和所述最优响应共享资源节点的历史行为置信度，实现及时更新交易匹配需要考虑的数据。因此，本发明提供的方法，实现了充分考虑影响交易过程和收益的因素，使得交易匹配更合理，交易更容易成功完成。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的无线边缘区块链场景中的资源节点间交易匹配方法的流程示意图；

图2为本发明提供的匹配选择的策略网络迭代训练过程示意图；

图3为本发明提供的决策响应的策略网络迭代训练过程示意图；

图4为本发明提供的另一无线边缘区块链场景中的资源节点间交易匹配方法的流程示意图；

图5为本发明提供的发起交易资源节点的结构示意图；

图6为本发明提供的共享资源节点的结构示意图；

图7为本发明提供的新型无线边缘区块链场景中计算资源共享服务的流程示例图；

图8为本发明提供的一种电子设备的实体结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

新型无线边缘区块链场景中的计算资源共享服务主要涉及两类参与节点，B-AP和B-UE，分别代表隶属于运营商的网络接入节点(基站)和一般用户节点(移动通讯设备)。通常而言，B-AP具有较高的计算能力及信道通信质量，能够为资源请求节点提供更优质的共享体验。但在一些情况下，B-UE能够为物理距离上临近的节点提供对时延敏感业务的计算资源共享服务，相较于远距离处的B-AP节点，临近的B-UE具有更短的时延，从而使资源共享体验提高。于是，在计算资源共享服务中，资源请求节点与资源提供节点间的自主匹配过程对后续资源共享业务的服务质量具有较大的影响，而其中，自主匹配所依据的参考信息的设计更为关键。

本发明的提供的匹配规则和匹配参考因素正是为解决以上问题为自主匹配过程提供其所需依据的参考信息。将所述匹配规则和匹配参考因素应用于新型无线边缘区块链场景中面向计算资源共享业务中一般的计算资源共享服务得到本发明提供的无线边缘区块链场景中的资源节点间交易匹配方法。

现有的区块链节点之间的交易匹配普遍存在匹配过程中设定匹配规则没有充分考虑区块链网络中信道资源和节点计算资源造成的交易匹配不合理且匹配后交易成功完成概率不高的问题。下面结合图1-图3描述本发明的一种无线边缘区块链场景中的资源节点间交易匹配方法。图1为本发明提供的无线边缘区块链场景中的资源节点间交易匹配方法的流程示意图，如图1所示，该方法的执行主体为发起交易资源节点，该方法包括：

步骤110，向所在无线边缘区块链网络中广播交易请求，所述交易请求包括发起交易资源节点的身份信息、历史行为置信度和信道质量测量参数。

具体地，发起交易资源节点要找到无线边缘区块链网络中合适的交易对象，首先需要向无线边缘区块链网络中广播出自己的交易请求，并让交易请求中携带有发起交易资源节点的身份信息、历史行为置信度和信道质量测量参数。当无线边缘区块链网络中的共享资源节点接收到所述交易请求后，根据交易请求中的信息基于预设的决策规则决策是否响应该交易请求返回接受竞争响应成为多个竞争该交易的共享资源节点之一。

步骤120，接收所述无线边缘区块链网络中各个响应共享资源节点发送的接受竞争响应，所述接受竞争响应包括所述响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量；

其中，所述响应共享资源节点为所述无线边缘区块链网络中接收到所述交易请求后基于所述交易请求确定响应所述交易请求的共享资源节点。

具体地，当所述无线边缘区块链网络中接收到所述交易请求后根据所述交易请求中的信息并基于预设的决策规则决策响应该交易后会向所述发起交易资源节点返回接受竞争响应，当发起交易资源节点接收到来自各个响应共享资源节点发送的接受竞争响应，发起交易资源节点会提取各个接受竞争响应中携带的对应响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量。

此处对历史行为置信度、信道质量参数和可用计算资源量进行详细说明，信道质量参数为两节点之间信道的误码率、SINR等常用信道QoS参数或任意组合，组合中对各个物理参数设置对应加权系数方便总信道质量参数的求和，为了方便后续计算，还可以对信道质量参数进行类似归一化处理，即可将信道质量参数其值β设计为五个等级，β＝{1,2,3,4,5}，其中β值越大表示等级越高，可用信道资源越多，通信质量越好，节点可用计算资源量为节点使用的硬件CPU型号、当前RAM资源占用率、对交易数据处理效果、交易处理时延等常用计算资源QoS参数或任意组合，组合中对各个物理参数设置对应加权系数方便总可用计算资源量的求和，历史行为置信度是基于无线边缘区块链网络中的资源共享节点参与交易的成功次数和失败次数确定的，对于任一共享资源节点，当其交易成功完成，则对其历史行为置信度进行升级，当其交易完成失败，则对其历史行为置信度进行降级，根据应用场景中对于失败的惩罚严格程度和对成功的认可程度，设定对应的升级权重系数和降级权重系数，得到历史行为置信度的确定方法对任一资源共享节点的历史行为进行升级或降级的累加，得到该点的可靠程度作为其历史行为置信度。例如：

历史行为置信度可作为对无线边缘区块链网络中资源共享节点历史行为的可靠度数值，以便其他节点对当前观察节点的诚实性有一个基础的判断。对于历史行为置信度其值α的设计，通过线性值记录。其值范围设计为α＝[1,5]，初始值设为α_init＝3，其更新规则如下公式所示，

其中，α为更新前的值，Δα为更新量，α'为更新后的值，当交易成功时，为交易双方的历史行为置信度值加上0.1，当交易失败时，对交易中的过错节点的历史行为置信度值减去0.5。

步骤130，基于所述各个响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量，以及所述发起交易资源节点的历史行为置信度采用深度强化学习算法确定最优响应共享资源节点；

具体地，发起交易资源节点在提取到各个响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量后，基于上述数据以及自身的节点的历史行为置信度采用深度强化学习算法确定最优响应共享资源节点，采用深度强化学习算法可以在无样本标签监督的情况下根据奖励反馈机制选择出最优响应共享资源节点用于和自身节点进行交易。同时，在进行交易的过程中交易系统设置有特定的更新机制根据该交易占用的节点计算资源更新所述最优响应共享资源节点的可用计算资源量，交易完成后所述交易系统还根据交易结果更新所述发起交易资源节点和所述最优响应共享资源节点的历史行为置信度。此处需要说明的是所述交易系统包括所有参与交易的交易发起资源节点和资源共享节点、节点之间交互时搭建的链路以及对各个节点可用计算资源、历史行为置信度和信道状态参数的采集监控装置和更新装置。

在上述实施例的基础上，所述基于所述各个响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量，以及所述发起交易资源节点的历史行为置信度采用深度强化学习算法确定最优响应共享资源节点，具体包括：

具体地，交易发起资源节点在竞争该交易的响应共享资源节点中选择最优响应共享资源节点时，具体选择流程为：首先基于所述各个响应共享资源节点的身份信息进行身份验证，确定验证通过的响应共享资源节点为有效响应共享资源节点，即首先要进行身份验证，例如对于自身黑名单中拒绝交易的响应共享资源节点一律排除，因此，通过身份验证的响应共享资源节点为有效响应共享资源节点，它们有资格参与下面的采用深度强化学习算法作为预设的预测方法确定最优响应共享资源节点。

而采用深度强化学习算法作为预设的预测方法的具体流程是：基于所述发起交易资源节点的历史行为置信度、所述各个响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量构建第一状态空间矩阵；基于深度强化学习算法训练过程中的第一决策网络输入所述第一状态空间矩阵后每轮循环迭代训练输出的预测任一所述有效接收共享资源节点是否确定响应结果构建第一动作集合；用于调整所述第一决策网络中的待调参数的第一反馈奖励函数包括共享匹配收益项、匹配后提供服务资费成本、占用信道资源成本和耗时成本。

在上述实施例的基础上，所述基于所述发起交易资源节点的历史行为置信度、所述各个响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量构建第一状态空间矩阵，具体包括：

第一状态空间矩阵s通过如下公式表示：

s＝[s^p,s^r,s^o,s^u]_T×U

表示第

个正在进行的交易的第

个信息参数值，当

时，其指示该交易的资源提供节点的ID，当

时，其指示该交易的资源提供节点的历史行为置信度，当

个响应共享资源节点之间的信道状态下需要占用其第

个信道资源块，

个响应共享资源节点之间的信道状态下不需要占用其第

个信道资源块，当n＝N_PL_b+L_c+1时，

表示第

个交易的第

个信息参数值，当

时，第

个信息参数为其交易的到达时间，当

时，第

个信息参数为其交易的成功完成后的收益，当

时，第

个信息参数为其交易的完成耗时；

和t_j,b分别表示实际所需以及交易最初所期望的传输时延，t_j,c表示交易所需的计算处理耗时，J₂(t)表示所述有效接收共享资源节点已接受且已到达但未开始处理的交易集合，E_b和E_b分别表示每个信道资源块成本和每个计算资源块成本，N(·)为计数函数。

具体地，图2为本发明提供的匹配选择的策略网络(即第一决策网络)迭代训练过程示意图，如图2所示，奖励值为交易成功时的交易收益(交易失败时则无收益)减去计算及信道资源成本以及时延消耗。PG网络通过输入的环境状态及奖励反馈输出当前的最佳决策(交易发起资源节点B-UE0在响应共享资源节点B-UE4、B-AP1中选择最优响应共享资源节点)，而后作用到环境中，环境状态进行更新而后提取关键信息并根据优化目标计算出奖励值，随后继续将更新后的环境状态信息及奖励反馈输入到PG网络中，从而更新网络决策能力。当第一策略网络训练结束后，可直接将第一决策网络应用到实际中，直接提取网络信息而后经过第一决策网络决策处理得到最佳决策，在所有响应共享资源节点中选择最优响应共享资源节点作为交易发起资源节点的交易对象。

图2中，B-UE0在选择B-UE4或B-AP1在接受交易时，采用最基本的贪婪算法，采用DRL(DRL，Deep Reinforcement Learning)来根据当前动态变化的情景需要做出选出最佳的响应共享资源节的决策，其策略网络迭代训练过程如图2所示。以实时的系统环境状态为输入，充分考虑交易资源提供者(即响应共享资源节点)B-UE04、B-AP1的历史行为置信度、信道质量参数、可用计算资源量，而策略网络的输出则为每一调度动作的概率值。在此步的训练阶段，以整体的优化目标函数作为策略网络的训练依据，例如以尽量少的交易资费(支付给交易资源提供者的资费)和资源成本完成更多的交易以及服务为目标，如图2所示，奖励值为交易成功时的交易收益(交易失败时则无收益)减去交易资费、信道资源成本以及时延消耗。从而，可以对策略网络训练中的具体量s、a、r_t进行设计及定义。

在训练网络的阶段，资源提供者通过多次迭代对多个交易到达序列的多次仿真来更新网络参数θ从而提升网络决策能力。首先，策略网络以实时的环境状态为输入，输出每一调度动作的概率值，而后以轮盘赌的方式选择出调度动作(当动作概率越大时，其被选中的概率越大)，故而策略网络可以通过π_θ来表示。随后，策略网络依据环境反馈的奖励值以及环境状态变化来更新自身网络参数θ，从而提升策略网络π_θ。其中涉及输入策略网络的状态空间定义、策略网络输出的动作空间定义，以及每一时隙中环境反馈的奖励值r_t。

第一状态空间矩阵s通过如下公式表示：

s＝[s^p,s^r,s^o,s^u]_T×U

表示第

个正在进行的交易的第

个信息参数值，当

时，其指示该交易的资源提供节点的ID，当

时，其指示该交易的资源提供节点的历史行为置信度，当

个响应共享资源节点之间的信道状态下需要占用其第

个信道资源块，

个响应共享资源节点之间的信道状态下不需要占用其第

个信道资源块，当n＝N_PL_b+L_c+1时，

表示第

个交易的第

个信息参数值，当

时，第

个信息参数为其交易的到达时间，当

时，第

个信息参数为其交易的成功完成后的收益，当

时，第

个信息参数为其交易的完成耗时；

对于动作空间来说，定义为

由于N_P确定，所以动作空间也能确定，即为当前交易选择接受当前时隙可观察到的N_P个响应共享资源节点中的任意一个作为交易对象或是不接受任何一个响应共享资源节点作为交易对象。

对于每一时隙中环境反馈的奖励值r_t可以根据图2中的奖励来按时隙分解后得到，

，图2中的R与r_t之间的关系同样可以表示为

其中J₁(t)代表已经开始处理、未处理完成且能够成功完成的交易集，p_j代表交易成功完成后请求者可获得的奖励值，q_j代表交易请求者需要支付给提供者的服务资费，

和t_j,b分别代表实际所需以及交易最初所期望的传输时延(信道质量会导致传输时延与预计传输时延之间的差异)，t_j,c代表交易所需的计算处理时延，J₂(t)代表已经开始处理、未处理完成且已经超时，即无法成功完成的交易集，J₃(t)代表已经生成但尚未开始处理的交易集。

交易发起资源节点选择最优的响应共享资源节点的决策的第一决策网络训练过程如图2所示。每一次迭代训练时，需要进行多次情节仿真，得到策略网络的一组训练数据{s_t,a_t,r_t}，据此对网络参数θ进行训练及更新，可以依据REINFORCE with baseline方法，θ的更新量为

其中

为基底平均值。经过多次迭代后，策略网络参数被不断更新，从而能够根据环境状态的实时变化做出更好的决策。

当第一策略网络训练结束后，可直接将网络应用到实际中，直接提取网络信息而后经过网络决策处理得到最佳决策，为交易发起资源节点B-UE0决策最优的响应共享资源节点作为交易对象来接受自己的交易。

在上述实施例的基础上，所述无线边缘区块链网络中接收到所述交易请求的共享资源节点基于所述交易请求确定响应所述交易请求的过程，具体包括：

具体地，除了发起交易资源节点在收到各个响应共享资源节点返回的接受竞争响应后要进行预设的匹配决策选出最优响应共享资源节点作为交易参与方，在响应共享资源节点决定返回的接受竞争响应之前，该响应共享资源节点在接收到广播的交易请求后还需要根据双方之间的信道资源、自身可用计算资源以及自身正在匹配的其他交易的信息进行决策是否响应该交易请求参与竞争匹配上该交易。而此决策同样使用的是基于深度强化学习算法确定的决策规则，即基于所述发起交易资源节点的身份信息、自身可用计算资源量、其与所述发起交易资源节点之间信道的质量参数、正在匹配的其他交易的信息采用深度强化学习算法确定是否响应所述交易请求，其中，任一共享资源节点与所述发起交易资源节点之间信道的质量参数的确定是通过无线边缘区块链网络中接收到所述交易请求的所述任一接收共享资源节点提取所述交易请求中的信道质量测量参数，基于所述信道质量测量参数进行信道质量测量的，即交易请求中首先发送的测试参数，即要求接收到的交易请求的共享资源节点进行某些信道物理参数的测量，共享资源节点进行两点之间上述某些信道物理参数的测量后将所述某些信道物理参数作为两节点之间的信道质量资源。

在上述实施例的基础上，所述任一接收共享资源节点基于所述发起交易资源节点的身份信息、自身可用计算资源量、其与所述发起交易资源节点之间信道的质量参数、其正在匹配的其他交易的信息采用深度强化学习算法确定是否响应所述交易请求，具体包括：

具体地，接收到广播的交易请求的共享资源节点在决策是否要在当前自身已有的交易中作为响应共享资源节点选择响应该交易请求返回接受竞争响应，具体的决策流程为：首先基于所述发起交易资源节点的身份信息进行身份验证，确定验证通过的接收共享资源节点为有效接收共享资源节点，即首先要进行身份验证，例如对于接收共享资源节点自身黑名单中拒绝交易的发起交易资源节点一律排除，因此，通过身份验证的接收共享资源节点为有效接收共享资源节点，通过后才会继续参与下面的采用深度强化学习算法作为预设的决策方法决策是否要在当前自身已有的交易中作为响应共享资源节点选择响应该交易请求返回接受竞争响应。如果身份验证都不通过，那么该接收共享资源节点直接拒绝响应该交易请求，放弃竞争参与交易。

而采用深度强化学习算法作为预设的决策方法的具体流程是：所述有效接收共享资源节点基于自身可用计算资源量、其与所述发起交易资源节点之间信道的质量参数和其正在匹配的其他交易的信息构建第二状态空间矩阵；基于深度强化学习算法训练过程中的第二决策网络输入所述第二状态空间矩阵后每轮循环迭代训练输出的预测任一所述有效接收共享资源节点是否确定响应结果构建第二动作集合；用于基于梯度下降算法调整所述第二决策网络中的待调参数的第二反馈奖励函数包括共享匹配收益项、匹配后提供服务资费成本、占用信道资源成本和耗时成本。

在上述实施例的基础上，所述有效接收共享资源节点基于自身可用计算资源量、其与所述发起交易资源节点之间信道的质量参数和其正在匹配的其他交易的信息构建第二状态空间矩阵，具体包括：

第二状态空间矩阵ss通过如下公式表示：

ss＝[ss^pb,ss^pc,ss^r,ss^o,ss^u]_T×U

的数值取1表示在第m个时隙内第n个信道资源块已经被占用，

的数值取1表示在第m个时隙内第n个计算资源块已经被占用，

表示第

个正在进行的交易的第

个信息参数值，当

时，其指示发起交易资源节点的历史行为置信度参数，当

表示第i个交易的收益，当n＝L_b+L_c+2时，

表示第

个交易的第

个信息参数值，当

时，第

个信息参数为其交易的到达时间，当

时，第

个信息参数为其交易的成功完成后的收益，当

时，第

个信息参数为其交易的完成耗时；

具体地，无线边缘区块链网络中接收共享资源节点选择是否接受发起交易资源节点的交易请求时，可以采用最基本的贪婪算法，即，在自身资源能够满足条件的情况下，对任何一个交易都接受，此外可以采用一类智能算法，深度强化学习算法来根据当前动态变化的情景需要做出最佳的是否接受交易的决策。以系统状态为输入，其中充分考虑发起交易资源节点的历史行为置信度、根据发起交易资源节点给出的信道资源测试参数测得对应两节点之间信道的质量参数、交易相关信息(交易量大小、交易时延限制等)以及接收共享资源节点自身的可用计算资源量，而策略网络的输出则为决策。选择策略梯度下降算法来训练策略网络。在训练阶段，以整体的优化目标函数作为策略网络的训练依据，例如以尽量少的资源成本完成更多的交易以及服务为目标时，图3为本发明提供的决策响应的策略网络(即第二决策网络)迭代训练过程示意图，如图3所示，奖励值为交易成功时的交易收益(交易失败时则无收益)减去计算及信道资源成本以及时延消耗。PG网络通过输入的环境状态及奖励反馈输出当前的最佳决策(B-UE4或B-UE8或B-AP1是否应当接受B-UE0的交易，其中，B-UE0为发起交易资源节点，B-UE4、B-UE8和B-AP1均为接收共享资源节点)，而后作用到环境中，环境状态进行更新而后提取关键信息并根据优化目标计算出奖励值，随后继续将更新后的环境状态信息及奖励反馈输入到PG网络中，从而更新网络决策能力。当策略网络训练结束后，可直接将网络应用到实际中，直接提取网络信息而后经过网络决策处理得到最佳决策，为每个节点决策是否接受B-UE0的交易。

在训练网络的阶段，资源提供者通过多次迭代对多个交易到达序列的多次仿真来更新网络参数θ’从而提升网络决策能力。首先，策略网络以实时的环境状态为输入，输出每一调度动作的概率值，而后以轮盘赌的方式选择出调度动作(当动作概率越大时，其被选中的概率越大)，故而策略网络可以通过π_θ’来表示。随后，策略网络依据环境反馈的奖励值以及环境状态变化来更新自身网络参数θ’，从而提升策略网络π_θ’。其中涉及输入策略网络的状态空间定义、策略网络输出的动作空间定义，以及每一时隙中环境反馈的奖励值rr_t。

第二状态空间矩阵ss通过如下公式表示：

ss＝[ss^pb,ss^pc,ss^r,ss^o,ss^u]_T×U

的数值取1表示在第m个时隙内第n个信道资源块已经被占用，

的数值取1表示在第m个时隙内第n个计算资源块已经被占用，

表示第

个正在进行的交易的第

个信息参数值，当

时，其指示发起交易资源节点的历史行为置信度参数，当

表示第i个交易的收益，当n＝L_b+L_c+2时，

表示第

个交易的第

个信息参数值，当

时，第

个信息参数为其交易的到达时间，当

时，第

个信息参数为其交易的成功完成后的收益，当

时，第

个信息参数为其交易的完成耗时。

对于动作空间来说，定义为

由于N_o确定，所以动作空间确定，即选择接受当前时隙可观察到的前N_o个交易中的任意一个或是不接受任何交易。

在训练策略网络之初，首先生成N_task＝50组交易序列，每一次策略网络迭代训练时，需要对N_task＝50组交易序列进行N_epi＝5次情节仿真，从而达到对系统一般状态的模拟与仿真。对于一组交易序列的一次仿真的具体流程如下：首先初始化策略网络参数，当仿真时隙小于最大仿真时隙T_M时，重复依据当前环境状态提取状态视图ss_t矩阵输入策略网络，根据输出做出动作选择aa_t，而后得到更新后的环境状态，即环境视图s'_t矩阵，并计算得到时隙奖励rr_t，随后将ss'_t作为策略网络的输入，再次得到提供者依据当前策略网络应做出的下一时隙的决策动作aa'_t，如此往复直至最大仿真时隙，从而得到策略网络的一组训练数据{ss_t,aa_t,rr_t}。

在每次迭代后，即完成一次对多组交易序列进行多组仿真后，进行网络参数θ’的训练及更新，依据REINFORCE with baseline方法，网络参数θ’的更新量为

其中L_M为统一后的最大仿真时隙数，I为总情节仿真次数N_task×N_epi＝250，其中

则为基底平均值，减去其以加快策略网络的训练速度。经过多次迭代后，策略网络参数被不断更新，从而能够根据环境状态的实时变化做出更好的决策。

现有的区块链节点之间的交易匹配普遍存在匹配过程中设定匹配规则没有充分考虑区块链网络中信道资源和节点计算资源造成的交易匹配不合理且匹配后交易成功完成概率不高的问题。下面结合图4描述本发明的另一种无线边缘区块链场景中的资源节点间交易匹配方法。图4为本发明提供的另一无线边缘区块链场景中的资源节点间交易匹配方法的流程示意图，如图4所示，该方法的执行主体为发起交易资源节点，该方法包括：

步骤410，接收在无线边缘区块链网络中广播的交易请求，提取所述交易请求中交易发起资源节点的身份信息、信道质量测量参数和历史行为置信度。

具体地，接收共享资源节点为接收到交易发起资源节点广播出自身的交易请求的无线边缘区块链网络中的共享资源节点，然后提取所述交易请求中交易发起资源节点的身份信息、信道质量测量参数和历史行为置信度。

步骤420，基于所述信道质量测量参数进行自身共享资源节点信道质量测量确定与所述发起交易资源节点之间信道的质量参数。

具体地，接收到交易请求的共享资源节点进行某些信道物理参数的测量，共享资源节点进行两点之间上述某些信道物理参数的测量后将所述某些信道物理参数作为两节点之间的信道质量资源。

步骤430，基于所述发起交易资源节点的身份信息、所述自身共享资源节点可用计算资源量、所述信道的质量参数、自身共享资源节点正在匹配的其他交易的信息采用深度强化学习算法确定是否响应所述交易请求。

具体地，接收共享资源节点在提取到发起交易资源节点的身份信息并测量出所述信道的质量参数后，基于上述数据以及自身共享资源节点可用计算资源量和自身共享资源节点正在匹配的其他交易的信息采用深度强化学习算法确定是否做出竞争参与交易的决策，采用深度强化学习算法可以在无样本标签监督的情况下根据奖励反馈机制选择出是否做出竞争参与交易的最优决策。

步骤440，若确定响应，则向所述发起交易资源节点发送接受竞争响应，所述接受竞争响应包括所述响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量；

具体地，若共享资源节点确定要竞争参与该交易，则向发起交易资源节点返回接受竞争响应，并在接受竞争响应中携带所述响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量以供发起交易资源节点根据各个响应共享资源节点返回的接受竞争响应中提供的信息进行最优响应共享资源节点的选择，确定最终参与交易的对象。同时，在进行交易的过程中还需要根据该交易占用的节点计算资源更新所述最优响应共享资源节点的可用计算资源量，交易完成后还根据交易结果更新所述发起交易资源节点和所述最优响应共享资源节点的历史行为置信度。

本发明提供的无线边缘区块链场景中的资源节点间交易匹配方法，通过接收在无线边缘区块链网络中广播的交易请求，提取所述交易请求中交易发起资源节点的身份信息、信道质量测量参数和历史行为置信度；基于所述信道质量测量参数进行自身共享资源节点信道质量测量确定与所述发起交易资源节点之间信道的质量参数；基于所述发起交易资源节点的身份信息、所述自身共享资源节点可用计算资源量、所述信道的质量参数、自身共享资源节点正在匹配的其他交易的信息采用深度强化学习算法确定是否响应所述交易请求；若确定响应，则向所述发起交易资源节点发送接受竞争响应，所述接受竞争响应包括所述响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量；其中，所述接受竞争响应用于所述发起交易资源节点接收后基于各个接受竞争响应确定最优响应共享资源节点，所述最优响应共享资源节点用于和所述发起交易资源节点进行交易，交易过程中交易系统根据交易占用计算资源更新所述最优响应共享资源节点的可用计算资源量，交易完成后所述交易系统根据交易结果更新所述发起交易资源节点和所述最优响应共享资源节点的历史行为置信度。由于限定了无线边缘区块链网络中接收到交易请求的可能响应共享资源节点基于交易请求中携带的信息确定是否进行响应，而确定响应后在响应共享资源节点都向发起交易资源节点返回的接受竞争响应时由发起交易资源节点根据各个响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量，以及所述发起交易资源节点的历史行为置信度采用深度强化学习算法确定最优响应共享资源节点，即交易匹配充分考虑了双方的历史行为置信度、双方节点之间信道资源量以及响应共享资源节点的可用计算资源，使得交易匹配更合理，在考虑了历史行为置信度的情况下，可以保证匹配上的交易成功完成概率，交易过程中交易系统根据交易占用计算资源更新所述最优响应共享资源节点的可用计算资源量，交易完成后还根据交易结果更新所述发起交易资源节点和所述最优响应共享资源节点的历史行为置信度，实现及时更新交易匹配需要考虑的数据。因此，本发明提供的方法，实现了充分考虑影响交易过程和收益的因素，使得交易匹配更合理，交易更容易成功完成。

下面对本发明提供的发起交易资源节点进行描述，下文描述的发起交易资源节点与上文描述的第一种无线边缘区块链场景中的资源节点间交易匹配方法可相互对应参照。

图5为本发明提供的发起交易资源节点的结构示意图，如图5所示，该发起交易资源节点包括发送单元510、接收单元520和匹配单元530，其中，

所述发送单元510，用于向所在无线边缘区块链网络中广播交易请求，所述交易请求包括发起交易资源节点的身份信息、历史行为置信度和信道质量测量参数；

所述接收单元520，用于接收所述无线边缘区块链网络中各个响应共享资源节点发送的接受竞争响应，所述接受竞争响应包括所述响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量；

所述匹配单元530，用于基于所述各个响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量，以及所述发起交易资源节点的历史行为置信度采用深度强化学习算法确定最优响应共享资源节点；

本发明提供的发起交易资源节点，通过向所在无线边缘区块链网络中广播交易请求，所述交易请求包括发起交易资源节点的身份信息、历史行为置信度和信道质量测量参数；接收所述无线边缘区块链网络中各个响应共享资源节点发送的接受竞争响应，所述接受竞争响应包括所述响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量；其中，所述响应共享资源节点为所述无线边缘区块链网络中接收到所述交易请求后基于所述交易请求确定响应所述交易请求的共享资源节点；基于所述各个响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量，以及所述发起交易资源节点的历史行为置信度采用深度强化学习算法确定最优响应共享资源节点；其中，所述最优响应共享资源节点用于和所述发起交易资源节点进行交易，交易过程中交易系统根据交易占用计算资源更新所述最优响应共享资源节点的可用计算资源量，交易完成后所述交易系统根据交易结果更新所述发起交易资源节点和所述最优响应共享资源节点的历史行为置信度。由于限定了无线边缘区块链网络中接收到交易请求的可能响应共享资源节点基于交易请求中携带的信息确定是否进行响应，而确定响应后在响应共享资源节点都向发起交易资源节点返回的接受竞争响应时由发起交易资源节点根据各个响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量，以及所述发起交易资源节点的历史行为置信度采用深度强化学习算法确定最优响应共享资源节点，即交易匹配充分考虑了双方的历史行为置信度、双方节点之间信道资源量以及响应共享资源节点的可用计算资源，使得交易匹配更合理，在考虑了历史行为置信度的情况下，可以保证匹配上的交易成功完成概率，交易过程中交易系统根据交易占用计算资源更新所述最优响应共享资源节点的可用计算资源量，交易完成后还根据交易结果更新所述发起交易资源节点和所述最优响应共享资源节点的历史行为置信度，实现及时更新交易匹配需要考虑的数据。因此，本发明提供的发起交易资源节点，实现了充分考虑影响交易过程和收益的因素，使得交易匹配更合理，交易更容易成功完成。

在上述实施例的基础上，该发起交易资源节点中，所述基于所述各个响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量，以及所述发起交易资源节点的历史行为置信度采用深度强化学习算法确定最优响应共享资源节点，具体包括：

第一状态空间矩阵s通过如下公式表示：

s＝[s^p,s^r,s^o,s^u]_T×U

表示第

个正在进行的交易的第

个信息参数值，当

时，其指示该交易的资源提供节点的ID，当

时，其指示该交易的资源提供节点的历史行为置信度，当

个响应共享资源节点之间的信道状态下需要占用其第

个信道资源块，

个响应共享资源节点之间的信道状态下不需要占用其第

个信道资源块，当n＝N_PL_b+L_c+1时，

表示第

个交易的第

个信息参数值，当

时，第

个信息参数为其交易的到达时间，当

时，第

个信息参数为其交易的成功完成后的收益，当

时，第

个信息参数为其交易的完成耗时；

和t_j,b分别表示交易实际所需的传输时延和交易最初所期望的传输时延，t_j,c表示交易所需的计算处理耗时，J₂(t)代表无法成功完成的任务集，J₃(t)表示所述发起交易资源节点已接受且已到达但未开始处理的交易集合。

在上述实施例的基础上，该发起交易资源节点中，所述无线边缘区块链网络中接收到所述交易请求的共享资源节点基于所述交易请求确定响应所述交易请求的过程，具体包括：

在上述实施例的基础上，该发起交易资源节点中，所述任一接收共享资源节点基于所述发起交易资源节点的身份信息、自身可用计算资源量、其与所述发起交易资源节点之间信道的质量参数、其正在匹配的其他交易的信息采用深度强化学习算法确定是否响应所述交易请求，具体包括：

在上述实施例的基础上，该发起交易资源节点中，所述有效接收共享资源节点基于自身可用计算资源量、其与所述发起交易资源节点之间信道的质量参数和其正在匹配的其他交易的信息构建第二状态空间矩阵，具体包括：

第二状态空间矩阵ss通过如下公式表示：

ss＝[ss^pb,ss^pc,ss^r,ss^o,ss^u]_T×U

的数值取1表示在第m个时隙内第n个信道资源块已经被占用，

的数值取1表示在第m个时隙内第n个计算资源块已经被占用，

表示第

个正在进行的交易的第

个信息参数值，当

时，其指示发起交易资源节点的历史行为置信度参数，当

表示第i个交易的收益，当n＝L_b+L_c+2时，

表示第

个交易的第

个信息参数值，当

时，第

个信息参数为其交易的到达时间，当

时，第

个信息参数为其交易的成功完成后的收益，当

时，第

个信息参数为其交易的完成耗时；

下面对本发明提供的共享资源节点进行描述，下文描述的共享资源节点与上文描述的另一种无线边缘区块链场景中的资源节点间交易匹配方法可相互对应参照。

图6为本发明提供的共享资源节点的结构示意图，如图6所示，该共享资源节点包括接收单元610、测量单元620、响应单元630和发送单元640，其中，

所述接收单元610，用于接收在无线边缘区块链网络中广播的交易请求，提取所述交易请求中交易发起资源节点的身份信息、信道质量测量参数和历史行为置信度；

所述测量单元620，用于基于所述信道质量测量参数进行自身共享资源节点信道质量测量确定与所述发起交易资源节点之间信道的质量参数；

所述响应单元630，用于基于所述发起交易资源节点的身份信息、所述自身共享资源节点可用计算资源量、所述信道的质量参数、自身共享资源节点正在匹配的其他交易的信息采用深度强化学习算法确定是否响应所述交易请求；

所述发送单元640，用于若确定响应，则向所述发起交易资源节点发送接受竞争响应，所述接受竞争响应包括所述响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量；

本发明提供的共享资源节点，通过接收在无线边缘区块链网络中广播的交易请求，提取所述交易请求中交易发起资源节点的身份信息、信道质量测量参数和历史行为置信度；基于所述信道质量测量参数进行自身共享资源节点信道质量测量确定与所述发起交易资源节点之间信道的质量参数；基于所述发起交易资源节点的身份信息、所述自身共享资源节点可用计算资源量、所述信道的质量参数、自身共享资源节点正在匹配的其他交易的信息采用深度强化学习算法确定是否响应所述交易请求；若确定响应，则向所述发起交易资源节点发送接受竞争响应，所述接受竞争响应包括所述响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量；其中，所述接受竞争响应用于所述发起交易资源节点接收后基于各个接受竞争响应确定最优响应共享资源节点，所述最优响应共享资源节点用于和所述发起交易资源节点进行交易，交易过程中交易系统根据交易占用计算资源更新所述最优响应共享资源节点的可用计算资源量，交易完成后所述交易系统根据交易结果更新所述发起交易资源节点和所述最优响应共享资源节点的历史行为置信度。由于限定了无线边缘区块链网络中接收到交易请求的可能响应共享资源节点基于交易请求中携带的信息确定是否进行响应，而确定响应后在响应共享资源节点都向发起交易资源节点返回的接受竞争响应时由发起交易资源节点根据各个响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量，以及所述发起交易资源节点的历史行为置信度采用深度强化学习算法确定最优响应共享资源节点，即交易匹配充分考虑了双方的历史行为置信度、双方节点之间信道资源量以及响应共享资源节点的可用计算资源，使得交易匹配更合理，在考虑了历史行为置信度的情况下，可以保证匹配上的交易成功完成概率，交易过程中交易系统根据交易占用计算资源更新所述最优响应共享资源节点的可用计算资源量，交易完成后还根据交易结果更新所述发起交易资源节点和所述最优响应共享资源节点的历史行为置信度，实现及时更新交易匹配需要考虑的数据。因此，本发明提供的共享资源节点，实现了充分考虑影响交易过程和收益的因素，使得交易匹配更合理，交易更容易成功完成。

在上述实施例的基础上，本发明提供一种新型无线边缘区块链场景中计算资源共享服务的流程，图7为本发明提供的新型无线边缘区块链场景中计算资源共享服务的流程示例图，如图7所示，B-UE0为计算资源共享请求节点，B-UE4为计算资源共享提供节点，B-UE8和B-AP1代表新型无线边缘区块链网络中的其余节点。

首先，B-UE0发起计算资源共享请求并生成交易T₁，向网络中发布自己的身份信息(供网络中的其他节点验证自己身份的真实性)、交易T₁信息、自身的历史行为置信度(Class.Crdt)、自身信道质量测量参数(Test.Chan)。随后，网络中其他节点接收到来自B-UE0的交易消息后，验证B-UE0身份信息并根据B-UE0的Test.Chan测得实际两节点间的信道质量参数Class.Chan，配合B-UE0的Class.Crdt及自身的可用计算资源量Class.Comp决定是否接受交易T₁。

其中，网络中其它节点选择是否接受B-UE0的交易时，可以采用最基本的贪婪算法，即，在自身资源能够满足条件的情况下，对任何一个交易都接受，此外可以采用一类智能算法，深度强化学习算法来根据当前动态变化的情景需要做出最佳的是否接受交易的决策。以系统状态为输入，其中充分考虑交易发起者B-UE0的Class.Crdt、根据B-UE0给出的Test.Chan测得信道质量Class.Chan、交易相关信息(交易量大小、交易时延限制等)以及节点自身的Class.Comp，而策略网络的输出则为决策。选择策略梯度下降算法来训练策略网络。在训练阶段，以整体的优化目标函数作为策略网络的训练依据，例如以尽量少的资源成本完成更多的交易以及服务为目标时，奖励值为交易成功时的交易收益(交易失败时则无收益)减去计算及信道资源成本以及时延消耗。PG网络通过输入的环境状态及奖励反馈输出当前的最佳决策(B-UE4或B-UE8或B-AP1是否应当接受B-UE0的交易)，而后作用到环境中，环境状态进行更新而后提取关键信息并根据优化目标计算出奖励值，随后继续将更新后的环境状态信息及奖励反馈输入到PG网络中，从而更新网络决策能力。当策略网络训练结束后，可直接将网络应用到实际中，直接提取网络信息而后经过网络决策处理得到最佳决策，为每个节点决策是否接受B-UE0的交易。

第二状态空间矩阵ss通过如下公式表示：

ss＝[ss^pb,ss^pc,ss^r,ss^o,ss^u]_T×U

的数值取1表示在第m个时隙内第n个信道资源块已经被占用，

的数值取1表示在第m个时隙内第n个计算资源块已经被占用，

表示第

个正在进行的交易的第

个信息参数值，当

时，其指示发起交易资源节点的历史行为置信度参数，当

表示第i个交易的收益，当n＝L_b+L_c+2时，

表示第

个交易的第

个信息参数值，当

时，第

个信息参数为其交易的到达时间，当

时，第

个信息参数为其交易的成功完成后的收益，当

时，第

个信息参数为其交易的完成耗时；

对于动作空间来说，定义为

此后，确定了B-AP1及B-UE4均决定接受并竞争交易T₁，将自身的Class.Crdt、Class.Comp及经过测量得到的Class.Chan发送给B-UE0。B-UE0对B-AP1及B-UE4的身份进行验证后选择B-UE4作为最合适且恰当的资源共享节点，并将交易T₁相关的数据信息发送给B-UE4，同时自己的账户中扣除了相应的资源共享费用。

其中，B-UE0在选择B-UE4或B-AP1在接受交易时，同样可以采用最基本的贪婪算法，采用DRL来根据当前动态变化的情景需要做出选出最佳的响应共享资源节的决策，其策略网络迭代训练过程如图2所示。以实时的系统环境状态为输入，充分考虑交易资源提供者(即响应共享资源节点)B-UE04、B-AP1的历史行为置信度、信道质量参数、可用计算资源量，而策略网络的输出则为每一调度动作的概率值。在此步的训练阶段，以整体的优化目标函数作为策略网络的训练依据，例如以尽量少的交易资费(支付给交易资源提供者的资费)和资源成本完成更多的交易以及服务为目标，如图2所示，奖励值为交易成功时的交易收益(交易失败时则无收益)减去交易资费、信道资源成本以及时延消耗。从而，可以对策略网络训练中的具体量s、a、r_t进行设计及定义。

第一状态空间矩阵s通过如下公式表示：

s＝[s^p,s^r,s^o,s^u]_T×U

表示第

个正在进行的交易的第

个信息参数值，当

时，其指示该交易的资源提供节点的ID，当

时，其指示该交易的资源提供节点的历史行为置信度，当

个响应共享资源节点之间的信道状态下需要占用其第

个信道资源块，

个响应共享资源节点之间的信道状态下不需要占用其第

个信道资源块，当n＝N_PL_b+L_c+1时，

表示第

个交易的第

个信息参数值，当

时，第

个信息参数为其交易的到达时间，当

时，第

个信息参数为其交易的成功完成后的收益，当

时，第

个信息参数为其交易的完成耗时；

对于动作空间来说，定义为

，图2中的R与r_t之间的关系同样可以表示为

其中

图8示例了一种电子设备的实体结构示意图，如图8所示，该电子设备可以包括：处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行无线边缘区块链场景中的资源节点间交易匹配方法，该方法包括：向所在无线边缘区块链网络中广播交易请求，所述交易请求包括发起交易资源节点的身份信息、历史行为置信度和信道质量测量参数；接收所述无线边缘区块链网络中各个响应共享资源节点发送的接受竞争响应，所述接受竞争响应包括所述响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量；其中，所述响应共享资源节点为所述无线边缘区块链网络中接收到所述交易请求后基于所述交易请求确定响应所述交易请求的共享资源节点；基于所述各个响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量，以及所述发起交易资源节点的历史行为置信度采用深度强化学习算法确定最优响应共享资源节点；其中，所述最优响应共享资源节点用于和所述发起交易资源节点进行交易，交易过程中交易系统根据交易占用计算资源更新所述最优响应共享资源节点的可用计算资源量，交易完成后所述交易系统根据交易结果更新所述发起交易资源节点和所述最优响应共享资源节点的历史行为置信度。

处理器810还可以调用存储器830中的逻辑指令，以执行另一无线边缘区块链场景中的资源节点间交易匹配方法，该方法包括：接收在无线边缘区块链网络中广播的交易请求，提取所述交易请求中交易发起资源节点的身份信息、信道质量测量参数和历史行为置信度；基于所述信道质量测量参数进行自身共享资源节点信道质量测量确定与所述发起交易资源节点之间信道的质量参数；基于所述发起交易资源节点的身份信息、所述自身共享资源节点可用计算资源量、所述信道的质量参数、自身共享资源节点正在匹配的其他交易的信息采用深度强化学习算法确定是否响应所述交易请求；若确定响应，则向所述发起交易资源节点发送接受竞争响应，所述接受竞争响应包括所述响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量；其中，所述接受竞争响应用于所述发起交易资源节点接收后基于各个接受竞争响应确定最优响应共享资源节点，所述最优响应共享资源节点用于和所述发起交易资源节点进行交易，交易过程中交易系统根据交易占用计算资源更新所述最优响应共享资源节点的可用计算资源量，交易完成后所述交易系统根据交易结果更新所述发起交易资源节点和所述最优响应共享资源节点的历史行为置信度。

此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的无线边缘区块链场景中的资源节点间交易匹配方法，该方法包括：向所在无线边缘区块链网络中广播交易请求，所述交易请求包括发起交易资源节点的身份信息、历史行为置信度和信道质量测量参数；接收所述无线边缘区块链网络中各个响应共享资源节点发送的接受竞争响应，所述接受竞争响应包括所述响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量；其中，所述响应共享资源节点为所述无线边缘区块链网络中接收到所述交易请求后基于所述交易请求确定响应所述交易请求的共享资源节点；基于所述各个响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量，以及所述发起交易资源节点的历史行为置信度采用深度强化学习算法确定最优响应共享资源节点；其中，所述最优响应共享资源节点用于和所述发起交易资源节点进行交易，交易过程中交易系统根据交易占用计算资源更新所述最优响应共享资源节点的可用计算资源量，交易完成后所述交易系统根据交易结果更新所述发起交易资源节点和所述最优响应共享资源节点的历史行为置信度。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的另一无线边缘区块链场景中的资源节点间交易匹配方法，该方法包括：接收在无线边缘区块链网络中广播的交易请求，提取所述交易请求中交易发起资源节点的身份信息、信道质量测量参数和历史行为置信度；基于所述信道质量测量参数进行自身共享资源节点信道质量测量确定与所述发起交易资源节点之间信道的质量参数；基于所述发起交易资源节点的身份信息、所述自身共享资源节点可用计算资源量、所述信道的质量参数、自身共享资源节点正在匹配的其他交易的信息采用深度强化学习算法确定是否响应所述交易请求；若确定响应，则向所述发起交易资源节点发送接受竞争响应，所述接受竞争响应包括所述响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量；其中，所述接受竞争响应用于所述发起交易资源节点接收后基于各个接受竞争响应确定最优响应共享资源节点，所述最优响应共享资源节点用于和所述发起交易资源节点进行交易，交易过程中交易系统根据交易占用计算资源更新所述最优响应共享资源节点的可用计算资源量，交易完成后所述交易系统根据交易结果更新所述发起交易资源节点和所述最优响应共享资源节点的历史行为置信度。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的无线边缘区块链场景中的资源节点间交易匹配方法，该方法包括：向所在无线边缘区块链网络中广播交易请求，所述交易请求包括发起交易资源节点的身份信息、历史行为置信度和信道质量测量参数；接收所述无线边缘区块链网络中各个响应共享资源节点发送的接受竞争响应，所述接受竞争响应包括所述响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量；其中，所述响应共享资源节点为所述无线边缘区块链网络中接收到所述交易请求后基于所述交易请求确定响应所述交易请求的共享资源节点；基于所述各个响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量，以及所述发起交易资源节点的历史行为置信度采用深度强化学习算法确定最优响应共享资源节点；其中，所述最优响应共享资源节点用于和所述发起交易资源节点进行交易，交易过程中交易系统根据交易占用计算资源更新所述最优响应共享资源节点的可用计算资源量，交易完成后所述交易系统根据交易结果更新所述发起交易资源节点和所述最优响应共享资源节点的历史行为置信度。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的另一另一无线边缘区块链场景中的资源节点间交易匹配方法，该方法包括：接收在无线边缘区块链网络中广播的交易请求，提取所述交易请求中交易发起资源节点的身份信息、信道质量测量参数和历史行为置信度；基于所述信道质量测量参数进行自身共享资源节点信道质量测量确定与所述发起交易资源节点之间信道的质量参数；基于所述发起交易资源节点的身份信息、所述自身共享资源节点可用计算资源量、所述信道的质量参数、自身共享资源节点正在匹配的其他交易的信息采用深度强化学习算法确定是否响应所述交易请求；若确定响应，则向所述发起交易资源节点发送接受竞争响应，所述接受竞争响应包括所述响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量；其中，所述接受竞争响应用于所述发起交易资源节点接收后基于各个接受竞争响应确定最优响应共享资源节点，所述最优响应共享资源节点用于和所述发起交易资源节点进行交易，交易过程中交易系统根据交易占用计算资源更新所述最优响应共享资源节点的可用计算资源量，交易完成后所述交易系统根据交易结果更新所述发起交易资源节点和所述最优响应共享资源节点的历史行为置信度。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种无线边缘区块链场景中的资源节点间交易匹配方法，其特征在于，包括：

接收所述无线边缘区块链网络中各个响应共享资源节点发送的接受竞争响应，所述接受竞争响应包括所述响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量；其中，所述响应共享资源节点为所述无线边缘区块链网络中接收到所述交易请求后基于所述交易请求确定响应所述交易请求的共享资源节点；

基于所述各个响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量，以及所述发起交易资源节点的历史行为置信度采用深度强化学习算法确定最优响应共享资源节点；其中，所述最优响应共享资源节点用于和所述发起交易资源节点进行交易，交易过程中交易系统根据交易占用计算资源更新所述最优响应共享资源节点的可用计算资源量，交易完成后所述交易系统根据交易结果更新所述发起交易资源节点和所述最优响应共享资源节点的历史行为置信度。

2.根据权利要求1所述的无线边缘区块链场景中的资源节点间交易匹配方法，其特征在于，所述基于所述各个响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量，以及所述发起交易资源节点的历史行为置信度采用深度强化学习算法确定最优响应共享资源节点，具体包括：

3.根据权利要求2所述的无线边缘区块链场景中的资源节点间交易匹配方法，其特征在于，所述基于所述发起交易资源节点的历史行为置信度、所述各个响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量构建第一状态空间矩阵，具体包括：

第一状态空间矩阵s通过如下公式表示：

s＝[s^p,s^r,s^o,s^u]_T×U

表示第

个正在进行的交易的第

个信息参数值，当

时，其指示该交易的资源提供节点的ID，当

时，其指示该交易的资源提供节点的历史行为置信度，当

个响应共享资源节点之间的信道状态下需要占用其第

个信道资源块，

个响应共享资源节点之间的信道状态下不需要占用其第

个信道资源块，当n＝N_PL_b+L_c+1时，

表示第

个交易的第

个信息参数值，当

时，第

个信息参数为其交易的到达时间，当

时，第

个信息参数为其交易的成功完成后的收益，当

时，第

个信息参数为其交易的完成耗时；

4.根据权利要求1-3中任一项所述的无线边缘区块链场景中的资源节点间交易匹配方法，其特征在于，所述无线边缘区块链网络中接收到所述交易请求的共享资源节点基于所述交易请求确定响应所述交易请求的过程，具体包括：

5.根据权利要求4所述的无线边缘区块链场景中的资源节点间交易匹配方法，其特征在于，所述任一接收共享资源节点基于所述发起交易资源节点的身份信息、自身可用计算资源量、其与所述发起交易资源节点之间信道的质量参数、其正在匹配的其他交易的信息采用深度强化学习算法确定是否响应所述交易请求，具体包括：

6.根据权利要求5所述的无线边缘区块链场景中的资源节点间交易匹配方法，所述有效接收共享资源节点基于自身可用计算资源量、其与所述发起交易资源节点之间信道的质量参数和其正在匹配的其他交易的信息构建第二状态空间矩阵，具体包括：

第二状态空间矩阵ss通过如下公式表示：

ss＝[ss^pb,ss^pc,ss^r,ss^o,ss^u]_T×U

的数值取1表示在第m个时隙内第n个信道资源块已经被占用，

的数值取1表示在第m个时隙内第n个计算资源块已经被占用，

表示第

个正在进行的交易的第

个信息参数值，当

时，其指示发起交易资源节点的历史行为置信度参数，当

表示第i个交易的收益，当n＝L_b+L_c+2时，

表示第

个交易的第

个信息参数值，当

时，第

个信息参数为其交易的到达时间，当

时，第

个信息参数为其交易的成功完成后的收益，当

时，第

个信息参数为其交易的完成耗时；

7.一种无线边缘区块链场景中的资源节点间交易匹配方法，其特征在于，包括：

若确定响应，则向所述发起交易资源节点发送接受竞争响应，所述接受竞争响应包括所述响应共享资源节点的身份信息、历史行为置信度、信道质量参数和可用计算资源量；其中，所述接受竞争响应用于所述发起交易资源节点接收后基于各个接受竞争响应确定最优响应共享资源节点，所述最优响应共享资源节点用于和所述发起交易资源节点进行交易，交易过程中交易系统根据交易占用计算资源更新所述最优响应共享资源节点的可用计算资源量，交易完成后所述交易系统根据交易结果更新所述发起交易资源节点和所述最优响应共享资源节点的历史行为置信度。

8.一种发起交易资源节点，其特征在于，包括：

9.一种共享资源节点，其特征在于，包括：

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7中任一项所述的无线边缘区块链场景中的资源节点间交易匹配方法的步骤。