CN113660668B

CN113660668B - 一种异构融合网络的无缝可信跨域路由系统及其控制方法

Info

Publication number: CN113660668B
Application number: CN202110530588.1A
Authority: CN
Inventors: 张家蕾; 闫峥
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2021-05-15
Filing date: 2021-05-15
Publication date: 2023-12-19
Anticipated expiration: 2041-05-15
Also published as: CN113660668A

Abstract

本发明属于跨域路由技术领域，公开了一种异构融合网络的无缝可信跨域路由系统及其控制方法，所述异构融合网络无缝可信跨域路由系统的控制方法包括：通过信任计算方法和激励机制评估网络节点的信任值并激发其诚实行为；进行用于跨域路由的智能合约的发布，并确定网络状态更新的过程；设计AR‑DRL算法，该算法基于区块链和DDPG算法以获得最佳路由策略，实现无缝的跨域路由。本发明通过智能合约和机器学习算法实现自动跨域路由；通过激励机制和共识机制来提高路由节点的可信度；根据注册过程中运营商提供的网络状态信息，远程评估路由过程中网络状态信息的真实性，能够抵抗网络运营商的伪造和串通攻击，确保了路由信息的真实性和可靠性。

Description

一种异构融合网络的无缝可信跨域路由系统及其控制方法

技术领域

本发明属于跨域路由技术领域，尤其涉及一种异构融合网络的无缝可信跨域路由系统及其控制方法。

背景技术

目前，移动通信以不可阻挡的趋势持续快速发展。随着移动网络系统的飞速变革，5G将渗透到物联网等领域，与工业设施、医疗服务、交通运输等领域深度异构融合，全面实现万物互联，有效满足工业、医疗、交通等垂直行业的信息服务需求。毫无疑问，未来通信系统将在现有5G的基础上进一步发展，后5G甚至未来的6G将成为通信技术发展最有前景的方向。6G很可能是一个天地一体化异构融合网络。相较于传统单一网络，一体化异构融合网络(Integrated Converged HetNets)是将多种异构网络融合而成的。因不同网络具有不同的体系结构和特点，该一体化异构融合网络具有网络异构性、拓扑结构时变性、自组织性、通信链路开放性、高时延性、大规模性等特点，这些特点使该异构融合网络面临多个方面和不同层次的安全威胁。

路由安全是网络安全的核心问题之一，它决定了网络数据传输的质量和性能。与传统地面网络相比，一体化异构融合网络的开放和异构特性使其路由更易遭受路由控制信息窃取、篡改、伪造、重放以及拒绝服务等攻击，从而导致网络性能严重下降甚至整个网络瘫痪。此外，一体化异构融合网络的时变性易造成路由信息的快速变化，高动态性易降低系统的效率，从而使网络难以保证高效的资源利用率和QoS需求。因此，如何在一体化异构融合网络中实现安全可信路由是该网络实用化的关键。

特别地，由于一体化异构融合网络的特性(诸如异构性，拓扑时变性，自组织性，通信链路的开放性，高延迟和大规模性)，很难建立单个中心实体来管理整个网络的路由。同时在该异构融合网络中，不同网络的身份认证中心需要频繁交换大量信息，这使得信息管理变得非常复杂，难以确保一致性和可信性。另外，由于不同网络的认证中心之间不能完全信任对方，难以实现不可否认性。总之，与传统的单个网络相比，一体化异构融合网络的开放性和异构性使路由更容易受到攻击。因此，在一体化异构融合网络中建立一个通用的可信平台，实现可信路由仍面临巨大挑战。

为了确保路由的可信性，已经有一些研究被提出。但是，大多数现有工作仅适用于单一的网络，或只提供在特定场景下可行的路由方案，这些研究很难应用于一体化异构融合网络场景，以至于无法确保其路由的安全性和自主性。

由于异构融合网络的特定特性，很难建立一个单一的中心实体来统一管理整个网络，也就是说，使用集中式架构很难获得足够的安全性，因此，异构融合网络的跨域路由需要相关网络运营商之间的合作。区块链作为一种分布式可信平台，具有去中心化、高容错性、信息一致性和可追溯性等优点，可以为异构融合网络中的跨域路由提供良好的解决方案。

(1)传统的单自治域路由

当前，有许多针对单自治域的路由方案。它们中的大多数集中在某种特定网络的路由问题上，例如移动自组织网络的路由、地面网络的路由、基于IP的卫星网络路由、空间网络的路由、卫星的路由以及基于延迟容忍网络(DTN)的路由等。其中DTN协议广泛用于空间和地面网络环境。然而，尽管路由协议已被广泛研究，但大多数路由主要适用于地面网络场景，例如传染性路由、概率路由、社会属性路由以及适用于车辆网络的路由等。

随后，为了提高单自治网络中数据传输，转发和其他过程的路由性能，Marchang等人为移动自组织网络设计了一种基于信任的轻量级路由协议，该协议使用信任度量以检测出行为异常的节点。在评估邻居的信任级别时，该工作只考虑邻居的数据包转发行为。从某种意义上讲，该工作是轻量级的，而且用于估计一个节点对另一个节点的信任度的入侵检测系统(IDS)消耗了有限的计算资源。张等人提出了一种基于存储时间聚合图(STAG)的服务质量(QoS)路由策略，该策略支持卫星网络上的多个任务。针对卫星网络中多个任务的QoS问题，设计了QoS支持的路由策略，以在可接受的传递延迟下最大化多路径流量。特别地，作者使用STAG构建了按需任务模型来描述网络的动态特性和不同的任务需求，然后将QoS支持问题简化为基于图形的最大流量问题。为了解决基于图形的最大流量问题，作者还提出了一种基于STAG的多流路由方案，保证任务的QoS并以较低的计算复杂度匹配稀有网络资源。Lu等人提出了一种在两层卫星网络中的拓扑控制策略以确保路由拓扑的一致性。在此基础上，结合集中式路由策略和分布式路由策略，他们提出了一种健壮的路由协议。该协议提高了路由安全性且减少了路由延迟。Pan等人全面考虑了网络负载特性、节点利用率、信任值和跳数等条件，通过引入滑动窗口机制提出了信任评估模型。在此模型的基础上，设计了适用于卫星网络的按需安全路由协议以有效地防止大量内部攻击，提高了路由过程的安全性。

(2)多域和跨域路由

一体化异构融合网络由覆盖空天地海洋网络的各种网络组成。多个异构网络的融合使传统的单自治域路由协议在一体化异构融合网络中变得不可行。当前，研究者针对多域跨域路由问题进行了相关研究。其中一些研究是基于软件定义网络(SDN)以实现跨域路由过程中的隐私保护。Chen等人提出了一种跨域路由优化(PYCRO)中的隐私保护方法。在该方法中，PYCRO可以计算出符合策略的跨域最短路径，并在保护域的私有信息的同时为流分配带宽。随后，为了提高时间效率，Chen等人提出了一种基于SDN的跨域隐私保护路由方案。该方案设计了快速路径(QIP)技术避免了在跨域路由中使用安全多方计算(SMPC)效率低下的问题。张等人基于源路由和预路由的思想，提出了一种用于多域网络的跨域源路由方案。跨域流供应请求仅在源域和目标域中生成，而且每个控制器仅需承担与本地流量相关的负载。实验结果表明，该方案可以减轻控制器的负担。然而，尽管该方案实现了多个域之间的路由，但由于一体化异构融合网络的特性，它依然应用于一体化异构融合网络的跨域路由。Saadi等人通过结合IEEE802.11无线网状网络(WMN)和长期演进(LTE)网络，提出了一种异构的城域网架构。基于此，他们提出了一种新的异构路由协议和基于强化学习的路由算法，该算法可根据每个网络中的参数选择适当的传输技术。然而，该方案不能支持一体化异构融合网络中的自动路由。综上可知，以上相关研究均无法为一体化异构融合网络中跨不同网络域的路由问题提供安全可靠的解决方案。

为了确保安全可靠的跨域路由，研究者基于区块链技术设计了一些跨域路由方案。杨等人提出了一种无线传感器网络中基于区块链技术和强化学习算法的路由方案。该方案应用区块链技术确保无线传感器网络中信息的可追溯性和不可篡改性。使用强化学习算法来提高路由效率，以获得可靠且有效的路由链接。但是，由于以下四个原因，该方案显然不能直接应用于一体化异构融合网络的跨域路由：1)该方案中使用的强化学习算法无法处理复杂的状态空间和拥有高维数据空间的一体化异构融合网络；2)该方案针对的是无线传感器网络场景，无法很好的应用在一体化异构融合网络中；3)该方案未考虑交易信息的可靠性，这使路由信息易遭受黑洞攻击；4)该方案使用区块链以确保交易信息不被篡改，但它没有考虑路由节点的可靠性和信任评估，无法确保参与路由的节点的可信性；5)该方案没有考虑拓扑信息的真实有效性。乔等人基于区块链技术提出了一种基于SDN和云的可靠路由方案。该方案利用区块链的特性建立分布式控制器之间的信任关系。基于这种信任关系，在SDN中设计了一个基于云的可信跨域路由机制。此方案没有使用强化学习算法，但它与现有技术中的方案存在相似的问题，显然也不适用于一体化异构融合网络。由此可知，由于一体化异构融合网络的特定特性，上述方案不仅无法有效保证路由的安全性和信任度，而且也不能实现自动路由。因此，上述现有方案在一体化融合网络跨域路由时均不适用。简而言之，目前仍然缺乏一个可以在异构融合网络中实现跨多个网络域的无缝可靠的自动路由方案。

由于一体化异构融合网络的特定特性，很难建立一个统一的中央实体来管理整个网络，也就是说，使用集中式架构很难获得足够的安全性，因此需要相关网络运营商进行合作以实现一体化异构融合网络的跨域路由。由于网络节点可能会说谎，而且信息在传输过程中可能面临被窃取、篡改、伪造或重放的风险。因此一体化异构融合网络面临着严重的路由安全问题。

在当前的研究中，网络路由中仍然存在一些未解决的问题：1)由于拓扑变化和链路延迟，Internet和自组织网络的现有路由协议无法满足一体化异构融合网络的路由要求。2)现有的路由方案主要适用于特定的网络场景，不能以通用的方式应用于不同类型的网络。3)在路由过程中，现有方案过分依赖于某些可信节点。由于“可信”节点的单点脆弱性，容易造成单点故障。4)大多数现有工作不能直接应用于一体化异构融合网络中。5)大多数现有的路由方案没有考虑不同网络提供的拓扑信息的真实性和可信性，易遭受各种路由攻击。

因此，亟需解决以下问题：

问题1：解决异构融合网络跨域路由的可信问题。由于一体化异构融合网络的特性(诸如异构性，拓扑时变性，自组织性，通信链路的开放性，高延迟和大规模性)，很难建立单个中心实体来管理整个网络的路由。同时在该异构融合网络中，不同网络的身份认证中心需要频繁交换大量信息，这使信息管理变得非常复杂，难以确保一致性和可信性。另外，由于不同网络的认证中心之间不能完全信任对方，从而难以实现不可否认性。与传统的单个网络相比，一体化异构融合网络的开放性和异构性使路由更容易受到攻击。因此，有必要在一体化异构融合网络中建立一个通用的可信平台。

问题2：在问题1的基础上，解决异构融合网络的自动跨域路由问题：现有的路由方案主要适用于特定的网络场景，不能以通用的方式应用于不同类型的网络，因此现有方案无法直接应用于一体化异构融合网络中。而且，由于拓扑动态变化和链路延迟，Internet和自组织网络的现有路由协议无法满足一体化异构融合网络的路由要求。

问题3：在问题1的基础上，解决路由拓扑信息的真实性和路由可靠性问题：对于一体化异构融合网络的开放和异构特性，路由过程更易遭受路由信息窃取、篡改、伪造、重放和拒绝服务等攻击，易导致网络性能严重下降甚至整个网络瘫痪。而且，跨域路由时运营商为了吸引流量或自我谋利，可能会在跨域路由时提供虚假路由信息，导致路由出错或失败，无法有效确保拓扑信息的真实性和路由的可靠性。

通过上述分析，现有技术存在的问题及缺陷为：

(1)由于拓扑变化和链路延迟，Internet和自组织网络的现有路由协议无法满足一体化异构融合网络的路由要求。

(2)现有的路由方案主要适用于特定的网络场景，不能以通用的方式应用于不同类型的网络。

(3)在路由过程中，现有方案过分依赖于某些可信节点，由于“可信”节点的单点脆弱性，容易造成单点故障，且大多数现有工作不能直接应用于一体化异构融合网络中。

(4)大多数现有的路由方案没有考虑不同网络提供的拓扑信息的真实性和可信性，易遭受各种路由攻击。

解决以上问题及缺陷的难度为：

1.一体化融合网络场景具有异构性，拓扑时变性，自组织性，通信链路的开放性，高延迟和大规模性，设计满足条件的有效且实用的路由方案或算法有难度。

2.网络的拓扑信息是动态变化的，跨域路由时运营商可能会在跨域路由时提供虚假路由信息，保证拓扑信息的真实性和路由的可靠性有一定难度。

解决以上问题及缺陷的意义为：

1.可以为一体化异构融合网络建立一个通用的可信平台以实现可信路由。

2.可以有效确保异构融合网络的无缝可信自动跨域路由。

3.在一定程度上确保了路由拓扑信息的真实性和路由可靠性。

发明内容

针对现有技术存在的问题，本发明提供了一种异构融合网络的无缝可信跨域路由系统及其控制方法，尤其涉及一种基于区块链的异构融合网络的无缝可信跨域路由系统及其控制方法。

本发明是这样实现的，一种异构融合网络无缝可信跨域路由系统的控制方法，所述异构融合网络无缝可信跨域路由系统的控制方法包括：通过信任计算方法和激励机制评估网络节点的信任值并激发其诚实行为；进行用于跨域路由的智能合约的发布，并确定网络状态更新的过程；设计AR-DRL算法，该算法基于区块链和DDPG算法以获得最佳路由策略，实现无缝的跨域路由。

进一步，所述异构融合网络无缝可信跨域路由系统的控制方法包括以下步骤：

步骤一，信任计算与激励机制确定；通过信任计算方法和激励机制评估网络节点的信任值并激发其诚实行为；

步骤二，发布智能合约；通过智能合约和机器学习算法实现自动跨域路由；

步骤三，进行网络状态更新；因为网络信息一直在变化，进行网络状态更新可以更好地实现可扩展性；

步骤四，构建跨域智能路由；通过基于深度强化学习(AR-DRL)的自动路由算法来计算最佳路由策略，该算法基于区块链和DDPG算法以获得最佳路由策略，实现无缝的跨域路由。

步骤五，统计成本。因为没有人愿意无偿参与资源消耗工作。在对路由路径达成共识后，相关运营商将根据跨网络域路由过程中使用的网络资源量执行同步和记帐，从而促进更多节点加入跨域路由。

进一步，步骤一中，所述信任计算与激励机制，包括：

(1)网络中的每个节点向证书中心注册，获得随机唯一的ID并为自己生成一个唯一地址Add；各网络根据不同节点的信任值，授权内部信任度最高的节点作为区块链的授权矿工，并且将所有节点的信任值存储在区块链中；引入阈值λ来确定网络中任意节点的信任度，如果Tr(i，j)≥λ，则节点是可信的；否则，节点是恶意的；被评估为可信的节点被视为协作节点，并且有资格获得可用于消费的令牌作为奖励；恶意节点被添加到灰名单中受到惩罚，并设置对节点的惩罚远远大于奖励；其中，所述基于信任值的激励机制计算过程如下：

其中，g₁是奖励因子，g₂是惩罚因子，g₂＞＞g₁。

(2)动态信任评估机制的确定：

1)直接信任

直接信任是指当前时刻节点i对节点j信任值的直接评价，评估结果存储在节点的本地数据库中。在路由过程中，源节点发送的数据包经节点i传递给邻居节点j，节点i在发送数据包时对节点j的转发情况进行监视，根据监视结果计算从节点i到节点j的直接信任值Tr_D(i，j)，并将该信任值计算结果存储在节点本地数据库；其中，所述直接信任值的计算可以表示为：

其中，Tr_D ^k-1(i，j)表示根据节点j的历史行为，节点i对节点j的直接信任值，也即节点i可以查询节点j的信任值数据库找到节点j的历史信任数据；Sr_D(i，j)＝λ₁P_j+λ₂N_j表示节点i利用入侵检测系统对节点j的可信评价；P_j和N_j分别代表入侵检测系统对于用户j当前行为的正面和负面评价，λ₁，λ₂根据入侵检测系统的情况设定，且λ₁+λ₂＞0；zr(i，j)表示节点j从节点i接收到的数据分组中成功转发的数量；fr(i，j)表示节点j从节点i接收到的数据分组中丢弃的数量；参数α表示衰减时间因子，代表历史信任价值随时间的衰减程度且0＜α＜1。

2)推荐信任

节点i向邻居节点发起推荐信任值计算过程，进一步对节点j进行评价；推荐信任值的具体计算过程为：

节点i向邻居节点广播发送任值查询信息，发起推荐信任值计算过程；节点i的邻居节点收到查询信息后，查询本地数据库记录，如果数据库里存在关于节点j的信任值，则发送响应消息，将节点j的直接信任值计算结果发送给节点i；若节点i的邻居节点中有n(n＞2)个节点的信任值数据库中存在对节点j的直接信任值计算结果，则对于每个推荐者e，首先计算相应的权重因子ξ_e：

其中，Tr_D(i，e)表示节点i对节点e的直接信任值计算结果，其值越大表示节点e的可信程度越高，相应的加权因子ξ_e越大，表明节点e的推荐意见在最终的推荐信任值中所占的比重就越大，故节点的推荐信任值计算可表示为：

3)综合信任值

通过节点的直接信任值和推荐信任值，计算节点的综合信任值为：

4)动态信任值

计算节点的动态信任值Tr(i，j)：

Tr(i，j)＝αθ₁Tr_C ^old(i，j)+θ₂Tr_C ^new(i，j)；

其中，Tr_C ^old(i，j)，Tr_C ^new(i，j)分别表示节点的历史综合信任值和当前综合信任值；βθ₁，θ₂为权重因子，且由于当前的综合信任值比历史综合信任值具有更好的参考价值，故θ₁，θ₂满足0＜θ₁＜θ₂＜1，θ₁+θ₂＝1；α为衰减因子，表示历史信任值随时间的衰减程度且0＜α＜1。

进一步，步骤二中，所述发布智能合约，包括：

利用智能合约促进异构融合网络的自动路由：创建智能合约时，先为合约生成一个地址，然后每个运营商协商并向该地址发送相同数量的令牌以生成智能合约；当所有运营商基于POA共识机制达成共识时，智能合约即被发布；在路由过程中，所有路由请求都会发送到智能合约；一旦发出路由请求，智能合约将自动执行路由过程。

基于智能合约的自动路由包括三个阶段：第一阶段用于发送路由请求；第二阶段用于建立路由链路；第三阶段用于维护路由；第一阶段包括Routing Request Function：源用户向本地域服务器发送路由请求包，本地服务器根据目的节点的地址确定路由类型；如果需要跨域路由，服务器向智能合约发送路由请求；第二阶段包括Routing OfferFunction：每个接收路由请求包的中间节点或目的节点可通过向源用户发送路由回复消息进行响应；指定响应时间T的阈值，如果t＞T，中间节点将被放入灰名单中；使用AR-DRL算法根据所有中间响应节点为路由过程选择最佳下一跳；第三阶段包括一个Routing AcceptFunction：当所有授权矿工对AR-DRL算法输出的路由策略达成一致时，服务器将按照路由策略将数据包发送到目标节点；其中，灰名单中的信息用于通知其他源用户中间节点不再可达；在确定路由策略之后，灰名单中的不相关节点被释放。

进一步，步骤三中，所述网络状态更新，包括：

(1)区块链架构

采用联盟区块链构建可靠的管理平台；区块链是由区块连接起来的链式结构，存储着网络的交易信息，其中每个块包括区块头和区块体。

其中，所述区块头包括版本信息、父哈希、生成块的难度、生成块的时间戳和Merkle树的哈希值；所述块体包括该块创建和验证过程中所有网络节点的数据和事务信息；其中，所述事务信息包括路由信息和网络状态信息。

(2)网络状态更新

1)运营商想要参与跨域路由过程，需先在认证中心注册，并将部分令牌转移到相应的认证中心作为押金；注册时，每个运营商提供自己的拓扑信息TS和网络状态信息NS；拓扑信息TS＝{G，H}，G表示实际网络中的交换机集合；H表示实际网络中的物理链路；网络状态信息，即网络性能由以下集合表示：

NS＝{LU(…)，C(…)，D(…)，B(…)，T(…)}；

其中，LU(…)表示网络中每个链路的链路利用率，它表示链路中分配的业务量与链路带宽的比率；C(…)表示网络链路的带宽；D(…)表示网络延迟；B(…)表示链路可达性，T(…)表示链路吞吐量；网络性能需要满足基本的网络QoS标准和丢包率，否则将被认为是不合理的且没有路由和转发能力的网络；

2)在路由前，每个授权矿工可以根据注册过程中运营商提供的拓扑信息和网络状态信息，对运营商提供的当前网络质量信息进行远程认证；如果认证结果是：当前网络信息与注册时的信息没有显著差异，或者保持在可接受的错误范围内，并且所有授权矿工对认证结果达成一致，那么运营商是可信的；否则，运营商是恶意的；其中，所述网络信息包括拓扑信息和网络状态信息；

3)假设运营商的拓扑信息可以分为两种情况：拓扑信息固定不变且可以被公开验证；拓扑信息动态变化；则该两种情况的网络状态更新过程如下：

①拓扑信息固定不变：运营商发布其拓扑信息TS，每个人都可以公开验证其拓扑状态信息的真实性；根据步骤2)，如果所有授权矿工都对认证结果达成一致，则表明运营商提供的信息是可靠的；根据PoA共识机制，验证后的拓扑信息将被存储在区块链中，路由相关信息通过令牌交易传递给智能合约；其中，所述路由相关信息包括源地址和目的地址；

②如果运营商的拓扑在一段时间内发生动态变化，则在认证中心离线验证拓扑信息的有效性，执行步骤(2)以确定运营商是否为跨域路由提供真实拓扑信息，验证后的拓扑信息也被存储在区块链；如果拓扑结构再次更改，则重复所述离线验证；

4)如果一个运营商提供的信息真实且服务质量良好，该运营商将额外获得一些代币作为奖励或收到一部分退还的押金，以促进其诚实行为；否则，该运营商的押金将增加，即运营商需要再多给一部分代币作为押金。

进一步，步骤四中，所述跨域智能路由，包括：

当本地域中的用户向本地服务器发送一个新的路由请求包P_User＝(Add_User，Sou，Des)时，本地服务器首先确定是否需要跨域路由，即通过数据的起点和终点来判断路由类型，若起点和终点在同一个域中，就不需要跨域路由，反之亦然；在P_User中，Add_User是用户唯一的身份地址，Sou是源节点的信息，Des是目的节点的信息；本地服务器向本地区块链授权矿工发出“建立跨域路由”请求，建立跨域路由；其中，所述链路自动跨域路由的过程如下：

(1)网络状态信息收集、测量、更新并存储在区块链中；如果接收到新的路由请求，本地区块链授权矿工将此路由请求数据包P_User及其标识地址Add_Miner发送到智能合约地址Add_Contrat；如果在智能合约中检测到这个带有Add_Miner的包，则表示授权矿工成功发出路由请求，该请求触发智能合约的Routing Request Function完成第一阶段；

(2)一旦发出路由请求，智能合约的Routing Offer Function将自动执行；这意味着某个具有转发数据能力的中间节点或目的节点将在时间T内响应路由请求并提供相关服务，假设这些节点的响应时间为t，如果t＞T或节点的质量评估不能满足基本网络的QoS要求，则该节点的地址将被放在灰名单中；随着网络状态信息的更新，灰名单的内容也在不断更新；

(3)在智能合约的Routing Offer Function中采用AR-DRL算法来实现第二阶段；在这个过程中，使用AR-DRL算法，根据所有中间节点的响应情况，为路由过程选择最佳的下一跳；

(4)根据步骤(3)中AR-DRL算法的输出，如果所有授权矿工达成共识，智能合约的Routing Accept Function将自动执行以实现第三阶段，达成共识的算法输出路由策略将被上传并存储在区块链中，根据得到的路由策略，本地服务器执行路由过程，服务质量较高的链路更有可能成为下一跳链路。

进一步，步骤(3)中，用户发送新的路由请求后，本地服务器根据网络状态S通过智能合约自动选择不同的下一跳，即本地服务器执行不同的动作A并获得相应的奖励R，经过不断的交互，本地服务器获得一系列状态，行动和奖励如下Data＝{S₁，A₁，R₁，S₂，A₂，…，S_i+1，A_i+1，R_i+1}，被作为训练集放入重放缓冲区；从回放缓冲区中提取一定量的数据进行训练使算法收敛；S_i表示网络在时刻i的状态信息。

负责管理本地域的服务器充当代理Agent；在跨域路由方案中，状态集State Set、动作集Action Set和奖励Reward的具体定义如下：

状态集：在该方案中，在k时刻网络中所有链路的时延、链路利用率、节点信任值、拓扑信息和数据流请求信息用向量S_k表示，其中D_k表示每对节点在k时刻的传输时延；LU_k表示k时刻网络中每条链路的利用率；/>表示k时刻的流量请求信息；TS_k表示k时刻网络的拓扑信息，则状态集S＝{S₁，S₂，…，S_k}，S也被存储在区块链中；

动作集：动作包括两个方面：一是根据路由状态信息选择最优网络作为跨域路由的转接网络；二是根据节点状态信息/>找到最优下一跳节点，T_r表示每个节点的信任值，则节点状态集为S＝{S′₁，S′₂，...，S′_k}；动作向量A_k是指在时间k执行的动作，即在时间k对应的下一跳网络链路，动作集A＝{A₁，A₂，...，A_k}；通过改变网络链路的质量可以改变路由下一跳所选的路径；网络链路的质量越高，使用该链路得到的状态动作值Q越高，该链路成为最佳下一跳路径的可能性就越大；

奖励：奖励函数表示在某一状态下执行相应动作的即时奖励。对报酬进行恰当定义有助于Agent采取最佳的行动策略；在该模型中，有效传输指路由Agent找到满足QoS标准的下一跳并成功地传输信息；奖励与传输延迟有关，传输延迟越小，奖励值越高，反之亦然；目标是以最大的回报获得最小的传输时延；在时间k的奖励值R_k表示为R_k＝1/D_k，其中D_k表示在时间k链路的传输延迟；

进一步，步骤(4)中，在路由开始时，每个服务器初始化Actor网络和Critic网络的参数，初始化重放缓冲区B；在选定的动作中加入一定的噪声ξ，并初始化噪声ξ；更新网络状态信息并将其存储在区块链中；在跨域路由的情况下，本地服务器首先发出跨域路由请求并执行智能合约的Routing Offer Function；在Actor估计网络中，基于状态S_i获得动作A_i，并且通过执行动作A_i获得相应的奖励R_i和新状态S_i+1，将获得的信息Data′＝{S₁，A₁，R₁，S₂，A₂，…，S_N，A_N，R_N}存储在重放缓冲区B中；从回放缓冲区B中抽取L个训练样本，用梯度下降法更新Actor网络的所有参数ω_P和Critic网络的所有参数ω_Q；更新Actor目标网络的所有参数和Critic目标网络的所有参数/>继续迭代，直到算法收敛或达到最大训练次数时迭代完成；如果是域内路由，则根据存储在区块链中的数据继续迭代，直到算法收敛；其中，所述Actor网络以状态S，S′作为其输入，输出动作A的均值和方差；Critic网络以状态S，S′作为输入，输出S，S′的估计状态值Q；当算法收敛时，输出路由策/>

进一步，步骤五中，所述统计成本，包括：

在对路由路径达成共识后，相关运营商将根据跨网络域路由过程中使用的网络资源量执行同步和记帐；用户必须根据区块链中记录的数据向网络服务提供商支付相关费用；其中，所述账单包括：使用的网络资源的总成本，假设为b₁，以及运营商注册时产生的押金成本，假设为b₂，所以账单为b₁+b₂。

本发明的另一目的在于提供一种应用所述的异构融合网络无缝可信跨域路由系统的控制方法的异构融合网络无缝可信跨域路由系统，所述异构融合网络无缝可信跨域路由系统包括以下实体：

(1)授权矿工AM：授权矿工是作为矿工管理区块链的预认证节点；授权矿工是指在区块链中具有较高权限的验证者；假设正常的授权矿工不会执行不可信的行为，故是有能力且可靠的节点，但由于可能会出现故障或受到攻击者的攻击，故不是完全可信的；

(2)联盟链CB：联盟链主要为跨域时的信息共享提供信任支持，其验证效率高于公有链；所有矿工共同组成了联盟链，采用预先确定的共识机制来维护整个区块链系统，且生成的区块链可以根据需要存储在网络中的各个节点；

(3)认证中心AC：每个网络域通常由运营商运营都有一个或多个认证中心，负责网络中节点的注册以及跨域的密钥和匿名可信凭据的分发；每个认证中心维护一个本地数据库，用于保存网络注册节点的身份信息、授权信息、计费信息、密钥信息和其他数据；

(4)区块链存储服务器BSS：区块链存储服务器主要负责存储路由过程中用于共享和传输的相关信息，各网络节点和认证中心之间通过区块链完成信息共享；其中，所述相关信息包括路由信息和拓扑信息；

(5)网络本地服务器NLS：网络本地服务器主要负责检查路由类型，即跨域路由或域内路由，管理本地域内的网络以及与其他域中的服务器协作以促进路由过程；

(6)节点：包括用户终端设备、路由器、交换机、网络功能服务器和网络边缘节点；其中，所述用户终端设备包括移动终端、计算机终端和飞机；

(7)DRL模型：一种深度强化学习模型，该模型基于网络状态信息，通过不断学习得到最优路由策略。

结合上述的所有技术方案，该技术方案仅用于合法使用的情形下，本发明所具备的优点及积极效果为：本发明提供的异构融合网络无缝可信跨域路由系统，通过智能合约和机器学习算法实现自动跨域路由；通过激励机制和共识机制来提高路由节点的可信度；根据注册过程中运营商提供的网络状态信息，远程评估路由过程中网络状态信息的真实性，以抵抗网络运营商的伪造和串通攻击。

本发明通过应用区块链技术提出了一种适应于异构融合网络的无缝可信跨域路由方案。本发明的主要思想：1)为了确保异构融合网络中跨域路由的可信性，采用区块链技术建立一个通用的可信平台以促使不同的网络运营商通过协作共同实现跨域路由；2)为了在异构融合网络中实现自动跨域路由，本发明通过基于深度强化学习(AR-DRL)的自动路由算法来计算最佳路由策略；3)为了抵制黑洞攻击、自私行为等路由攻击，本发明采用激励机制和共识机制来提高路由节点的可信度。

本发明采用区块链技术建立了一个通用的可信平台以实现可信的跨域路由。本发明利用智能合约的相关特性，结合机器学习技术设计了一个适用于异构融合网络的自动跨域路由算法。本发明确保了路由信息的真实性和可靠性。在实现跨域路由的前提下，本发明实现了方案的通用性和可扩展性。本发明确保了路由的高效性。同时，本发明还包括以下优点：

(1)无缝可信的自动跨域路由：本发明设计了一个安全可信的跨域路由系统，解决了一体化异构融合网络中的自动跨域路由问题。首先，该系统基于联盟区块链建立了一个分布式可信平台，能有效避免中心式系统的单点故障问题。其次，本发明采用智能合约并结合深度强化学习算法实现自动跨域路由。再次，在异构融合网络中，运营商通过相互协作并将他们的拓扑信息提供给授权的服务器作为路由参考，实现无缝可靠的跨域路由。最后，本发明还利用激励机制激励运营商和服务器执行可信的行为。

(2)信息的真实性和路由的可靠性：每个授权服务器根据注册时运营商提供的网络状态信息，离线远程验证拓扑状态信息的真实性。当所有授权服务器达成共识后，将拓扑状态信息上传到区块链，以备将来路由参考。对于每个节点，本发明引入信任度量机制来评估节点的历史行为并动态调整其信任值，从而提高路由的可信度，实现从源节点到目的节点的端到端数据包的可靠传输。

(3)普适性：本发明利用区块链在不同网络之间架起桥梁，在具有一定普适性的融合网络中，支持跨多个网络域的无缝可信路由。

(4)可扩展性：该系统支持任何合法用户的加入和撤销。当新用户加入时，需要向认证中心注册并获得唯一的身份标识。该系统通过提供可靠的无缝路由能力将由不同运营商运行的多个网络连接在一起，形成一个大规模的异构融合网络。

(5)效率：首先，在注册过程中，每个授权服务器根据注册时运营商提供的网络状态信息，离线计算信息可信度以确保拓扑信息的真实性，这减少路由过程中对资源的需求。其次，在路由过程中可以直接查询区块链获取相应的数据，这有效提高了路由效率，同时也确保了路由过程的可靠性。最后，与其他算法相比，AR-DRL算法需要较少的采样数据，这也使得路由效率相对较高。

目前跨域路由的方案比较少，表2列出了现有的方案于本方案的比较。

表2现有工作与本文工作的对比分析

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图做简单的介绍，显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的异构融合网络无缝可信跨域路由系统的控制方法流程图。

图2是本发明实施例提供的异构融合网络无缝可信跨域路由系统的模型示意图。

图3是本发明实施例提供的区块链架构示意图。

图4是本发明实施例提供的自动跨域路由的具体过程示意图。

图5是本发明实施例提供的AR-DRL算法的训练模型示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提供了一种异构融合网络的无缝可信跨域路由系统及其控制方法，下面结合附图对本发明作详细的描述。

如图1所示，本发明实施例提供的异构融合网络无缝可信跨域路由系统的控制方法包括以下步骤：

S101，信任计算与激励机制确定；

S102，发布智能合约；

S103，进行网络状态更新；

S104，构建跨域智能路由；

S105，统计成本。

下面结合缩略语描述对本发明的技术方案作进一步描述。

缩略语和关键术语定义见表1。

表1缩略语描述

/>

下面结合实施例对本发明的技术方案作进一步描述。

1、系统模型

系统模型如图2所示，它主要包括以下几种类型的实体：

(1)授权矿工(AM)：授权矿工是作为矿工管理区块链的预认证节点。授权矿工是指在区块链中具有较高权限的验证者。本发明假设正常的授权矿工不会执行不可信的行为，因为它们被认为是有能力且可靠的节点。然而，它们可能会出现故障或受到攻击者的攻击，因此不是完全可信的。

(2)联盟链(CB)：联盟链主要为跨域时的信息共享提供信任支持，其验证效率高于公有链。在本设计中，所有矿工共同组成了联盟链，并采用预先确定的共识机制来维护整个区块链系统。而且生成的区块链可以根据需要存储在网络中的各个节点。

(3)认证中心(AC)：每个网络域(通常由运营商运营)都有一个或多个认证中心，它们负责网络中节点的注册以及跨域的密钥和匿名可信凭据的分发。每个认证中心维护一个本地数据库，用于保存网络注册节点的身份信息、授权信息、计费信息、密钥信息和其他数据。

(4)区块链存储服务器(Blockchain Storage Server，简称BSS)：区块链存储服务器主要负责存储路由过程中用于共享和传输的相关信息(如路由信息、拓扑信息等)，各网络节点和认证中心之间通过区块链完成信息共享。

(5)网络本地服务器(NLS)：网络本地服务器主要负责检查路由类型(跨域路由或域内路由)，管理本地域内的网络以及与其他域中的服务器协作以促进路由过程。

(6)节点：主要包括用户终端设备(如移动终端、计算机终端、飞机等设备)、路由器、交换机、网络功能服务器、网络边缘节点等。

(7)DRL模型：一种深度强化学习模型。该模型基于网络状态信息，通过不断学习得到最优路由策略。

2、威胁模型

在这个系统中，本发明假设区块链网络是可信的，即没有攻击者可以通过控制超过一半的服务器节点来控制区块链网络；本发明假设正常矿工不会做出不可信的行为；自私节点不会有意中断路由，但是会丢弃其他节点的路由消息，同时使用这些丢弃的资源路由自己的消息，恶意节点会故意破坏路由消息；本发明假设节点都是自私的，但会做出一个理性的决定来最大化它们的利润；本发明假设CB、CC、BSS和NLS是安全和可信的，特别是在它们自己的网络域中是可信的。

具体而言，在每个节点上都可能发生以下攻击：

·黑洞攻击：恶意节点拒绝参与路由和数据传输任务，丢弃所有接收到并需要转发的数据包。在本发明中，本发明通过基于令牌奖励和信任的激励机制来解决合谋的情况。

·灰洞攻击：恶意节点有选择性地转发接收到的需要转发的数据包，并丢弃其余的数据包。

·合谋攻击：多个恶意节点合谋，提供不正确的路由信息以优化其利润。

·恶意攻击：恶意节点故意向其他节点提供虚假建议。这种攻击会混淆信任系统并降低其性能。

·拒绝服务攻击(DoS攻击)：DoS攻击者通过持续发送不正确或无效的路由信息来干扰网络的正常通信。

·重放攻击：恶意攻击者故意与其他节点共享一些过时的拓扑信息，导致路由信息计算错误。

在本发明中，每一个授权矿工(授权服务器)将基于运营商在注册时提供的网络状态信息来远程认证拓扑信息的可信性，以有效抵御黑洞攻击。本发明使用基于令牌奖励和信任度量的激励机制有效抵抗合谋和恶意攻击。该系统利用诸如联盟链、唯一标识符等技术来有效抵抗诸如重播、自私行为等攻击，并能够及时隔离恶意节点。

3、设计目标

本发明的主要目的是为异构融合网络开发一种安全、无缝、可靠、有效且可扩展的跨域路由方案。

因此，本发明提出的方案必须满足以下目标：

3.1安全目标

(1)安全性：当通信用户发送路由请求并启动路由过程时，该方案必须能够抵抗上述潜在的攻击。同时，该方案还必须保证信息传输的安全性。

(2)可信性：由于异构融合网络需要多个运营商合作才能完成跨域路由，因此必须提供可信存储以确保用于路由过程的信息的可靠性。

3.2性能目标

(1)效率：系统的性能应与当前的路由方案相当或更好。

(2)无缝：异构融合网络中数据的路由和转发不仅包括为数据包选择合适的下一跳，还包括在网络层实现多种网络的无缝集成。因此，本发明的方案应当是无缝的。

3.3通用性

本发明中提出的方案应该能够在不同类型的网络之间应用以满足通用性。

3.4可扩展性

本发明应支持节点和用户的加入或撤销。

4、准备工作

在这一部分中，介绍本发明中使用的一些基本技术。

4.1智能合约

智能合约可以预先存储在分布式网络中，它们的预定义代码可以由区块链矿工自动执行，区块链的出现为智能合约提供了一个良好的开发平台。当智能合约中的某个条件满足时，系统会自动触发合约以执行相应的默认规则。智能合约的执行结果会更新区块链网络中账本的状态，一旦这些更新通过特定的共识机制得到确认就不能再被篡改，因为更新过的内容已经在区块链网络中达成了共识。智能合约有三个特点：自主性、自给自足性和分散性。自主性是指合约一旦被触发，将按照预先设定的程序自动执行；自给自足性是指合约能够通过提供服务或发行资产获得所需资金；分散性是指合约由整个网络的所有节点维护，而不是依赖于某个节点。

在本发明中，本发明使用智能合约来促进异构融合网络中自动路由的实现。在本系统中，当区块链达成共识后，可以构建并发布包含一组智能合约的应用程序。智能合约在区块链网络中初始化后，一旦涉及智能合约执行的交易被确认，合约将生成一个地址，任何矿工都可以将交易发送到该地址以执行合约。在此，路由请求可以触发合约来自动执行路由功能，从而得到路由策略。

4.2深度强化学习

基于网络状态信息，深度强化学习模型通过连续学习获得最佳路由策略。

强化学习是一种通过智能体(Agent)与环境(Environment)的持续交互来获得最优策略的模型。在该模型中，定义了一个数组Data＝{S，A，R}，其中S代表一个状态集，即智能体对环境状态的观察；A代表一个动作集，即根据策略函数p(π_k)(k＝1，2，…)生成的行为；R代表奖励集，即智能体执行动作A后对环境影响的反馈。智能体与环境的状态S_i交互，根据策略函数p(π_i)生成动作A_i，环境将奖励值返回给智能体，并且环境将状态S_i更新为新的状态S_i+1。强化学习模型的目标是通过学习一个最优策略π使累计报酬值R_sum最大化，其中γ是折扣因子，N为相互作用的次数，0＜γ≤1。经过不断的交互，智能体会获得一系列的状态、动作和奖励，具体如下：

Data′＝{S₁，A₁，R₁，S₂，A₂，…，S_N，A_N，R_N}

强化学习可以通过与环境的相互作用来学习最优控制策略，并能够解决低维数据的马尔可夫决策问题。然而，对于高维数据的马尔可夫决策问题，随着状态空间和复杂度的增加，传统的强化学习算法(Q-learning)无法获得最优的控制策略。因此，对于本发明中提到的异构融合网络，其节点数量和动作空间都很大，使用传统的强化学习算法会出现状态空间爆炸问题。而深度学习可以很好地解决高维数据的抽象表示问题，将强化学习与深度学习结合就产生了深度强化学习(DRL)，它是将深度学习的感知能力与强化学习的决策能力相结合，能够实现对高维数据的控制。

传统的强化学习局限于小的动作空间和样本空间，一般适用于离散的情况。深度学习可以应对高维输入。将两者结合起来，智能体既具有深度学习的理解能力，又具有强化学习的决策能力。深度Q网络(DQN)是两者成功结合的开端，它虽然可以处理高维的输入，但对于高维的动作输出却无能为力。对于具有高维状态空间和连续动作空间的复杂异构融合网络，传统的强化学习和DQN都无法工作。而深度强化学习可以解决高维连续动作空间的情况，深度确定性策略梯度(DDPG)算法是深度强化学习算法的一种，它是一种结合Actor-Critic网络的确定性策略算法。该算法策略输出的是动作，且算法需要采样的数据相对较少，这使得算法相对有效。因此，在本发明中，本发明采用DDPG算法来解决异构融合网络中具有高维连续动作空间的复杂跨域路由问题。

DDPG算法包括用于生成动作的策略网络(Actor)和用于评估动作的价值网络(Critic)，该算法包含以下四个神经网络：

1)Actor估计网络(行为估计网络)P(S，ω_P)：负责迭代更新ω_P，根据当前状态S选择当前动作A，并与环境交互生成S′，R。

2)Actor目标网络(行为目标网络)负责根据下一个状态S′选择最佳的下一个动作S′。网络参数/>周期性地从ω_P复制。

3)Critic估计网络(状态估计网络)Q(S，A，ω_Q)：负责迭代更新ω_Q并计算估计的Q值Q(S，A，ω_Q)。

4)Critic目标网络(状态目标网络)负责计算目标Q值中的/>网络参数/>周期性地从ω_Q中复制。

该算法以智能体与环境交互产生的信息Data′作为输入，对Actor网络和Critic网络进行更新。训练网络的目的是使估计值尽可能接近目标值，以获得最优策略，损失函数定义如下：

L(ω_Q)＝E_{(S，A，R，S′)}{[Y-Q(S，A，ω_Q)]²}

J(ω_P)＝-EQ(S，A)

式中表示Critic目标网络的状态-动作目标值，Q(S，A，ω_Q)表示Critic目标网络的状态-动作估计值。对于Critic网络，为了使估计的状态-动作值Q(S，A，ω_Q)更接近目标状态-动作值Y，本发明采用梯度下降法最小化损失函数L(ω_Q)。对于Actor网络，为了使智能体采取具有最大状态-动作值的动作，本发明采用梯度下降法最小化损失函数J(ω_P)。换言之，本发明期望智能体选择具有最大状态-动作值的动作，因此，与一个动作相对应的状态-动作值的期望值越大，采取该动作的可能性就越大，J(ω_P)就越小。

4.3共识机制

共识机制是使所有授权矿工达成共识，以确定拓扑信息和路由信息的有效性，从而防止恶意节点被篡改。在权限证明(PoA)区块链中，为了向区块链中添加新的区块，需要预先选择一组验证器。验证器可以根据其在网络中的声誉来选择。新生成的区块在加入区块链之前，需要达成共识并经过验证人的验证。与工作量证明(PoW)和权益证明(PoS)共识机制相比，PoA共识机制主要适用于联盟链，且它对计算能力和资源消耗要求较低。因此，本发明使用PoA共识机制。

5、无缝且可靠的跨域路由协议

在本发明中，本发明提出一种安全、无缝、可靠、有效且可扩展的基于区块链的跨域路由方案。在该方案中，本发明首先设计了一个安全的区块链集成架构，支持不同网络间的协作以支持跨域路由。这种体系结构使异构融合网络中的不同运营商能够以可信的方式相互协作。其次，提出了一种轻量级的信任度量方法来计算节点的信任值，并在运营商之间建立信任关系以支持可信路由。接着，为了激励运营商的合作，抵制节点的自私行为，本发明采用了基于令牌奖励和信任度量的激励机制来激励区块链矿工和路由节点的信任行为。然后，根据网络运营商在注册过程中提供的网络状态信息，对路由过程中网络状态信息的真实性进行远程评估，以抵抗网络运营商的伪造和合谋攻击。在此基础上，提出了一种基于区块链和深度强化学习的可信路由方案，实现了异构融合网络中的自动跨域路由。最后，在对路由达成共识后，运营商根据使用的网络资源量执行同步和计费。

接下来，本发明首先介绍一种信任计算方法和激励机制，用于评估网络节点的信任值并激发其诚实行为。然后，本发明描述如何发布一个用于跨域路由的智能合约，接着介绍网络状态更新的过程。最后，为了实现无缝的跨域路由，本发明设计了一种AR-DRL算法，该算法基于区块链和DDPG算法以获得最佳路由策略。

5.1信任计算与激励机制

在异构融合网络的路由过程中，节点的自私行为可能会导致通信失败。大多数用户可能都是自私的，他们可能由于担心自身的能量和带宽消耗而拒绝合作。因此，每个用户都应该得到一个满意的奖励，以补偿他们在合作中所消耗的资源。基于令牌奖励和信任度量的激励机制可以激励异构融合网络中节点的信任行为，以促进节点间的合作。首先，网络中的每个节点向证书中心注册，获得随机唯一的ID并为自己生成一个唯一地址Add。然后，各网络根据不同节点的信任值，授权内部信任度最高的节点作为区块链的授权矿工，并且将所有节点的信任值存储在区块链中。为了提高授权矿工的可信度和协作性，本发明引入阈值λ来确定网络中任意节点的信任度。如果Tr(i，j)≥λ，则节点是可信的。否则，节点是恶意的。被评估为可信的节点被视为协作节点，并且有资格获得令牌(可用于消费)作为奖励。恶意节点将被添加到灰名单中受到惩罚。为了加强对恶意节点的惩罚，提升节点的公信力，设置对节点的惩罚远远大于奖励。基于信任值的激励机制计算过程如下：

其中g₁是奖励因子，g₂是惩罚因子，g₂＞＞g₁。由于异构融合网络环境始终在变化，信任节点有可能变为不信任的节点。因此，本节提出一种动态信任评估机制：

a.直接信任

直接信任是指当前时刻节点i对节点j信任值的直接评价，评估结果存储在节点的本地数据库中。在路由过程中，源节点发送的数据包经节点i传递给邻居节点j，节点i在发送数据包时对节点j的转发情况进行监视，根据监视结果计算从节点i到节点j的直接信任值Tr_D(i，j)，并将该信任值计算结果存储在节点本地数据库。直接信任值的计算可以表示为：

其中，Tr_D ^k-1(i，j)表示根据节点j的历史行为，节点i对节点j的直接信任值，也即节点i可以查询节点j的信任值数据库找到节点j的历史信任数据；Sr_D(i，j)＝λ₁P_j+λ₂N_j表示节点i利用入侵检测系统对节点j的可信评价；P_j和N_j分别代表入侵检测系统对于用户j当前行为的正面和负面评价，λ₁，λ₂根据入侵检测系统的情况设定，且λ₁+λ₂＞0。zr(i，j)表示节点j从节点i接收到的数据分组中成功转发的数量；fr(i，j)表示节点j从节点i接收到的数据分组中丢弃的数量；参数α表示衰减时间因子，它代表历史信任价值随时间的衰减程度且0＜α＜1。

b.推荐信任

节点i向邻居节点发起推荐信任值计算过程，进一步对节点j进行评价。推荐信任值的具体计算过程为：节点i向邻居节点广播发送任值查询信息，发起推荐信任值计算过程；节点i的邻居节点收到查询信息后，查询本地数据库记录，如果数据库里存在关于节点j的信任值，则发送响应消息，将节点j的直接信任值计算结果发送给节点i；若节点i的邻居节点中有n(n＞2)个节点的信任值数据库中存在对节点j的直接信任值计算结果，则对于每个推荐者e，首先计算相应的权重因子ξ_e：

其中，Tr_D(i，e)表示节点i对节点e的直接信任值计算结果，其值越大表示节点e的可信程度越高，相应的加权因子ξ_e越大，表明节点e的推荐意见在最终的推荐信任值中所占的比重就越大。由此节点的推荐信任值计算可表示为：

c.综合信任值

d.动态信任值

异构融合网络中节点的行为会随着时间的推移发生变化，之前计算的节点信任值会随着时间的推进发生衰减，不能真实体现当前节点的信任状态。为了保证节点信任值计算的动态性和全面性，需要计算节点的动态信任值Tr(i，j)：

Tr(i，j)＝αθ₁Tr_C ^old(i，j)+θ₂Tr_C ^new(i，j)

其中，Tr_C ^old(i，j)，Tr_C ^new(i，j)分别表示节点的历史综合信任值和当前综合信任值。βθ₁，θ₂为权重因子，且由于当前的综合信任值比历史综合信任值具有更好的参考价值，因此θ₁，θ₂满足0＜θ₁＜θ₂＜1，θ₁+θ₂＝1；α为衰减因子，表示历史信任值随时间的衰减程度且0＜α＜1。

5.2发布智能合约

每个运营商授权一个AM作为区块链的管理员，以实现网络的安全性和可信性。在此基础上，本发明利用智能合约促进异构融合网络的自动路由。因此，本发明设计的系统模型保证了智能合约功能执行的正确性。

创建智能合约时，先为合约生成一个地址，然后每个运营商协商并向该地址发送相同数量的令牌以生成智能合约。当所有运营商基于POA共识机制达成共识时，智能合约即被发布。在路由过程中，所有路由请求都会发送到智能合约。一旦发出路由请求，智能合约将自动执行路由过程。

基于智能合约的自动路由包括三个阶段：第一阶段用于发送路由请求；第二阶段用于建立路由链路；第三阶段用于维护路由。第一阶段包括Routing Request Function：源用户向本地域服务器发送路由请求包，本地服务器根据目的节点的地址确定路由类型。如果需要跨域路由，服务器向智能合约发送路由请求；第二阶段包括Routing OfferFunction：每个接收路由请求包的中间节点或目的节点可通过向源用户发送路由回复消息进行响应。本发明指定了响应时间T的阈值，如果t＞T，中间节点将被放入灰名单中。在这个过程中，本发明使用AR-DRL算法(详见5.4)根据所有中间响应节点为路由过程选择最佳下一跳；第三阶段包括一个Routing Accept Function：当所有授权矿工对AR-DRL算法输出的路由策略达成一致时，服务器将按照路由策略将数据包发送到目标节点。注意，灰名单中的信息用于通知其他源用户中间节点不再可达。在确定路由策略之后，灰名单中的不相关节点被释放。

5.3网络状态更新

5.3.1区块链架构

考虑联盟区块链和异构融合网络子网联盟的效率和可靠性，采用联盟区块链构建可靠的管理平台。区块链是由区块连接起来的链式结构，存储着网络的交易信息，其中每个块包括区块头和区块体。

在本系统中，1)区块头包括版本信息、父哈希、生成块的难度、生成块的时间戳和Merkle树的哈希值；2)块体包括该块创建和验证过程中所有网络节点的数据，事务信息(包括路由信息和网络状态信息)。区块链的结构如图3所示，其中P_i(i＝1，2，...，n)表示交易信息。

5.3.2网络状态更新

步骤1：运营商想要参与跨域路由过程，需要先在认证中心注册，并将部分令牌转移到相应的认证中心作为押金，避免自私和串通行为。注册时，每个运营商提供自己的拓扑信息TS和网络状态信息NS。为了便于描述，拓扑信息TS＝{G，H}，G表示实际网络中的交换机集合；H表示实际网络中的物理链路。在本发明中，网络状态信息(网络性能)由以下集合表示：

NS＝{LU(…)，C(…)，D(…)，B(…)，T(…)}

其中，LU(…)表示网络中每个链路的链路利用率，它表示链路中分配的业务量与链路带宽的比率；C(…)表示网络链路的带宽；D(…)表示网络延迟；B(…)表示链路可达性，T(…)表示链路吞吐量。网络性能需要满足基本的网络QoS标准和丢包率，否则将被认为是不合理的且没有路由和转发能力的网络。

步骤2：每个运营商说谎的概率不同，因此需要确定状态和拓扑信息的可信度和真实性。在路由前，每个授权矿工可以根据注册过程中运营商提供的拓扑信息和网络状态信息，对运营商提供的当前网络质量信息进行远程认证。如果认证结果是：当前网络信息(拓扑信息、网络状态信息)与注册时的信息没有显著差异，或者保持在可接受的错误范围内，并且所有授权矿工对认证结果达成一致，那么运营商是可信的。否则，运营商是恶意的。

步骤3：假设运营商的拓扑信息可以分为两种情况：1)拓扑信息固定不变且可以被公开验证；2)拓扑信息动态变化。则上述两种情况的网络状态更新过程如下：

1)拓扑信息固定不变：运营商发布其拓扑信息TS，每个人都可以公开验证其拓扑状态信息的真实性。根据步骤2，如果所有授权矿工都对认证结果达成一致，则表明运营商提供的信息是可靠的。根据PoA共识机制，验证后的拓扑信息将被存储在区块链中，路由相关信息(源地址、目的地址)通过令牌交易传递给智能合约。

2)如果运营商的拓扑在一段时间内发生动态变化，则需要在认证中心离线验证拓扑信息的有效性，然后执行步骤2以确定运营商是否为跨域路由提供了真实拓扑信息，验证后的拓扑信息也被存储在区块链。如果拓扑结构再次更改，则需要重复上述离线验证。

步骤4：如果一个运营商提供的信息真实且服务质量良好，该运营商将额外获得一些代币作为奖励或收到一部分退还的押金，以促进其诚实行为。否则，该运营商的押金将增加，即运营商需要再多给一部分代币作为押金。

5.4跨域智能路由

当本地域中的用户向本地服务器发送一个新的路由请求包P_User＝(Add_User，Sou，Des)时，本地服务器首先确定是否需要跨域路由(即通过数据的起点和终点来判断路由类型，若起点和终点在同一个域中，就不需要跨域路由，反之亦然)。在P_User中，Add_User是用户唯一的身份地址，Sou是源节点的信息，Des是目的节点的信息。然后，为了建立跨域路由链路，本地服务器向本地区块链授权矿工发出“建立跨域路由”请求。如图4所示，自动跨域路由的具体过程如下：

步骤1：根据5.1和5.3.2，网络状态信息收集、测量、更新并存储在区块链中。如果接收到新的路由请求，本地区块链授权矿工将此路由请求数据包P_User及其标识地址Add_Miner发送到智能合约地址Add_Contrat。如果在智能合约中检测到这个带有Add_Miner的包，则表示授权矿工成功发出路由请求，该请求触发智能合约的Routing Request Function(如5.2第一阶段所示)完成第一阶段。

步骤2：一旦发出路由请求，智能合约的Routing Offer Function(如5.2第二阶段所示)将自动执行。这意味着某个具有转发数据能力的中间节点或目的节点将在时间T内响应路由请求并提供相关服务，假设这些节点的响应时间为t，如果t＞T或节点的质量评估不能满足基本网络的QoS要求，则该节点的地址将被放在灰名单中。而且，随着网络状态信息的更新，灰名单的内容也在不断更新。

步骤3：为了实现最优路由，本发明在智能合约的Routing Offer Function中采用AR-DRL算法来实现第二阶段。在这个过程中，本发明使用AR-DRL算法，根据所有中间节点的响应情况，为路由过程选择最佳的下一跳。AR-DRL算法的训练模型如图5所示。

在图5中，用户发送新的路由请求后，本地服务器根据网络状态S通过智能合约自动选择不同的下一跳，即本地服务器执行不同的动作A并获得相应的奖励R，经过不断的交互，本地服务器获得一系列状态，行动和奖励如下Data＝{S₁，A₁，R₁，S₂，A₂，…，S_i+1，A_i+1，R_i+1}。它们被作为训练集放入重放缓冲区。为了避免数据相关性，从回放缓冲区中提取一定量的数据进行训练使算法收敛。S_i表示网络在时刻i的状态信息。①：在Actor估计网络中，本地服务器以当前状态S_i执行动作A_i；②：Critic估计网络根据状态S_i和动作A_i；③：评估执行动作A_i的效果，即：获取估计的状态动作值Q(A_i)；④：获取估计的状态动作值Q(A_i)，使其与⑧中的目标状态动作值Q^*(A_i+1)进行损失函数运算；⑤：在执行动作A_i后，本地服务器得到相应的奖励R_i，此时，网络的状态将变为新状态S_i+1；⑥：在Actor目标网络中，本地服务器在新状态S_i+1下执行新动作A_i+1；⑦：Critic目标网络根据状态S_i+1和动作A_i+1评估执行动作A_i+1的效果，即：获取目标状态动作值Q^*(A_i+1)；⑧：获取目标状态动作值Q^*(A_i+1)，结合④中的Q(A_i)计算损失函数L；⑨：为了使估计的状态动作值接近目标的状态动作值，有必要最小化损失函数并更新相关参数ω_Q；⑩：本地服务器必须优先选择最大状态动作值Q对应的动作作为下一步操作，即某个动作对应的状态动作值Q越大，采取该动作的可能性越大。因此，为了找到状态动作值Q最大的动作，本发明需要最小化J。继续迭代直到算法收敛或达到最大训练集时迭代终止。当算法收敛时，每次每一跳中状态动作值Q最大时所对应的一系列动作为最佳动作策略，即最佳路由策略。

在这个系统中，负责管理本地域的服务器充当代理(Agent)。在跨域路由方案中，状态集(State Set)、动作集(Action Set)和奖励(Reward)的具体定义如下：

状态集：在该方案中，在k时刻网络中所有链路的时延、链路利用率、节点信任值、拓扑信息和数据流请求信息用向量S_k表示，其中D_k表示每对节点在k时刻的传输时延；LU_k表示k时刻网络中每条链路的利用率；/>表示k时刻的流量请求信息；TS_k表示k时刻网络的拓扑信息，则状态集S＝{S₁，S₂，...，S_k}，S也被存储在区块链中。

动作集：动作包括两个方面：一是根据路由状态信息选择最优网络作为跨域路由的转接网络；二是根据节点状态信息/>找到最优下一跳节点，Tr表示每个节点的信任值，则节点状态集为S＝{S′₁，S′₂，...，S′_k}。动作向量A_k是指在时间k执行的动作，即在时间k对应的下一跳网络链路，动作集A＝{A₁，A₂，...，A_k}。通过改变网络链路的质量可以改变路由下一跳所选的路径。网络链路的质量越高，使用该链路得到的状态动作值Q越高，该链路成为最佳下一跳路径的可能性就越大。

奖励：奖励函数表示在某一状态下执行相应动作的即时奖励。对报酬进行恰当定义有助于Agent采取最佳的行动策略。在该模型中，有效传输指路由Agent找到满足QoS标准的下一跳并成功地传输信息，本发明的目标是尽可能地减小传输时延，获得高服务质量的路由链路。因此，奖励与传输延迟有关，传输延迟越小，奖励值越高，反之亦然。为了给用户提供一种高效的路由服务，目标是以最大的回报获得最小的传输时延。在时间k的奖励值R_k表示为P_k＝1/D_k，其中D_k表示在时间k链路的传输延迟。

步骤4：根据步骤3中AR-DRL算法的输出，如果所有授权矿工达成共识，智能合约的Routing Accept Function(如5.2第三阶段所示)将自动执行以实现第三阶段。达成共识的算法输出(路由策略)将被上传并存储在区块链中。根据得到的路由策略，本地服务器执行路由过程，服务质量较高的链路更有可能成为下一跳链路。

使用AR-DRL算法寻找最佳下一跳的伪代码。在路由开始时，每个服务器初始化Actor网络和Critic网络的参数。为了降低数据的相关性，需要一个重放缓冲区，因此也需要初始化重放缓冲区B(第1行)。为了增加学习过程的随机性，有必要在选定的动作中加入一定的噪声ξ，并初始化噪声ξ(第3行)。更新网络状态信息并将其存储在区块链中(第4行)。在跨域路由的情况下，本地服务器首先发出跨域路由请求并执行智能合约的RoutingOfferFunction(第5-10行)。然后，在Actor估计网络中，基于状态S_i获得动作A_i，并且通过执行动作A_i获得相应的奖励R_i和新状态S_i+1，然后将获得的信息Data′＝{S₁，A₁，R₁，S₂，A₂，…，S_N，A_N，R_N}存储在重放缓冲区B(第11-13行)中。从回放缓冲区B中抽取L个训练样本(第14行)，用梯度下降法更新Actor网络的所有参数ω_P和Critic网络的所有参数ω_Q(第15-17行)。然后更新Actor目标网络的所有参数和Critic目标网络的所有参数/>(第18行)。继续迭代，直到算法收敛或达到最大训练次数时迭代完成(第19行)。如果是域内路由，它将根据存储在区块链中的数据继续迭代执行第11-19行，直到算法收敛(第25-28行)。特别地，Actor网络以状态S，S′作为其输入，输出动作A的均值和方差。Critic网络以状态S，S′作为输入，输出S，S′的估计状态值Q。最后，当算法收敛时，输出路由策/>(第29-31行)。

AR-DRL算法如下：

6、统计成本

现实中，没有人愿意无偿参与资源消耗工作。在对路由路径达成共识后，相关运营商将根据跨网络域路由过程中使用的网络资源量执行同步和记帐。用户必须根据区块链中记录的数据向网络服务提供商支付相关费用。账单包括：使用的网络资源的总成本(假设为b₁)，以及运营商注册时产生的押金成本(假设为b₂)，所以账单为b₁+b₂。

本发明提出一种基于区块链的异构融合网络跨域路由可信平台。通过智能合约和机器学习算法实现自动跨域路由。通过激励机制和共识机制来提高路由节点的可信度。根据注册过程中运营商提供的网络状态信息，远程评估路由过程中网络状态信息的真实性，以抵抗网络运营商的伪造和串通攻击。

本发明采用区块链技术建立了一个通用的可信平台以实现可信的跨域路由。本发明利用智能合约的相关特性，结合机器学习技术设计了一个适用于异构融合网络的自动跨域路由算法。本发明确保了路由信息的真实性和可靠性。在实现跨域路由的前提下，本发明实现了方案的通用性和可扩展性。本发明确保了路由的高效性。

本发明的优点：

1)无缝可信的自动跨域路由：本发明设计了一个安全可信的跨域路由系统，解决了一体化异构融合网络中的自动跨域路由问题。首先，该系统基于联盟区块链建立了一个分布式可信平台，能有效避免中心式系统的单点故障问题。其次，本发明采用智能合约并结合深度强化学习算法实现自动跨域路由。再次，在异构融合网络中，运营商通过相互协作并将他们的拓扑信息提供给授权的服务器作为路由参考，实现无缝可靠的跨域路由。最后，本发明还利用激励机制激励运营商和服务器执行可信的行为。

2)信息的真实性和路由的可靠性：每个授权服务器根据注册时运营商提供的网络状态信息，离线远程验证拓扑状态信息的真实性。当所有授权服务器达成共识后，将拓扑状态信息上传到区块链，以备将来路由参考。对于每个节点，本发明引入信任度量机制来评估节点的历史行为并动态调整其信任值，从而提高路由的可信度，实现从源节点到目的节点的端到端数据包的可靠传输。

3)普适性：本发明利用区块链在不同网络之间架起桥梁，在具有一定普适性的融合网络中，支持跨多个网络域的无缝可信路由。

4)可扩展性：该系统支持任何合法用户的加入和撤销。当新用户加入时，需要向认证中心注册并获得唯一的身份标识。该系统通过提供可靠的无缝路由能力将由不同运营商运行的多个网络连接在一起，形成一个大规模的异构融合网络。

5)效率：首先，在注册过程中，每个授权服务器根据注册时运营商提供的网络状态信息，离线计算信息可信度以确保拓扑信息的真实性，这减少路由过程中对资源的需求。其次，在路由过程中可以直接查询区块链获取相应的数据，这有效提高了路由效率，同时也确保了路由过程的可靠性。最后，与其他算法相比，AR-DRL算法需要较少的采样数据，这也使得路由效率相对较高。

表2现有工作与本文工作的对比分析

在上述实施例中，该技术方案仅用于合法使用的情形下，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现，所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘SolidStateDisk(SSD))等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

Claims

1.一种异构融合网络无缝可信跨域路由系统的控制方法，其特征在于，所述异构融合网络无缝可信跨域路由系统的控制方法包括：通过信任计算方法和激励机制评估网络节点的信任值并激发其诚实行为；进行用于跨域路由的智能合约的发布，并确定网络状态更新的过程；设计深度强化学习AR-DRL算法，该算法基于区块链和深度确定性策略梯度DDPG算法以获得最佳路由策略，实现无缝的跨域路由；所述方法仅用于合法使用的情形；

所述异构融合网络无缝可信跨域路由系统的控制方法包括以下步骤：

步骤一，信任计算与激励机制确定；

步骤二，发布智能合约；

步骤三，进行网络状态更新；

步骤四，构建跨域智能路由；

步骤五，统计成本；

步骤一中，所述信任计算与激励机制，包括：

其中，g₁是奖励因子，g₂是惩罚因子，g₂＞＞g₁；

(2)动态信任评估机制的确定：

1)直接信任

直接信任是指当前时刻节点i对节点j信任值的直接评价，评估结果存储在节点的本地数据库中；在路由过程中，源节点发送的数据包经节点i传递给邻居节点j，节点i在发送数据包时对节点j的转发情况进行监视，根据监视结果计算从节点i到节点j的直接信任值Tr_D(i，j)，并将该信任值计算结果存储在节点本地数据库；其中，所述直接信任值的计算可以表示为：

其中，表示根据节点j的历史行为，节点i对节点j的直接信任值，也即节点i可以查询节点j的信任值数据库找到节点j的历史信任数据；Sr_D(i，j)＝λ₁P_j+λ₂N_j表示节点i利用入侵检测系统对节点j的可信评价；P_j和N_j分别代表入侵检测系统对于用户j当前行为的正面和负面评价，λ₁，λ₂根据入侵检测系统的情况设定，且λ₁+λ₂＞0；zr(i，j)表示节点j从节点i接收到的数据分组中成功转发的数量；fr(i，j)表示节点j从节点i接收到的数据分组中丢弃的数量；参数α表示衰减时间因子，代表历史信任价值随时间的衰减程度且0＜α＜1；

2)推荐信任

节点i向邻居节点广播发送信任值查询信息，发起推荐信任值计算过程；节点i的邻居节点收到查询信息后，查询本地数据库记录，如果数据库里存在关于节点j的信任值，则发送响应消息，将节点j的直接信任值计算结果发送给节点i；若节点i的邻居节点中有n个节点的信任值数据库中存在对节点j的直接信任值计算结果，则对于每个推荐者e，首先计算相应的权重因子ξ_e：

其中，n＞2，Tr_D(i，e)表示节点i对节点e的直接信任值计算结果，其值越大表示节点e的可信程度越高，相应的加权因子ξ_e越大，表明节点e的推荐意见在最终的推荐信任值中所占的比重就越大，故节点的推荐信任值计算可表示为：

3)综合信任值

4)动态信任值

计算节点的动态信任值Tr(i，j)：

Tr(i，j)＝αθ₁Tr_C ^old(i，j)+θ₂Tr_C ^new(i，j)；

其中，Tr_C ^old(i，j)，Tr_C ^new(i，j)分别表示节点的历史综合信任值和当前综合信任值；θ₁，θ₂为权重因子，且由于当前的综合信任值比历史综合信任值具有更好的参考价值，故θ₁，θ₂满足0＜θ₁＜θ₂＜1，θ₁+θ₂＝1；α为衰减因子，表示历史信任值随时间的衰减程度且0＜α＜1；

步骤二中，所述发布智能合约，包括：

利用智能合约促进异构融合网络的自动路由：创建智能合约时，先为合约生成一个地址，每个运营商协商并向该地址发送相同数量的令牌以生成智能合约；当所有运营商基于POA共识机制达成共识时，智能合约即被发布；在路由过程中，所有路由请求都会发送到智能合约；一旦发出路由请求，智能合约将自动执行路由过程；

基于智能合约的自动路由包括三个阶段：第一阶段用于发送路由请求；第二阶段用于建立路由链路；第三阶段用于维护路由；第一阶段包括Routing Request Function：源用户向本地域服务器发送路由请求包，本地服务器根据目的节点的地址确定路由类型；如果需要跨域路由，服务器向智能合约发送路由请求；第二阶段包括Routing Offer Function：每个接收路由请求包的中间节点或目的节点可通过向源用户发送路由回复消息进行响应；指定响应时间T的阈值，如果t＞T，中间节点将被放入灰名单中；使用AR-DRL算法根据所有中间响应节点为路由过程选择最佳下一跳；第三阶段包括一个Routing Accept Function：当所有授权矿工对AR-DRL算法输出的路由策略达成一致时，服务器将按照路由策略将数据包发送到目标节点；其中，灰名单中的信息用于通知其他源用户一些中间节点不再可达；在确定路由策略之后，灰名单中的不相关节点将被释放；

步骤三中，所述网络状态更新，包括：

(1)区块链架构

采用联盟区块链构建可靠的管理平台；区块链是由区块连接起来的链式结构，存储着网络的交易信息，其中每个块包括区块头和区块体；

其中，所述区块头包括版本信息、父哈希、生成块的难度、生成块的时间戳和Merkle树的哈希值；所述块体包括该块创建和验证过程中所有网络节点的数据和事务信息；其中，所述事务信息包括路由信息和网络状态信息；

(2)网络状态更新

NS＝{LU(…)，C(…)，D(…)，B(…)，T(…)}；

其中，LU(…)表示网络中每个链路的链路利用率，它表示链路中分配的业务量与链路带宽的比率；C(…)表示网络链路的带宽；D(…)表示网络延迟；B(…)表示链路可达性，T(…)表示链路吞吐量；网络性能需要满足网络QoS标准和丢包率，否则将被认为是不合理的且没有路由和转发能力的网络；

3)假设运营商的拓扑信息可以分为两种情况：拓扑信息固定不变且可以被公开验证；拓扑信息动态变化，则该两种情况的网络状态更新过程如下：

4)如果一个运营商提供的信息真实且服务质量良好，该运营商将额外获得一些代币作为奖励或收到一部分退还的押金，以促进其诚实行为；否则，该运营商的押金将增加，即运营商需要再多给一部分代币作为押金；

步骤四中，跨域智能路由，包括：

当本地域中的用户向本地服务器发送一个新的路由请求包P_User＝(Add_User，Sou，Des)时，本地服务器首先确定是否需要跨域路由，即通过数据的起点和终点来判断路由类型，若起点和终点在同一个域中，就不需要跨域路由，反之亦然；在P_User中，Add_User是用户唯一的身份地址，Sou是源节点的信息，Des是目的节点的信息；本地服务器向本地区块链授权矿工发出“建立跨域路由”请求，建立跨域路由；其中，链路自动跨域路由的过程如下：

(2)一旦发出路由请求，智能合约的Routing Offer Function将自动执行；这意味着某个具有转发数据能力的中间节点或目的节点将在时间T内响应路由请求并提供相关服务，假设这些节点的响应时间为t，如果t＞T或节点的质量评估不能满足网络的QoS要求，则该节点的地址将被放在灰名单中；随着网络状态信息的更新，灰名单的内容也在不断更新；

(4)根据步骤(3)中AR-DRL算法的输出，如果所有授权矿工达成共识，智能合约的Routing Accept Function将自动执行以实现第三阶段，达成共识的算法输出路由策略将被上传并存储在区块链中，根据得到的路由策略，本地服务器执行路由过程，服务质量高的链路更有可能成为下一跳链路。

2.如权利要求1所述的异构融合网络无缝可信跨域路由系统的控制方法，其特征在于，步骤(3)中，用户发送新的路由请求后，本地服务器根据网络状态S通过跨域路由算法自动选择不同的下一跳，即本地服务器执行不同的动作A并获得相应的奖励R，经过不断的交互，本地服务器获得一系列状态，行动和奖励如下Data＝{S₁，A₁，R₁，S₂，A₂，…，S_i+1，A_i+1，R_i+1，…}，被作为训练集放入重放缓冲区；从重放缓冲区中提取一定量的数据进行训练使算法收敛；S_i表示网络在时刻i的状态信息；

状态集：在该方案中，在k时刻网络中所有链路的时延、链路利用率、节点信任值、拓扑信息和数据流请求信息用向量S_k表示，其中D_k表示每对节点在k时刻的传输时延；LU_k表示k时刻网络中每条链路的利用率；/>表示k时刻的流量请求信息；TS_k表示k时刻网络的拓扑信息，则状态集S＝{S₁，S₂，...，S_k，…}，S也被存储在区块链中；

动作集：动作包括两个方面：一是根据路由状态信息选择最优网络作为跨域路由的转接网络；二是根据节点状态信息/>找到最优下一跳节点，Tr表示每个节点的信任值，则节点状态集为S′＝{S′₁，S′₂，...，S′_k，…}；动作向量A_k是指在时间k执行的动作，即在时间k对应的下一跳网络链路，动作集A＝{A₁，A₂，...，A_k，…}；通过改变网络链路的质量可以改变路由下一跳所选的路径；网络链路的质量越高，使用该链路得到的状态动作值Q越高，该链路成为最佳下一跳路径的可能性就越大；

奖励：奖励函数表示在某一状态下执行相应动作的即时奖励；对报酬进行恰当定义有助于Agent采取最佳的行动策略；在模型中，有效传输指路由Agent找到满足QoS标准的下一跳并成功地传输信息；奖励与传输延迟有关，传输延迟越小，奖励值越高，反之亦然；目标是以最大的回报获得最小的传输时延；在时间k的奖励值R_k表示为R_k＝1/D_k，其中D_k表示在时间k链路的传输延迟。

3.如权利要求1所述的异构融合网络无缝可信跨域路由系统的控制方法，其特征在于，步骤(4)中，在路由开始时，每个服务器初始化Actor网络和Critic网络的参数，初始化重放缓冲区B；在选定的动作中加入一定的噪声ξ，并初始化噪声ξ；更新网络状态信息并将其存储在区块链中；在跨域路由的情况下，本地服务器首先发出跨域路由请求并执行智能合约的Routing Offer Function；在Actor估计网络中，基于状态S_i获得动作A_i，并且通过执行动作A_i获得相应的奖励R_i和新状态S_i+1，将获得的信息Data′＝{S₁，A₁，R₁，S₂，A₂，…，S_N，A_N，R_N}存储在重放缓冲区B中；从回放缓冲区B中抽取L个训练样本，用梯度下降法更新Actor网络的所有参数ω_P和Critic网络的所有参数ω_Q；更新Actor目标网络的所有参数和Critic目标网络的所有参数/>继续迭代，直到算法收敛或达到最大训练次数时迭代完成；如果是域内路由，则根据存储在区块链中的数据继续迭代，直到算法收敛；其中，所述Actor网络以状态S、S′作为其输入，输出动作A的均值和方差；Critic网络以状态S、S′作为输入，输出S、S′的估计状态值Q；当算法收敛时，输出路由策/>

4.如权利要求1所述的异构融合网络无缝可信跨域路由系统的控制方法，其特征在于，步骤五中，所述统计成本，包括：

在对路由路径达成共识后，相关运营商将根据跨网络域路由过程中使用的网络资源量执行同步和记帐；用户必须根据区块链中记录的数据向网络服务提供商支付相关费用；其中，账单包括：使用的网络资源的总成本，假设为b₁，以及运营商注册时产生的押金成本，假设为b₂，所以账单为b₁+b₂。

5.一种执行权利要求1～4任意一项所述的异构融合网络无缝可信跨域路由系统的控制方法的异构融合网络无缝可信跨域路由系统，其特征在于，所述异构融合网络无缝可信跨域路由系统包括以下实体：

(1)授权矿工AM：授权矿工是作为矿工管理区块链的预认证节点；授权矿工是指在区块链中具有权限的验证者；假设正常的授权矿工不会执行不可信的行为，故是有能力且可靠的节点，但由于可能会出现故障或受到攻击者的攻击，故不是完全可信的；

(2)联盟链CB：联盟链为跨域时的信息共享提供信任支持，其验证效率高于公有链；所有矿工共同组成了联盟链，采用预先确定的共识机制来维护整个区块链系统，且生成的区块链根据需要存储在网络中的各个节点；

(3)认证中心AC：每个网络域由运营商运营有一个或多个认证中心，负责网络中节点的注册以及跨域的密钥和匿名可信凭据的分发；每个认证中心维护一个本地数据库，用于保存网络注册节点的身份信息、授权信息、计费信息、密钥信息和其他数据；

(4)区块链存储服务器BSS：区块链存储服务器负责存储路由过程中用于共享和传输的相关信息，各网络节点和认证中心之间通过区块链完成信息共享；其中，所述相关信息包括路由信息和拓扑信息；

(5)网络本地服务器NLS：网络本地服务器负责检查路由类型，即跨域路由或域内路由，管理本地域内的网络以及与其他域中的服务器协作以促进路由过程；