CN116963225B

CN116963225B - 一种面向流媒体传输的无线mesh网络路由方法

Info

Publication number: CN116963225B
Application number: CN202311219310.8A
Authority: CN
Inventors: 任保全; 李金城; 李洪钧; 王莹
Original assignee: System General Research Institute Academy Of Systems Engineering Academy Of Military Sciences
Current assignee: System General Research Institute Academy Of Systems Engineering Academy Of Military Sciences
Priority date: 2023-09-21
Filing date: 2023-09-21
Publication date: 2023-11-24
Anticipated expiration: 2043-09-21
Also published as: CN116963225A

Abstract

本发明公开了一种面向流媒体传输的无线mesh网络路由方法，具体如下：建立层级网络拓扑结构，将无线mesh网络中的节点按照距离远近分为多个层级，层级之间的节点通过多跳路由相互连接；利用LSRP协议获取全局视图，并在每个层级中选择满足条件的节点作为关键路由节点；基于DDPG算法，从mesh网络中选择一条最优路径作为流媒体传输通道，通过路由节点传输流媒体数据；根据mesh网络负载和节点状态的变化，动态调整网络拓扑结构和路由节点，维持mesh网络的稳定性和实时性。本发明通过引入深度强化学习算法，优化了网络拓扑结构，提高了节点之间的通信效率，从而保障了传输过程中网络的稳定性和实时性。

Description

一种面向流媒体传输的无线mesh网络路由方法

技术领域

本发明涉及无线mesh网络路由技术领域，特别是一种面向流媒体传输的无线mesh网络路由方法。

背景技术

无线mesh网络是一种多节点、无中心、自组织的无线多跳通信网络，其中每个节点都可以充当数据传输的路由器和终端设备，能完成发现以及维持到其它节点路由的功能，并且都能以任意方式动态地保持与其他单个或多个节点的连接通信。这种网络结构可以快速地建立和扩展，具有较强的自组织和自修复能力，因此在城市宽带无线接入、智能家居、工业物联网等领域得到了广泛的应用。

随着网络流媒体应用的发展，现阶段对无线mesh网络的要求也越来越高，需要保证高质量的流媒体传输，无线mesh网络面临着新的挑战。由于mesh网络中每个节点都可以充当路由器和终端设备，导致了网络的拓扑结构非常复杂，节点之间的通信效率较低。此外，流媒体数据传输过程中容易出现丢包和延迟等问题，容易导致视频卡顿和音频断续。同时，由于mesh网络无法动态调整网络结构，无法根据网络负载和节点状态的变化来优化网络拓扑结构和路由节点，因而网络的稳定性和实时性无法得到保证。

当前无线mesh网络中采用的路由方法如自适应路由算法可根据网络拓扑结构和传输质量，选择最佳的路由路径进行数据传输。这种算法可以提高网络性能和可靠性，但是需要消耗较多的计算资源和带宽资源；单一的距离向量路由算法具有简单、易于实现的特点，但是容易出现路由环路和计算误差等问题。总之，目前常见mesh网络路由方法未考虑无线mesh网络通信链路的不稳定性和动态性，路由环路的出现很容易导致网络拥塞和性能下降等问题。

发明内容

本发明的目的在于提供一种面向流媒体传输的无线mesh网络路由方法，通过引入深度强化学习算法，优化网络拓扑结构，提高节点之间的通信效率，从而保障传输过程中网络的稳定性和实时性。

实现本发明目的的技术解决方案为：一种面向流媒体传输的无线mesh网络路由方法，包括以下步骤：

步骤1，建立层级网络拓扑结构：将无线mesh网络中的节点按照距离远近分为多个层级，层级之间的节点通过多跳路由相互连接；

步骤2，选择关键路由节点：利用LSRP协议获取全局视图，并在每个层级中选择满足条件的节点作为关键路由节点；

步骤3，建立流媒体传输通道：基于DDPG算法，从mesh网络中选择一条最优路径作为流媒体传输通道，通过路由节点传输流媒体数据；

步骤4，动态调整网络拓扑结构：根据mesh网络负载和节点状态的变化，动态调整网络拓扑结构和路由节点，维持mesh网络的稳定性和实时性。

本发明与现有技术相比，其显著优点为：

（1）本发明采用距离向量算法将整个网络拓扑分层次处理，分层后的网络结构简单，使得网络管理及资源利用率大大提高；

（2）本发明利用链路状态信息路由协议根据网络中各节点的度确定关键节点，排除了所有不能连通的路径，减轻了计算负担，减少了路径计算时间，加快数据流转发，使得节点之间通信效率高，能够保证流媒体传输的实时性和稳定性；

（3）本发明在mesh网络选举关键节点，并在关键节点引入DDPG深度强化学习，赋予整个网络智能化，使得网络各节点在传输多媒体流量时具有最优化路由的能力，保证网络的稳定性和实时性。

附图说明

图1为本发明的mesh网络模型图。

图2为本发明的面向流媒体传输的无线mesh网络路由方法总体流程图。

图3为本发明的深度强化学习算法模型图。

具体实施方式

容易理解，依据本发明的技术方案，在不变更本发明的实质精神的情况下，本领域的一般技术人员可以想象出本发明的多种实施方式。因此，以下具体实施方式和附图仅是对本发明的技术方案的示例性说明，而不应当视为本发明的全部或者视为对本发明技术方案的限制或限定。

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有例子中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它例子可以具有不同的值。

结合图1，本发明一种面向流媒体传输的无线mesh网络路由方法，包括以下步骤：

步骤2，选择关键路由节点：利用LSRP协议获取全局视图，并在每个层级中选择满足条件的节点作为关键路由节点；所选取的关键路由节点具有更强的计算和通信能力，可以快速地转发数据包；

作为一种具体示例，步骤1中，建立层级网络拓扑结构，具体过程如下：

步骤1.1，使用距离向量算法（Distance Vector Algorithm，DVA）计算mesh网络中各个节点之间的距离和路径；

步骤1.2，根据节点之间的距离，将mesh网络中的节点分为多个层级，层级越高的节点距离mesh网络中心越近，层级越低的节点距离mesh网络中心越远；

步骤1.3，通过多跳路由相互连接，形成层级网络拓扑结构。

作为一种具体示例，步骤1.1中，使用距离向量算法DVA计算mesh网络中各个节点之间的距离和路径，具体过程如下：

（1-1）设mesh网络中有n个节点，分别为1,2,3,...,n，将节点之间的距离表示为一个n*n的节点距离矩阵

定义一个n*n的最短路径矩阵

其中，D_ij表示节点i到节点j的距离，P_ij表示从节点i到节点j的最短路径经过的中间节点；i=1,2,3,...,n，j=1,2,3,...,n；

（1-2）初始化矩阵D和P，将矩阵D和P的对角线元素初始化为0，表示节点到自身的距离为0，将矩阵D中的其余元素初始化为无穷大，表示节点之间暂时无法到达，将矩阵P中的所有元素初始化为-1，表示暂无最短路径；

（1-3）迭代计算：每个节点都维护一个距离向量表，表中记录了该节点到其他节点的距离；在迭代过程中，各节点向周围节点发送自己的距离向量，其他节点接收到距离向量后，根据当前节点的距离向量更新自己的距离向量和最短路径矩阵；

（1-4）当所有节点的距离向量和最短路径矩阵不再发生改变时，迭代计算结束，得到mesh网络中每个节点之间的距离和路径。

作为一种具体示例，步骤（1-3）中，根据当前节点的距离向量更新自己的距离向量和最短路径矩阵，具体过程如下：

①节点i接收到节点j的距离向量后，将自己的距离向量D_ij更新为D_xy

其中k为节点i的相邻节点，表示从节点j到节点k的最短距离；

②如果节点i的距离向量发生了改变，则更新最短路径矩阵P_ij为j，表示从节点i到节点j的最短路径经过节点j。

作为一种具体示例，步骤2中，选择关键路由节点的具体过程如下：

步骤2.1，将各节点距离矢量的距离矩阵D和最短路径矩阵P封装进HELLO报文，随后在全网各节点进行广播链路状态信息，链路状态信息包括连接到的邻居节点、距离,从而获取全网链路状态拓扑图，生成邻接图G(V,E)，其中V表示路由节点集，E表示网络链路集；

步骤2.2，根据邻接图G(V,E)，计算网络各层中各节点的度；

步骤2.3，根据各层各节点度的大小，选择度值大于设定值的节点作为各层的关键节点，所选择的关键路由节点满足计算和通信能力要求，并且转发数据包的速度大于设定值；

步骤2.4，当网络拓扑结构发生变化时更新邻接图G(V,E)，并按最短路径优先选择更新路由表以及目标节点信息，进而计算出各节点的度。

作为一种具体示例，步骤2.2中，计算网络各层中各节点的度，计算公式为：

其中，节点i的度值D_i表明了节点i在与网络中各节点的连接关系中的重要程度，度值越大则节点权重越高，则节点转发能力越强；D_out和D_in分别为节点i的出度指数和入度指数，表示节点i与其他节点形成的输入链路数以及输出链路数；为网路节点度参数，表示网络节点连接的稀松程度。

作为一种具体示例，步骤3中，DDPG是基于Actor-critic演员评论家架构的深度强化学习算法，在无线mesh网路中每个关键节点路由器被当作一个智能体即agent来与环境进行交互，将从mesh网络中选择一条最优路径作为流媒体传输通道这一问题，建模为一个具有状态空间、动作空间和奖励函数的马尔可夫决策过程MDP。

作为一种具体示例，在马尔可夫决策过程MDP的建模过程中，参数映射具体如下：

①状态空间S，即网络各节点信息，包括数据包转发路径上的丢包率L、时延T，由网络中的SNMP协议获得；

②动作空间A，定义智能体与环境交互的动作空间A，A为确定节点i和节点j间的关键节点为多媒体流转发节点，并输出相应节点权重值W表示选中该节点，即

假定节点i和j之间的P条路径上共有M个节点，多媒体数据流在路径p上传输，则定义路径p上关键节点m权重值W_m为

其中，表示在节点i和节点j之间的路径z上传输的数据流，z=1,2,…,Z，Z表示在节点i和节点j之间的路径总数，上式分母表示节点i和节点j传输数据流总和；/>表示在节点i和节点j之间的路径p上传输的数据流；D_m表示关键节点m的度值；

③定义奖励函数r：

奖励函数表示在选定路由节点后，系统获得的奖励值；表示优化效果的参数；/>是衰减系数，用来调节奖励的重要性；/>和/>分别代表多媒体数据流转发路径p的时延和丢包率；

在多媒体传输场景中，若多媒体流量数据包传输无卡顿无延时，则奖励值为正；反之则为负。

作为一种具体示例，基于Actor-critic演员评论家架构的深度强化学习算法DDPG，具体实现步骤如下：

步骤3.1，初始化DDPG神经网络模型：定义一个深度神经网络，指定学习率、折扣因子/>、探索率/>的初值，并初始化Actor神经网络参数/>和critic神经网络参数/>；

步骤3.2，初始化经验池：创建一个经验回放缓冲区，用于存储智能体与环境交互获得的经验，包括状态、动作/>、奖励/>、下一个状态/>；

步骤3.3，基于步骤1将mesh网络划分为多个层级，步骤2确认mesh网络各层关键路由节点，智能体与环境交互，获取当前网络状态信息数据，并使用Actor当前网络生成各节点初始动作/>，即多媒体数据流传输路径经过节点的权重值，代表选择路径p进行数据传输，则

在DDPG算法中，智能体与环境交互，执行相应的动作会获得环境（网络）给予的奖励/>。本发明场景下，智能体执行的动作/>指的是智能体与环境交互获取网络状态后选择一条最优路径p进行流媒体数据包转发，也是本发明路由算法的最终目的，选中网络中节点连成的路径即是p，而选中节点的表示方式就是上面的公式，即输出该节点的权重值。该权重值是经过神经网络迭代后，选择出数据包转发的源主机和目的主机中所有P条路径中所有M个节点中权重值较小的节点作为路由的其中一跳，并组成路径p。

步骤3.4，将初始状态和动作/>输入到环境和critic当前网络，获得下一个状态/>，当前网络Q值以及执行动作/>所获得的相应的奖励值，其中

其中，表示当前网络的输出函数，是初始化时由深度神经网络确定的函数；

步骤3.5，将智能体与环境交互获得的经验数据存储到经验回放缓冲区中；

步骤3.6，从经验回放缓冲区中随机采样一批经验数据作为样本，通过目标网络根据当前状态/>为每个节点生成的动作/>计算出相应的目标Q值，用/>表示，则

其中，是一个衰减系数，用于平衡当前奖励和未来奖励的重要性程度；

步骤3.7，更新当前Actor神经网络参数和critic神经网络参数/>，并将更新后的参数复制到目标网络；

步骤3.8，返回步骤3.2，直到网络中关键节点的权重值全部生成，即达到预期目标。

作为一种具体示例，步骤4中，根据mesh网络负载和节点状态的变化，动态调整网络拓扑结构和路由节点，维持mesh网络的稳定性和实时性，具体如下：

步骤4.1，由DDPG算法输出传输流媒体数据的反馈，更新网络各节点权重值；

步骤4.2，以选取权重值较小的节点为路由节点的原则，根据Dijkstra算法进行路由策略计算，确定数据包发送最优路径；

步骤4.3，配置路由器、路由协议、接口，将最优路径对应的传输节点信息配置成路由表并下发至交换机，交换机根据下发的路径信息进行数据转发。

下面结合说明书附图和具体实施方式对本发明做进一步详细描述。

实施例1

分层次的mesh网络模型如图2所示，分层后的网络结构简单，使得网络管理及资源利用率大大提高，通过按照距离远近分层的方式，可以使得节点之间的通信距离较短，通信效率更高。使用距离向量算法（Distance Vector Algorithm，DVA）计算网络中每个节点之间的距离和路径，具体实施方法如下：

S1.1设网络中有n个节点，分别为1,2,3,...,n，将节点之间的距离表示为一个n*n的节点距离矩阵

其中D_ij表示节点i到节点j的距离；定义一个n*n的最短路径矩阵

其中P_ij表示从节点i到节点j的最短路径经过的中间节点。

S1.2初始化矩阵D和P，将矩阵D和P的对角线元素初始化为0，表示节点到自身的距离为0，将矩阵D中的其余元素初始化为无穷大，表示节点之间暂时无法到达，将矩阵P中的所有元素初始化为-1，表示暂无最短路径。

S1.3迭代计算：每个节点都维护一个距离向量表，表中记录了该节点到其他节点的距离。在迭代过程中，各节点向周围节点发送自己的距离向量，其他节点接收到距离向量后，根据当前节点的距离向量更新自己的距离向量和最短路径矩阵。

具体更新方式如下：

S1.3.1节点i接收到节点j的距离向量后，将自己的距离向量D_ij更新为D_xy

其中k为节点i的相邻节点，表示从节点j到节点k的最短距离。

S1.3.2如果节点i的距离向量发生了改变，则更新最短路径矩阵P_ij为j，表示从节点i到节点j的最短路径经过节点j。

S1.4当所有节点的距离向量和最短路径矩阵不再发生改变时，距离向量算法的迭代计算结束。通过距离向量算法（DVA）的迭代计算，可以计算出网络中每个节点之间的距离和路径。

S1.5通过多跳路由相互连接，形成网络拓扑结构。

实施例2

利用LSRP来选择合适的路由节点作为关键节点，链路状态信息路由协议（LinkState Information Routing Protocol，LSRP）是一种基于全局网络拓扑结构的路由协议，在mesh网络中，可以采用链路状态信息路由协议来选取合适的路由节点作为网络的关键节点。具体实施步骤如下：

S2.1，在各节点将上述实施例1生成表示各节点距离矢量的距离矩阵和最短路径矩阵/>作为HELLO报文进行封装，并在全网各节点进行广播链路状态信息，链路状态信息包括连接到的邻居节点、距离等，从而获取全网链路状态拓扑图，生成邻接图G(V,E)。其中V表示路由节点集，E表示网络链路集。

S2.2网络中某节点i的度D_i的大小由节点出度指数D_out和入度指数D_in共同决定，计算公式为：

S2.3根据各层各节点度的大小，度值越大，则表明在网络中的连接程度越高，从而确定各层关键节点，并用集合V_h表示：

S2.4当网络拓扑结构发生变化时，更新图G(V,E)，并重新计算网络各节点的度。

实施例3

DDPG算法模型图如图3所示，算法具体实现步骤如下：

采用DDPG算法实现最优化选路，建立流媒体传输通道。DDPG是一种深度确定性的策略梯度算法，它是为了解决连续动作控制问题而提出的算法。在本实施例中，DDPG算法由基于A-C（Actor-Critic）架构的当前网络和目标网络构成：

Actor当前网络：负责策略参数的迭代更新的网络。接收环境的当前状态s作为输入，并输出每个节点的动作a，即节点的权重值。这个网络用于与环境进行交互，生成下一个状态s_t+1和对应的奖励r。

Critic当前网络：负责价值参数的迭代更新的网络。接收环境的当前状态S和 Actor当前网络输出的动作a作为输入，输出当前状态下动作a所对应的Q值。

目标网络：是当前网络的备份网络，用于在训练过程中提供稳定性和避免过度更新的影响。网络参数为和/>，定期从当前网络复制。目标网络接收环境的当前状态s作为输入，输出动作/>以及对应的/>值。

在本实施例中，DDPG算法采用的经验回放机制是一种经验存储和随机采样的方法，用于训练DDPG算法。在每个时间步，算法会将当前状态、选择的动作、获得的奖励、下一个状态等信息存储到经验缓冲区中。然后，从经验缓冲区中随机采样一批经验样本，用于训练当前网络和目标网络。通过不断迭代训练当前网络和目标网络，DDPG算法能够学习到最优的策略，以优化路由策略。

本发明所述无线mesh网路中每个关键节点路由器被当作一个agent来与环境进行交互，将该路由优化问题建模为一个具有状态空间、行为空间和瞬时奖励函数的马尔可夫决策过程(MDP)，具体实施方式如下：

S3.1参数映射

S3.1.1状态空间S，即网络各节点信息，包括数据包转发路径上的丢包率L、时延T等，由网络中的SNMP协议获得。

S3.1.2动作空间A，定义智能体与环境交互的动作空间A为确定源节点i目标节点j间的关键节点为多媒体流转发节点，并输出相应节点权重值W表示选中该节点，即

假定节点i和j之间的P条路径上共有M个节点，多媒体数据流在某路径p上传输，则定义路径p上某关键节点m权重值W_m为

其中表示在节点i和节点j之间的路径z上传输的数据流，z=1,2,…,Z，Z表示在节点i和节点j之间的路径总数，上式分母表示节点i和节点j传输数据流总和；/>表示在节点i和节点j之间的路径p上传输的数据流；D_m表示关键节点m的度值。

S3.1.3定义奖励函数r：

奖励函数表示在选定该路由节点后，系统获得的奖励值，在本实施例所针对的多媒体传输场景中，若多媒体流量数据包传输无卡顿无延时，则奖励值为正；反之则为负。其中，，表示优化效果的参数；/>是一个衰减系数，用来调节奖励的重要性，可根据具体情况来调节。/>和/>分别代表多媒体数据流转发路径p的时延和丢包率。

S3.2算法实现。多媒体流量控制是一个连续问题，DDPG是一种基于Actor-critic演员评论家架构的深度强化学习算法，是解决这一问题的一种优势方法。算法具体实现步骤如下：

S3.2.1初始化DDPG神经网络模型：定义一个深度神经网络，指定包括神经网络的结构、学习率、折扣因子/>、探索率/>等初值；

S3.2.2初始化经验池：创建一个经验回放缓冲区，用于存储智能体与环境交互获得的经验，包括状态、动作/>、奖励/>、下一个状态/>等信息，保证了DDPG模型的稳定性；

S3.2.3基于上述实施例1以及实施例2，将mesh网络分层次划分并确认mesh网络各层关键节点，智能体与环境交互，获取当前网络状态信息数据，并使用Actor当前网络生成各节点初始动作/>，即多媒体数据流传输路径经过节点的权重值，代表了选择某条路径p进行数据传输。其中，

S3.2.4 将初始状态和动作/>输入到环境和critic当前网络，获得下一个状态，当前网络Q值以及执行动作/>所获得的相应的奖励值。其中，

其中，表示当前网络的输出函数，是初始化时由深度神经网络决定的函数。

S3.2.5将智能体与环境交互获得的经验数据存储到经验回放缓冲区中。

S3.2.6从经验回放缓冲区中随机采样一批经验数据作为样本，通过目标网络根据当前状态/>为每个节点生成的动作/>计算出的相应的目标Q值，用表示，则

其中，是一个衰减系数，用于平衡当前奖励和未来奖励的重要性程度。

S3.2.7更新当前Actor神经网络参数和critic神经网络参数/>，并将更新后的参数复制到目标网络。

S3.2.8重复步骤S3.2直到网络中关键节点的权重值全部生成，即达到预期目标。

S3.2.9由DDPG算法输出传输流媒体数据的反馈，更新网络各节点权重值。

基于上述实施例1、实施例2、实施例3生成的节点权重值，以选取权重值较小的节点为路由节点的原则，根据Dijkstra 算法进行路由策略计算，确定数据包发送最优路径；配置路由器、路由协议、接口，将最优路径对应的传输节点信息配置成路由表并下发至交换机，交换机根据下发的路径信息进行数据转发。

在不同的网络规模以及参数设置时，使用本发明方案传输多媒体数据流网络的参数指标如下：

当网络节点数n为100，节点度参数为0.8，DDPG神经网络的学习率/>为0.02，探索率/>为0.1时，使用本发明方案得到的多媒体流量传输节点间端到端时延、丢包率、数据包到达率分别为4ms、0.1%、99.8%；

当网络节点数n为200，节点度参数为0.5，DDPG神经网络的学习率/>为0.05，探索率/>为0.3时，使用本发明方案得到的多媒体流量传输节点间端到端时延、丢包率、数据包到达率分别为5ms、0.5%、99.3%；

当网络节点数n为300，节点度参数为0.2，DDPG神经网络的学习率/>为0.09，探索率/>为0.5时，使用本发明方案得到的多媒体流量传输节点间端到端时延、丢包率、数据包到达率分别为8ms、0.7%、98.9%。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

应当理解，为了精简本发明并帮助本领域的技术人员理解本发明的各个方面，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时在单个实施例中进行描述，或者参照单个图进行描述。但是，不应将本发明解释成示例性实施例中包括的特征均为本专利权利要求的必要技术特征。

Claims

1.一种面向流媒体传输的无线mesh网络路由方法，其特征在于，包括以下步骤：

步骤4，动态调整网络拓扑结构：根据mesh网络负载和节点状态的变化，动态调整网络拓扑结构和路由节点，维持mesh网络的稳定性和实时性；

步骤3中，DDPG是基于Actor-critic演员评论家架构的深度强化学习算法，在无线mesh网路中每个关键路由节点被当作一个智能体即agent来与环境进行交互，将从mesh网络中选择一条最优路径作为流媒体传输通道这一问题，建模为一个具有状态空间、动作空间和奖励函数的马尔可夫决策过程MDP；

在马尔可夫决策过程MDP的建模过程中，参数映射具体如下：

②动作空间A，定义智能体与环境交互的动作空间A，A为确定节点i和节点j间的关键路由节点为多媒体流转发节点，并输出相应节点权重值W表示选中该节点，即

；

假定节点i和j之间的P条路径上共有M个节点，多媒体数据流在路径p上传输，则定义路径p上关键路由节点m权重值W_m为

；

其中，表示在节点i和节点j之间的路径z上传输的数据流，z=1,2,…,Z，Z表示在节点i和节点j之间的路径总数，上式分母表示节点i和节点j传输数据流总和；/>表示在节点i和节点j之间的路径p上传输的数据流；D_m表示关键路由节点m的度值；

③定义奖励函数r：

；

在多媒体传输场景中，若多媒体流量数据包传输无卡顿无延时，则奖励值为正；反之则为负；

基于Actor-critic演员评论家架构的深度强化学习算法DDPG，具体实现步骤如下：

步骤3.1，初始化DDPG神经网络模型：定义一个深度神经网络，指定学习率、折扣因子、探索率/>的初值，并初始化Actor神经网络参数/>和critic神经网络参数/>；

步骤3.3，基于步骤1将mesh网络划分为多个层级，步骤2确认mesh网络各层关键路由节点，智能体与环境交互，获取当前网络状态信息数据，并使用Actor当前网络生成各节点初始动作/>：

；

步骤3.4，将初始状态和动作/>输入到环境和critic当前网络，获得下一个状态，当前网络Q值以及执行动作/>所获得的相应的奖励值，其中

；

步骤3.8，返回步骤3.2，直到网络中关键路由节点的权重值全部生成，即达到预期目标。

2.根据权利要求1所述的面向流媒体传输的无线mesh网络路由方法，其特征在于，步骤1中，建立层级网络拓扑结构，具体过程如下：

步骤1.1，使用距离向量算法DVA计算mesh网络中各个节点之间的距离和路径；

步骤1.3，通过多跳路由相互连接，形成层级网络拓扑结构。

3.根据权利要求2所述的面向流媒体传输的无线mesh网络路由方法，其特征在于，步骤1.1中，使用距离向量算法DVA计算mesh网络中各个节点之间的距离和路径，具体过程如下：

；

定义一个n*n的最短路径矩阵

；

4.根据权利要求3所述的面向流媒体传输的无线mesh网络路由方法，其特征在于，步骤（1-3）中，根据当前节点的距离向量更新自己的距离向量和最短路径矩阵，具体过程如下：

；

其中k为节点i的相邻节点，表示从节点j到节点k的最短距离；

5.根据权利要求4所述的面向流媒体传输的无线mesh网络路由方法，其特征在于，步骤2中，选择关键路由节点的具体过程如下：

步骤2.2，根据邻接图G(V,E)，计算网络各层中各节点的度；

步骤2.3，根据各层各节点度的大小，选择度值大于设定值的节点作为各层的关键路由节点，所选择的关键路由节点满足计算和通信能力要求，并且转发数据包的速度大于设定值；

6.根据权利要求5所述的面向流媒体传输的无线mesh网络路由方法，其特征在于，步骤2.2中，计算网络各层中各节点的度，计算公式为：

；

7.根据权利要求1所述的面向流媒体传输的无线mesh网络路由方法，其特征在于，步骤4中，根据mesh网络负载和节点状态的变化，动态调整网络拓扑结构和路由节点，维持mesh网络的稳定性和实时性，具体如下：

步骤4.2，以选取权重值较小的节点为关键路由节点的原则，根据Dijkstra算法进行路由策略计算，确定数据包发送最优路径；