CN108075975A

CN108075975A - 一种物联网环境中的路由传输路径的确定方法及确定系统

Info

Publication number: CN108075975A
Application number: CN201711458747.1A
Authority: CN
Inventors: 王雪; 钱志鸿; 黄岚; 金涛; 范康康
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2017-12-28
Filing date: 2017-12-28
Publication date: 2018-05-25
Anticipated expiration: 2037-12-28
Also published as: CN108075975B

Abstract

本发明公开一种物联网环境中的路由传输路径的确定方法及确定系统，所述确定方法包括：根据路由节点的当前状态和当前选择的动作建立马尔可夫路由决策模型；根据所述马尔可夫路由决策模型确定各路由传输路径的值函数；根据各所述路由传输路径的值函数确定路由的优选传输路径。本发明面向路由参量信息不全面，或者完全未知的情况，利用强化学习构建包括节点状态集、转发行动集、状态转移概率、奖赏值的四元组的马尔可夫路由决策模型，利用bellman最优定理，求取最大值函数，获取优选传输路径。当最大值函数对应的策略不唯一时，定义归一化值密度与加权转移概率，以网络与环境需求为加权基准，完成最优路径选择。

Description

一种物联网环境中的路由传输路径的确定方法及确定系统

技术领域

本发明涉及无线通信领域，特别是涉及一种物联网环境中的路由传输路径的确定方法及确定系统。

背景技术

物联网环境下，网络具有规模大、形式多样、拓扑纷杂的特点，网络形式、能耗、节点数量、移动性等诸多因素对物联网路由提出了更高的要求，需要考虑的参量已然不仅仅是能量，而是多因素之间的均衡。而且，庞杂的网络体系不可避免地面临不确定的环境因素与网络因素，如路由参量信息不全面或者完全未知的情况。如何在不确定条件下完成路由选择，同时均衡路由性能，成为本领域技术人员亟需解决的技术问题。

发明内容

本发明的目的是提供一种物联网环境中的路由传输路径的确定方法及确定系统，能够在路由条件未知或者不全面的情况下提供满足网络需求的路由传输路径。

为实现上述目的，本发明提供了如下方案：

一种物联网环境中的路由传输路径的确定方法，所述确定方法包括：

根据路由节点的当前状态和当前选择的动作建立马尔可夫路由决策模型；

根据所述马尔可夫路由决策模型确定各路由传输路径的值函数；

根据各所述路由传输路径的值函数确定路由的优选传输路径。

可选的，所述根据各所述路由传输路径的值函数确定路由的优选传输路径之后，还包括：

根据各所述路由传输路径的值函数更新所述马尔可夫路由决策模型，获得更新后的马尔可夫路由决策模型，返回所述“根据各所述路由传输路径的值函数确定路由的优选传输路径”。

可选的，所述马尔可夫路由决策模型为：其中，S表示所有状态组成的节点状态集，A(S)表示状态集S对应的所有路由动作的集合；s和s′均为所述节点状态集S中的状态元素，其中，s′表示路由节点在第t个决策时刻的状态，s表示路由节点在第(t+1)个决策时刻的状态，t表示正整数，a表示路由动作，表示路由节点执行路由动作a后由状态s′转移到状态s的概率，表示路由节点执行路由动作a后由状态s′转移到状态s获得的即时奖赏值。

可选的，每条所述路由传输路径的值函数为：

其中，m表示路由传输路径的序号且1≤m≤M，M表示路由传输路径的总数，π表示路由传输路径，表示路由节点状态s对应的第m条路由传输路径的值函数，N表示决策时刻的总数，E_m表示第m条路由传输路径的期望，γ表示折扣因子且γ∈(0,1]，t表示决策时刻的序号，s_t表示第t个决策时刻的状态，r_t表示第t个决策时刻路由节点执行路由动作a后状态s获得的瞬时奖赏值。

可选的，所述根据各所述路由传输路径的值函数确定路由的优选传输路径，具体包括：

根据各所述路由传输路径的值函数计算每条所述路由传输路径的值函数值；

筛选出值函数值最大的路由传输路径作为路由的优选传输路径。

可选的，在所述筛选出值函数值最大的路由传输路径作为路由的优选传输路径之后，还包括：

判断所述优选传输路径的条数是否大于1，获得第一判断结果；

若所述第一判断结果表示所述优选传输路径的条数等于1，则将所述优选传输路径确定为最优传输路径；

若所述第一判断结果表示所述优选传输路径的条数大于1，则根据各所述优选传输路径的值函数值确定每条所述优选传输路径的值密度；

根据各所述优选传输路径的值密度确定每条所述优选传输路径的加权转移概率；

筛选出加权转移概率最大的优选传输路径作为路由的最优传输路径。

可选的，根据公式：确定每条所述优选传输路径的值密度，其中，π_i表示优选传输路径，表示第i条优选传输路径，表示路由节点状态s对应的第i条优选传输路径的值密度，I表示优选传输路径的数量，表示路由节点状态s对应的第i条优选传输路径的值函数。

可选的，根据公式：确定每条所述优选传输路径的加权转移概率，其中，表示路由节点状态s对应的第i条优选传输路径的加权转移概率，α_i表示根据网络需求确定的第i条优选传输路径的概率系数。

一种物联网环境中的路由传输路径的确定系统，所述确定系统包括：

决策模型建立模块，用于根据路由节点的当前状态和当前选择的动作建立马尔可夫路由决策模型；

值函数确定模块，用于根据所述马尔可夫路由决策模型确定各路由传输路径的值函数；

优选路径确定模块，用于根据各所述路由传输路径的值函数确定路由的优选传输路径。

可选的，所述确定系统还包括：

模型更新模块，用于根据各所述路由传输路径的值函数更新所述马尔可夫路由决策模型，获得更新后的马尔可夫路由决策模型，并将更新后的马尔可夫路由决策模型发送给所述优选路径确定模块。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明首先根据路由节点的当前状态和当前选择的动作建立马尔可夫路由决策模型，然后根据马尔可夫路由决策模型确定各路由传输路径的值函数，最后根据各路由传输路径的值函数确定路由的优选传输路径，能够在网络信息缺失，路由信息不足的环境下确定路由的优选传输路径。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例1提供的确定方法的流程图；

图2为本发明实施例1提供的确定方法中步骤13的流程图；

图3为本发明实施例2提供的确定系统的结构框图；

图4为本发明实施例3提供的强化学习加权均衡未知环境路由的原理图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明实施例1提供的确定方法的流程图。如图1所示，一种物联网环境中的路由传输路径的确定方法，所述确定方法包括：

步骤11：根据路由节点的当前状态和当前选择的动作建立马尔可夫路由决策模型。本实施例中，利用强化学习方法建立包括节点状态集、转发行动集、状态转移概率、奖赏值的四元组的马尔可夫路由决策模型。

所述马尔可夫路由决策模型为：其中，S表示所有状态组成的节点状态集，A(S)表示状态集S对应的所有路由动作的集合；s和s′均为所述节点状态集S中的状态元素，其中，s′表示路由节点在第t个决策时刻的状态，s表示路由节点在第(t+1)个决策时刻的状态，t表示正整数，a表示路由动作，表示路由节点执行路由动作a后由状态s′转移到状态s的概率，表示路由节点执行路由动作a后由状态s′转移到状态s获得的即时奖赏值。

步骤12：根据所述马尔可夫路由决策模型确定各路由传输路径的值函数。

每条所述路由传输路径的值函数为：

步骤13：根据各所述路由传输路径的值函数确定路由的优选传输路径。

可选地，执行步骤13：所述根据各所述路由传输路径的值函数确定路由的优选传输路径之后，还包括：

步骤14：根据各所述路由传输路径的值函数更新所述马尔可夫路由决策模型，获得更新后的马尔可夫路由决策模型，返回所述“根据各所述路由传输路径的值函数确定路由的优选传输路径”。

图2为本发明实施例1提供的确定方法中步骤13的流程图。如图2所示，步骤13：所述根据各所述路由传输路径的值函数确定路由的最优传输路径，具体包括：

步骤131：根据各所述路由传输路径的值函数计算每条所述路由传输路径的值函数值；

步骤132：筛选出值函数值最大的路由传输路径作为路由的优选传输路径。

执行步骤132：所述筛选出值函数值最大的路由传输路径作为路由的优选传输路径之后，还包括：

步骤133：判断所述优选传输路径的条数是否大于1，获得第一判断结果；

若所述第一判断结果表示所述优选传输路径的条数等于1，则执行步骤134；

若所述第一判断结果表示所述优选传输路径的条数大于1，则执行步骤135；

步骤134：将所述优选传输路径确定为最优传输路径；

步骤135：根据各所述优选传输路径的值函数值确定每条所述优选传输路径的值密度。

本实施例中，根据公式：确定每条所述优选传输路径的值密度，其中，表示第i条优选传输路径，表示路由节点状态s对应的第i条优选传输路径的值密度，I表示优选传输路径的数量，表示路由节点状态s对应的第i条优选传输路径的值函数。

步骤136：根据各所述优选传输路径的值密度确定每条所述优选传输路径的加权转移概率。

本实施例中，根据公式：确定每条所述优选传输路径的加权转移概率，其中，表示路由节点状态s对应的第i条优选传输路径的加权转移概率，α_i表示根据网络需求确定的第i条优选传输路径的概率系数。本实施例中，网络需求为最低能耗、最短路径、最大生命期和/或最大覆盖范围等。

步骤137：筛选出加权转移概率最大的优选传输路径作为路由的最优传输路径。

一阶马尔可夫决策过程的本质是：当前状态向下一状态转移的概率和奖赏值只取决于当前状态和选择的动作，而与历史状态和历史动作无关。因此假设环境是马尔可夫型的，在已知状态转移概率函数P和奖赏函数R的系统模型知识下，可以用动态规划技术求解最优策略，在此考虑到物联网环境的多目标特性，即只考虑单一性能指标将不能完全满足网络需求，因此在动态规划的基础上，运用多目标决策理论，对网络需求进行加权均衡，以此选择出最优路径。

本发明利用强化学习与多度量因素加权相结合迭代选择最优策略，实现在网络信息缺失，路由信息不足的环境下的最优路径选取，一方面可以实现未知环境的路由选择，另一方面还将针对网络需求与目标加权配比转移概率，针对物联网、尤其是大规模复杂物联网动态调节参数间平衡，获取允许决策集节点转移概率，找到满足要求的全局最优路径，学习结果还能用于构建路由状态转移的马尔可夫模型，为进一步优化选路提供基础数据。

实施例2：

图3为本发明实施例2提供的确定系统的结构框图。如图3所示，一种物联网环境中的路由传输路径的确定系统，所述确定系统包括：

决策模型建立模块21，用于根据路由节点的当前状态和当前选择的动作建立马尔可夫路由决策模型；

值函数确定模块22，用于根据所述马尔可夫路由决策模型确定各路由传输路径的值函数；

优选路径确定模块23，用于根据各所述路由传输路径的值函数、利用贝尔曼最优定理方程(动态规划方程)确定路由的优选传输路径；

模型更新模块24，用于根据各所述路由传输路径的值函数更新所述马尔可夫路由决策模型，获得更新后的马尔可夫路由决策模型，并将更新后的马尔可夫路由决策模型发送给所述优选路径确定模块。

本发明面向路由参量信息不全面，或者完全未知的情况，利用强化学习构建包括节点状态集、转发行动集、状态转移概率、奖赏值的四元组的马尔可夫路由决策模型，利用bellman最优定理，求取最大值函数，获取优选传输路径。当最大值函数对应的策略不唯一时，定义归一化值密度与加权转移概率，以网络与环境需求为加权基准，完成最优路径选择。

实施例3：

本实施例针对物联网不确定环境的路由选择技术，分析路由选择所需要依赖的必要条件，提出一种基于强化学习加权均衡的物联网未知环境路由选择方法，实现在路由条件未知或者不全面的情况下，确定最优传输路径。

图4为本发明实施例3提供的强化学习加权均衡未知环境路由的原理图。如图4所示，本实施例在未知环境的路由构建时，利用强化学习构建包括节点状态集、转发行动集、状态转移概率、奖赏值四元组的马尔可夫路由决策模型，利用贝尔曼最优定理方程(BellmanEquation，动态规划方程)求取最大值函数，获取路由的优选传输路径。当最大值函数对应的传输路径不唯一时，定义归一化值密度与加权转移概率，以网络与环境需求为加权基准，完成最优传输路径选择。

具体地，本实施例提供的路由传输路径的确定方法包括：

步骤31：根据路由节点的当前状态和当前选择的动作建立马尔可夫路由决策模型。

路由决策当前状态向下一状态转移的概率和奖赏值只取决于当前状态和选择的动作，而与历史状态和历史动作无关，与顺序型决策一阶马尔可夫过程吻合，因此可以假设环境是马尔可夫型的。在转移概率P和奖赏值R未知的情况下，通过强化学习过程构建Markov决策过程的四元组为:其中S为所有可能的状态组成的节点非空状态集，s和s′均为所述节点状态集S中的状态元素，A(S)表示状态集S下所有可能的路由动作集合；当系统在决策时刻t处于状态s′，执行路由决策a后，系统在下一决策时刻(t+1)处于状态s的概率是获得的即时奖赏值为

步骤32：根据所述马尔可夫路由决策模型确定各路由传输路径的值函数。

定义准则函数V，或称为目标函数，在本策略中为物联网未知环境路由的选路目标，可定义为有期望时段总报酬、期望折扣总报酬、平均报酬等，该值可以是状态值函数，也可以是状态动作对函数。在物联网未知环境下可以进一步定义为最低能耗，最短路径，最大生命期，最大覆盖范围等。

对于不收敛的强化学习问题，采用任务分解的方式，即分层强化学习，分别在子网中进行建模，如此则起到了降维降次的目的，大大提高算法的收敛速度，节约网络能耗。收敛的强化学习则不需要考虑降维，进一步考虑到的物联网路由状态有限、网络规模大等特点，本实施例采取无限折扣总报酬准则，对于策略(路由传输路径)π值函数定义为：

其中，表示t时刻状态s_t＝s的瞬时奖赏值，γ∈(0,1]为折扣因子，以表征近邻节点与近邻选路动作产生的奖赏所占的权重大于未来动作奖赏的作用。

步骤33：根据各所述路由传输路径的值函数确定路由的优选传输路径。

值函数可以用来筛选最优策略，通过鉴别最优值函数获得，将筛选出的值函数值最大的路由传输路径作为路由的优选传输路径。利用强化学习进行路由选择的目的是获得最优选路策略π^*:S→A，在S状态下采取路由行动A而获取最大奖赏。

最优值函数定义为进一步可递归为利用Bellman最优方程得优选传输路径为：其中，π表示所有传输路径，π^*表示优选传输路径，表示状态s对应的优选传输路径的值函数，表示状态s′对应的优选传输路径的值函数。

步骤34：判断所述优选传输路径的条数是否大于1，获得第一判断结果；

步骤35：根据各所述优选传输路径的值密度确定每条所述优选传输路径的加权转移概率；

步骤36：筛选出加权转移概率最大的优选传输路径作为路由的最优传输路径。

优选传输路径可能不只一个，但他们的值函数相同，然而在路由选择过程中，对于单跳网络来说，每次决策，只可采取一个最优路径，因此，在此情况下，本发明将根据网络需求的度量权值获取唯一最优传输路径。定义值密度函数其中I为通过Bellman最优策略获得的优选传输路径的数量。定义最大值函数对应最优策略集的加权转移概率A(a₁,a₂,…,a_i,…,a_I)→π^*。非最大值函数对应的传输路径已不在当次最优选路备选集合中，因此记加权转移概率为0，α_i为s状态下采取π^*策略所对应选择动作的权值，以此来表征网络需求与偏好度。

在此基础上，选择转移概率最大的路径为最优路径，即

步骤37：根据各所述路由传输路径的值函数更新所述马尔可夫路由决策模型。

本实施例中，将值函数V更新到马尔可夫四元组中，成为马尔可夫选路五元组并将马尔可夫选路五元组模型进一步存到路由邻居表，以此作为后续选路判断的依据，节约选路成本。

强化学习是人工智能中策略学习的一种，基于最大利益准则，是智能系统从环境到行为映射的学习，强化学习的目标是动态地调整参数，以达到奖励信号(强化信号)函数值最大的目的。在物联网未知环境下，由于外部环境提供的信息很少，因此，本发明采用强化学习方法，在行动-评价的环境中获得知识，改进路由方案以适应环境。同时，针对强化学习最大值函数对应的策略不唯一的情况，通过值密度加权转移概率在已有优选路由方案中选择决策倾向性较高的链路。对于强化学习的收敛问题，采用了任务分解的方式，分别在子网中进行建模，从而实现降维降次的目的，大大提高了算法的收敛速度，节约网络能耗。进一步地，还可以在强化学习路由建立的过程中引入性能势函数，以降低策略比较的计算量，当路由策略改变时，只需比较当前性能势因子即可，进一步提高选路速度，降低能耗与时延，延长网络生命期。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种物联网环境中的路由传输路径的确定方法，其特征在于，所述确定方法包括：

2.根据权利要求1所述的确定方法，其特征在于，所述根据各所述路由传输路径的值函数确定路由的优选传输路径之后，还包括：

3.根据权利要求1所述的确定方法，其特征在于，所述马尔可夫路由决策模型为：

其中，S表示所有状态组成的节点状态集，A(S)表示状态集S对应的所有路由动作的集合；s和s′均为所述节点状态集S中的状态元素，其中，s′表示路由节点在第t个决策时刻的状态，s表示路由节点在第(t+1)个决策时刻的状态，t表示正整数，a表示路由动作，表示路由节点执行路由动作a后由状态s′转移到状态s的概率，表示路由节点执行路由动作a后由状态s′转移到状态s获得的即时奖赏值。

4.根据权利要求1所述的确定方法，其特征在于，每条所述路由传输路径的值函数为：

5.根据权利要求1所述的确定方法，其特征在于，所述根据各所述路由传输路径的值函数确定路由的优选传输路径，具体包括：

6.根据权利要求5所述的确定方法，其特征在于，在所述筛选出值函数值最大的路由传输路径作为路由的优选传输路径之后，还包括：

7.根据权利要求6所述的确定方法，其特征在于，根据公式：

确定每条所述优选传输路径的值密度，其中，π_i表示优选传输路径，表示第i条优选传输路径，表示路由节点状态s对应的第i条优选传输路径的值密度，I表示优选传输路径的数量，表示路由节点状态s对应的第i条优选传输路径的值函数。

8.根据权利要求7所述的确定方法，其特征在于，根据公式：

确定每条所述优选传输路径的加权转移概率，其中，表示路由节点状态s对应的第i条优选传输路径的加权转移概率，α_i表示根据网络需求确定的第i条优选传输路径的概率系数。

9.一种物联网环境中的路由传输路径的确定系统，其特征在于，所述确定系统包括：

10.根据权利要求9所述的确定系统，其特征在于，所述确定系统还包括：