CN104640168A

CN104640168A - 基于q学习的车载自组织网络路由方法

Info

Publication number: CN104640168A
Application number: CN201410734390.5A
Authority: CN
Inventors: 李凡; 李瑞玲; 宋肖玉; 王昱
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2014-12-04
Filing date: 2014-12-04
Publication date: 2015-05-20
Anticipated expiration: 2034-12-04
Also published as: CN104640168B

Abstract

本发明涉及一种基于Q学习的车载自组织网络路由方法，属于物联网通信技术领域。该方法：1)网络中的车辆均装载有GPS全球定位系统，车辆过彼此间传递Hello消息获取邻居节点信息；2)将城市区域划分成相等的网格，每个网格的位置代表一个不同的状态，从一个网格转移到相邻的网格代表一个动作；3)Q值表的学习。4)参数的设定；5)路由选择策略QGrid_G、QGrid_M。新加入网络中的车辆会从邻居车辆那里获得线下学习得到的Q值表，车辆根据消息目的网格查询Q值表就可以获知消息传递的最优下一跳网格。本发明从宏观上考虑车辆最经常行驶的网格序列，从微观上考虑选择最有可能到达最优下一跳网格的车辆，宏观和微观结合的方式有效提高了消息在城市交通网络中的传递成功率。

Description

基于Q学习的车载自组织网络路由方法

技术领域

本发明属于物联网通信技术领域，具体涉及车载自组织网络的路由选择方法，用于解决车载物联网在复杂多变环境下路由选择的问题。

背景技术

车载自组织网络(Vehicular Ad Hoc Networks，VANETs)是一种高速移动的无线网络，它依靠短距离通信技术实现车与车以及车与路边基础设备之间的通信。目前适用于车载物联网的基于地理位置的路由协议算法主要有以下几种：1)GPSR(Greedy Perimeter Stateless Routing)协议基于地理位置和贪婪转发路机制。在协议中，当前节点总是将数据包传递给距离目的节点最近邻居节点。然而，在拥堵、繁忙、低速的城市环境下，GPSR协议在可行性、可靠性和稳定性等方面仍存在一些不足之处。2)GPCR(Greedy Perimeter Coordinator Routing)协议。GPCR协议借助街道路口的枢纽节点形成的自然平面图，沿着道路进行贪婪或者边缘模式转发。数据包总是被转发到枢纽节点上，根据目的节点位置进行路由方向的选择。但GPCR仍然不能很好的解决数据传输到路口附近时，容易产生中断的问题。3)GSR(Geographic Source Routing)协议依赖于地图的可用性，利用Dijkstra算法计算源节点通过岔路口到达目的节点的序列。协议简单，且容易实现，但在应付快速变化的拓扑结构方面效率非常差。

由于车载自组织网络具有自治性、多跳路由、网络容量有限，拓扑结构高速动态变化、网络频繁中断、能量充足、计算能力较强和存储空间足够以及移动模型的可预测性等特点。现存的路由协议都存在某些方面的不足，因此，需要设计更符合车联网运动特点的新的路由算法。

发明内容

本发明的目的是针对城市交通网络环境复杂多变的问题，提供一种车载自组织网络路由方法，无论网络连通性的好坏，都能尽可能的提高数据包传递成功率。本发明提供了一种基于地理位置并结合强化学习算法Q学习的一种车载自组织网络路由方法。通过结合宏观和微观两个方面进行路由传递，从而在尽可能提高数据包传递成功率的同时，不至于产生较长的时延、太大的网络拥塞、以及较高的平均转发跳数。

本发明的目的是通过下述技术方案实现的。

一种基于Q学习的车载自组织网络路由方法，包括以下步骤：

步骤一、将城市区域划分成相等的网格，记录每一个网格中过去一段时间内经过车辆的轨迹信息。

步骤二、设定参数值

初始化网格中所有(状态，动作)对应的Q函数值。α学习因子的取值按照经验值设定。折扣因子γ的值与网格中经过车辆频繁程度有关，数据包沿着有车辆频繁经过的网格有利于提高数据包的传递成功率。

步骤三、根据步骤一和步骤二学习Q值表。利用公式

Q (s_{t}, a_{t}) &LeftArrow; (1 - α) Q (s_{t}, a_{t}) + α (f_{R} (s_{t}, a_{t}) + γ \max_{a^{'}} Q (f_{S} (s_{t}, a_{t}), a^{'}))

离线学习Q值表。其中s_t代表t时刻的状态，a_t代表t时刻采取的动作，Q(s_t,a_t)代表该(状态，动作)对所对应的Q值，α代表学习因子，γ代表折扣因子，f_R代表奖励函数，f_S代表状态转移函数，a′代表对应下一个状态的动作。

步骤四、根据步骤三学习得到Q值表转发数据包，新加入网络中的车辆会从邻居车辆共享得到的Q值表。车辆根据数据包的目的网格查询Q值表确定最优下一跳网格，然后利用贪婪的选择策略QGrid_G和Markov选择策略QGrid_M确定该网格中的具体下一跳节点。

有益效果

本发明提出的方法是基于地理位置信息的车载自组织网络路由方法，此方法从宏观上考虑车辆频繁经过的网格序列，从微观上按照不同的策略选择具体的车辆。宏观和微观结合的方式有效提高了数据包在城市交通网络中的传递成功率。网络中的车辆采用“存储-携带-转发”的模式进行数据包传递，本发明中的车辆只需要查询Q值表进行数据包的传递，不需要路由发现以及路由维护，更能满足实际的车载自组织网络，更适合真实城市交通网络环境。本发明是单副本数据包传递，因此不会产生太大的网络拥塞。数据包总是沿着当前最优的下一跳网格传递，在提高传递成功率的同时带来了一定的时延。因此，本发明更适合应用在对传输时延要求不高、数据传递成功率要求较高的网络场景。

附图说明

图1 2007年1号到8号不同网格中车辆GPS记录条数变化图；

图2本发明的智能体通过学习不断获得每一步动作对应的Q值；

图3本发明的基于Q学习和网格的路由算法流程图；

图4本发明的Markov选择策略；

图5实验场景参数设置；

图6当时间片ΔT＝1s时，QGrid_G、QGrid_M、HarpiaGrid以及GPSR路由传递成功率；

图7当时间片ΔT＝1s时，QGrid_G、QGrid_M、HarpiaGrid以及GPSR路由传递成功数据包的平均时延；

图8当时间片ΔT＝20s时，QGrid_G、HarpiaGrid以及GPSR路由传递成功率。

图9当时间片ΔT＝20s时，QGrid_G、HarpiaGrid以及GPSR路由传递成功数据包的平均时延；

具体实施方式

下面结合附图和实施例对本发明的具体实施方式做进一步详细说明。

本部分将结合上述附图对基于Q学习以及网格的路由路由选择方法做详细说明，此方法所包括各个部分的具体实施方式如下：

步骤一、将城市区域划分成相等的网格，记录每一个网格中过去一段时间内经过车辆的轨迹信息。由于网络中的车辆均装载有GPS全球定位系统，车辆通过彼此间传递Hello数据包获取邻居节点信息。图1是2007年2月1号至2007年2月8号上海市火车站附近区域不同网格中车辆GPS记录条数的变化情况。其中，区域面积是1200m×1200m，边长为200m。由于车辆上传GPS点的频率固定，因此网格中车辆的GPS记录数大致可以表明网格中车辆经过的频繁程度。从图中可以得出每天不同网格中经过车辆的比例大致稳定。

步骤二、设定参数值。

初始化网格中所有(状态，动作)对所对应的Q函数值，实际的初始值为0。α学习因子的取值按照经验进行设定，通常情况下设置为0.8。学习因子越小代表外界环境的变化对当前的状态值影响越小，即学习越慢；学习因子越大代表外界环境的变化对当前的状态值影响越大，即学习越快。折扣因子γ的值与网格中经过车辆频繁程度有关，数据包沿着有车辆频繁经过的网格有利于提高数据包的传递成功率。经过车辆的GPS记录条数多的网格对应的Q学习公式中折扣因子γ的值越大。γ的具体取值如下：

其中，代表网格s_k中经过车辆的记录次数，代表不同网格中经过车辆次数的平均值。此公式的目的是将γ的取值映射到[0.3,0.9]之间，其中系数β是一个可变量，根据具体需求去设定其值。本专利中将β值设置为0.6，目的是时，γ的取值为平均水平即0.6。f_R代表奖励函数，如果携带数据包的车辆当前所在的网格是目的网格的邻居网格，将会获得一个正向的奖励值100，否则奖励值为0。f_S代表状态转移函数，即智能体选择某一个动作以后所对应的状态。

步骤三、根据步骤一和步骤二学习Q值表。由于每天不同网格中经过车辆的比例大致稳定，因此可以通过智能体的线下学习获得Q值表。Q学习是模型无关的强化学习算法。Q学习的目标就是通过对客观世界的不断探索，寻找一个可以最大化获取报酬的策略。Q学习中，每个(状态,动作)对对应一个相应的Q值Q(s_t,a_t)，其定义如下：

Q (s_{t}, a_{t}) &LeftArrow; (1 - α) Q (s_{t}, a_{t}) + α (f_{R} (s_{t}, a_{t}) + γ \max_{a^{'}} Q (f_{S} (s_{t}, a_{t}), a^{'}))

Q值的获得是一个不断迭代的过程，每选择一个动作就会对前一个状态的Q值产生影响。

如图2所示，智能体通过学习不断获得每一步动作对应的Q值，获取Q值的步骤如下：

第一步：将不同网格看作不同的状态s，从一个网格移动到邻居网格看作一个动作。初始化Q函数值，将所有(状态，动作)对对应的Q函数值设置为0。

第二步：观察当前网格状态为s。

第三步：不断重复以下步骤：

(1)、根据当前Q函数值选择动作a；

(2)、获得奖励值r；

(3)、观察新的网格状态s′；

(4)、

Q (s_{t}, a_{t}) &LeftArrow; (1 - α) Q (s_{t}, a_{t}) + α (f_{R} (s_{t}, a_{t}) + γ \max_{a^{'}} Q (f_{S} (s_{t}, a_{t}), a^{'}));

(5)、令s＝s′。经过迭代修改Q函数值，Q学习算法最终收敛到最优的Q函数，得到Q值表。Q值表中的属性值有状态、动作、Q函数值。刚进入网络中的车辆都将会从邻居车辆中获得该Q值表。

步骤四、根据步骤三，新加入网络中的车辆会从邻居车辆那里共享线下学习得到的Q值表。车辆根据数据包的目的网格查询Q值表就可以确定数据包传递的最优下一跳网格。如果最优下一跳网格中存在候选车辆，携带数据包的车辆就会根据车辆选择策略将数据包传递给候选车辆。否则携带数据包的车辆计算其所有邻居车辆到目的地的距离，从中选择距离目的地最近的邻居车辆作为下一跳转发节点。如果邻居车辆均比当前车辆距离目的地远，那么当前车辆继续携带数据包等待合适的转发时机。基于Q学习和网格的路由算法流程图，如图3所示。

最优下一跳网格中存在候选车辆且候选节点，携带数据包的车辆就会根据贪婪选择策略和Markov选择策略确定最优下一跳网格中具体的车辆。

第一步：若最优下一跳网格s中仅有一个候选车辆，则直接将数据包传递给此车辆。

第二步：若最优下一跳网格s中候选车辆节点不止一个，利用车辆选择策略选择具体下一跳车辆。贪婪的选择策略：计算下一跳网格中所有候选车辆距离目的地距离，从中选择距离目的地距离最近的车辆作为下一跳转发车辆。图4Markov选择策略：通过Q值表查询最优下一跳网格s_i的最优下一跳网格为s_j。利用二阶一步Markov链去计算s_j中车辆v_j的条件概率其中s_p是v_j的前一个网格位置。从中选择具有最大条件概率的车辆作为下一跳转发车辆。

如果最优下一跳网格中存在候选车辆，携带数据包的车辆就会根据选择策略将数据包传递给候选车辆。否则携带数据包的车辆计算其所有邻居车辆到目的地的距离，从中选择距离目的地最近的邻居车辆作为下一跳转发节点。如果邻居车辆均比当前车辆距离目的地远，那么当前车辆继续携带数据包等待合适的转发时机。

实施例

为了验证本发明的有益效果，对本实施例进行仿真验证。

在城市交通网络某些应用中，对数据包的传递成功率有较高的要求，而对数据包的传输时延则要求不高，所以在这种网络中，数据包传递成功率是衡量车载自组织网络路由协议性能的核心指标。

本发明中提出的基于Q学习和网格的路由算法命名为QGrid,根据下一跳车辆贪婪选择策略和Markov选择策略又细分为QGrid_G和QGrid_M。为验证QGrid算法在车载自组织网络中的数据传递成功率和传输时延性能，本发明将其与GPSR以及HarpiaGrid作比较。GPSR为基于地理位置的经典路由协议方法，HarpiaGrid也是基于地理位置的路由协议。实验场景选择上海市火车站附近1200m×1200m的区域，将上海市出租车2007年2月1号至2007年2月8号的数据作为学习数据获得Q值表，2007年2月9号的出租车数据作为测试数据。具体的参数设置如图5所示。上海市出租车数据在空车时每间隔15s上传一个GPS记录，在载客情况下每间隔60s上传一次车辆GPS数据。

每辆车的无线通信半径均为100m，在模拟中设定每秒有10条新数据包产生。本实验考虑了时间片ΔT分别为1s、20s的情况，共二组实验，不考虑目的地接收数据包后的回传过程。

QGrid_G、QGrid_M、GPSR和HarpiaGrid路由协议协议在车载自组织网络场景下的数据包传递成功率和传输时延比较如图6至图9所示。

图6表明当时间片ΔT＝1s，随着TTL的增加，传递成功率也在不断提高。这是因为随着TTL的增加，有更多的数据包将被成功传递到目的地。QGrid_G和QGrid_M的传递成功率均高于HarpiaGrid和GPSR。

图7表明当时间片ΔT＝1s时，QGrid_G、QGrid_M、HarpiaGrid成功传递数据包的平均时延要高于GPSR。这是因为GPSR总是贪婪地选择距离目的地最近的车辆作为下一跳车辆，因此时延较小。

由于数据粒度的问题，时间片较小时，彼此为邻居节点的车辆由于上传GPS记录的时刻不同导致数据显示彼此非邻居节点，因此实际的传递成功率要远远高于数据显示的具体数值。出于这样的考虑，图8、图9将时间片分别设置为20s。从图8可以看出，随着时间片的增加传递成功率相比ΔT＝1s时有显著的提升。这是因为时间片的增加提高了车辆节点的邻居节点的数目，带来了更多数据包传递的机会。但增大时间片的同时也引入了新的问题：一辆车辆节点在一个时间片里面只能有一条记录，然而由于实验范围较小，过大的时间片导致车辆的GPS记录数目过少，有的车辆携带了数据包还来不及传递就已跑出实验区域。因此，时间片并非越大越好。针对这样的问题，后续的研究将考虑更准确的数据插值以及更大的实验区域。图8、图9中没有QGrid_M，这是因为随着时间片的增大，车辆的网格轨迹会不连续，出现跳跃，基于这样的Markov预测将不准确。图8表明，QGrid_G的传递成功率明显高于GPSR和HarpiaGrid，HarpiaGrid的传递成功率高于GPSR。较高的传递成功率的代价是较高的时延。图9说明QGrid_G、HarpiaGrid的成功传递数据包的时延高于GPSR。

无论网络的连通性如何，车辆节点总能根据Q值表找到数据包传递的方向，如果邻居节点当前时刻没有合适的候选车辆，那么携带数据包的车辆将继续存储携带数据包等待合适的转发时机。虽然QGrid_M和QGrid_G的传输平均时延较大、开销较多，但在某些实际应用中，数据包的成功传递率是首要考虑因素，而对传输时延以及开销要求不那么严格。

综上所述，本发明提出的基于Q学习的车载自组织网络路由方法，适用于车辆有一定运动规律的车载自组织网络，在提高数据包传递成功率的同时不会产生太大的网络拥塞，基本满足对传输时延要求不高、数据传递成功率要求较高的网络应用。

以上所述的具体实例是对本发明的进一步解释说明，并不用于限定本发明的保护范围，凡在本发明原则和精神之内，所做的更改和等同替换都应是本发明的保护范围之内。

Claims

1.一种基于Q学习的车载自组织网络路由方法，其特征在于，包括以下步骤：

步骤一、将城市区域划分成相等的网格，记录每一个网格中过去一段时间内经过车辆的轨迹信息；

步骤二、设定参数值

初始化网格中所有(状态、动作)对应的Q函数值；α学习因子的取值按照经验值设定；折扣因子γ的值与网格中经过车辆频繁程度有关，数据包沿着有车辆频繁经过的网格有利于提高数据包的传递成功率；

步骤三、根据步骤一和步骤二学习Q值表，利用公式

Q (s_{t}, a_{t}) &LeftArrow; (1 - α) Q (s_{t}, a_{t}) + α (f_{R} (s_{t}, a_{t}) + γ \max_{a^{'}} Q (f_{S} (s_{t}, a_{t}), a^{'}))

离线学习Q值表，其中s_t代表t时刻的状态，a_t代表t时刻采取的动作，Q(s_t,a_t)代表该(状态，动作)对所对应的Q值，α代表学习因子，γ代表折扣因子，f_R代表奖励函数，f_S代表状态转移函数，a′代表对应下一个状态的动作；

步骤四、根据步骤三学习得到Q值表转发数据包，新加入网络中的车辆会从邻居车辆共享得到的Q值表；车辆根据数据包的目的网格查询Q值表确定最优下一跳网格，然后利用利用贪婪的选择策略QGrid_G和Markov选择策略QGrid_M确定该网格中的具体下一跳节点。

2.根据权利要求所述的一种基于Q学习的车载自组织网络路由方法，其特征在于，所述步骤二中γ代表折扣因子的值的设定如下：

其中，num(s_k)代表网格s_k中经过车辆的记录次数，代表不同网格中经过车辆次数的平均值；此公式的目的是将γ的取值映射到[0.3,0.9]之间，其中系数β是一个可变量，根据具体需求去设定其值。

3.根据权利要求所述的一种基于Q学习的车载自组织网络路由方法，其特征在于，获取Q值的步骤如下：第一步：将不同网格看作不同的状态s，从一个网格移动到邻居网格看作一个动作。初始化Q函数值，将所有(状态，动作)对对应的Q函数值设置为0。