CN108012248A

CN108012248A - 基于功率控制的车联网抗干扰的方法及电子设备

Info

Publication number: CN108012248A
Application number: CN201711285980.4A
Authority: CN
Inventors: 范业仙; 肖亮; 冯玮; 吴玉芹; 叶茂枝
Original assignee: Ningde Normal University
Current assignee: Ningde Normal University
Priority date: 2017-12-07
Filing date: 2017-12-07
Publication date: 2018-05-08

Abstract

本发明涉及一种基于功率控制的车联网抗干扰的方法、存储介质及电子设备；所述方法包括以下步骤：将N个配置有传感设备的车辆建立车联网模型；建立干扰节点与车辆节点间的干扰博弈模型；基于Dyna‑Q强化学习对车联网模型进行功率控制获取车辆节点的最优发射功率；根据最优发射功率，车辆节点进行发送信标信息。为对抗车联网中车‑车协作通信收到的智能干扰供攻击，将干扰节点及车辆节点间的互动行为建立干扰博弈模型，车辆节点为获得干扰博弈模型中的最优发射功率，通过Dyna‑Q强化学习方法进行车联网的功率控制，通过动态调整发射功率有效的对抗干扰，以最低的代价获得更优的收敛效果，增强了车联网的抗干扰能力。

Description

基于功率控制的车联网抗干扰的方法及电子设备

技术领域

本发明涉及车联网领域，特别涉及一种基于功率控制的车联网抗干扰的方法、存储介质及电子设备。

背景技术

车联网(Vehicular ad hoc networks,VANETs)中车辆协作控制技术、自动驾驶技术不断发展，诸如车辆协同巡航系统、车辆协同安全系统有助于提高交通管理效率、道路交通安全，得到广泛的关注及应用。这些系统应用需要依赖车联网中车-车通信实时感知通信范围内车辆的环境状态信息，因而车联网采用IEEE802.11p协议中的专用信道，周期性地广播包含车辆位置等信息的信标。由于车联网的无线广播特性，其数据链路访问仍然采用CSMA/CA的随机访问方式，因而这些信标消息易受到敌意干扰的拒绝服务攻击。当信标的传输受到干扰攻击时，协同系统中的车辆无法在要求的延迟时间内更新相应信息，这将严重破坏系统的稳定性及车辆行驶的安全性。近年来，出现的一种智能干扰机能够通过学习合法用户的发射行为来实时调整自身攻击策略，加剧了车联网抗干扰的难度。

在传统的无线网络中，网络节点拓扑稳定，可通过扩频技术或提高发射功率来对抗干扰。但车联网具有无线信道开放、车辆快速移动等环境特性，导致其在检测、对抗干扰攻击上面临更大的挑战。

无线网络中的节点可以通过提高发射功率来提高通信的信干噪比(Signal toInteference Noise Radio,SINR)以实现抗干扰，但在车联网中盲目的提高周期性信标的发射功率不仅造成能源浪费，还将使得相应通信范围内信道负载变化，从而导致拥塞，影响协同车辆通信的稳定性。

发明内容

为此，需要提供一种基于功率控制的车联网抗干扰的方法、存储介质及电子设备，解决现有车联网容易受到敌意干扰的拒绝服务攻击，及智能干扰机加剧了车联网抗干扰难度的问题。

为实现上述目的，发明人提供了一种基于功率控制的车联网抗干扰的方法，包括以下步骤：

将N个配置有传感设备的车辆建立车联网模型；

建立干扰节点与车辆节点间的干扰博弈模型；

基于Dyna-Q强化学习对车联网模型进行功率控制获取车辆节点的最优发射功率；

根据最优发射功率，车辆节点进行发送信标信息。

进一步优化，所述“建立干扰节点与车辆节点间的干扰博弈模型”具体包括为：

根据参加博弈的车辆节点和干扰节点，建立博弈对象R；

根据车辆节点在功率限制范围内选择的发射功率及干扰节点的干扰功率建立车辆节点及干扰节点的策略空间S；

根据车辆节点的效益及干扰节点的效益建立即时效益U；

根据博弈对象R、策略空间S及即时效益U建立干扰博弈模型G＝[R,S,U]。

进一步优化，所述车辆节点的效益为以最小的负载开销获得更高的信道的信干燥比；所述干扰节点的效益是消耗车辆节点的能量，降低信道的信干燥比。

进一步优化，所述“基于Dyna-Q强化学习对车联网模型进行功率控制获取车辆节点的最优发射功率”具体包括：

车辆节点检测当前环境状态选择发射功率x_i ^k；

观察到新的状态s_i ^k+1和车辆节点的效益u_i ^k；

更新车辆节点的Q值函数和V值函数V_i(s_i ^k)，所述Q值函数为车辆节点i在某一状态s_i时，选择某一发射功率x_i，对车辆节点的长期期望效益的影响，所述V值函数V_i(s_i ^k)为当车辆节点i在某一状态s_i，通过选择有效的发射功率，可获得的最大

进一步优化，所述“车辆节点检测当前环境状态选择发射功率x_i ^k”具体包括：

车辆节点检测当前环境状态根据ε贪婪策略选择最优发射功率，以大概率1-ε选择最优Q值的发射功率，以小概率选择其他车辆节点发射功率。

进一步优化，所述“更新车辆节点的Q值函数和V值函数V_i(s_i ^k)”后包括步骤：

记录此次真实经验更新状态转移概率函数和效用函数

随机选择状态-动作

根据真实经验得到车辆节点下一个状态和效益

更新状态-动作的Q值函数。

发明人还提供了另一个技术方案，一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述所述方法的步骤。

发明人还提供了另一个技术方案，一种电子设备，包括存储器、处理器，所述存储器上存储有计算机程序，所述计算机程序被处理器执行时实现如上述所述方法的步骤。

区别于现有技术，上述技术方案，为对抗车联网中车-车协作通信收到的智能干扰供攻击，将干扰节点及车辆节点间的互动行为建立干扰博弈模型，车辆节点为获得干扰博弈模型中的最优发射功率，通过Dyna-Q强化学习方法进行车联网的功率控制，通过动态调整发射功率有效的对抗干扰，以最低的代价获得更优的收敛效果，增强了车联网的抗干扰能力。

附图说明

图1为具体实施方式所述基于功率控制的车联网抗干扰的方法的一种流程示意图；

图2为具体实施方式所述步骤S130的一种流程示意图。

具体实施方式

为详细说明技术方案的技术内容、构造特征、所实现目的及效果，以下结合具体实施例并配合附图详予说明。

请参阅图1，本实施例所述基于功率控制的车联网抗干扰的方法，包括以下步骤：

步骤S110：将N个配置有传感设备的车辆建立车联网模型；

步骤S120：建立干扰节点与车辆节点间的干扰博弈模型；

步骤S130：基于Dyna-Q强化学习对车联网模型进行功率控制获取车辆节点的最优发射功率；

步骤S140：根据最优发射功率，车辆节点进行发送信标信息。

将N个配置有传感设备的车辆组织成近距离的Platoon伴随模式，以相同的速度朝同一方向移动，通过领导车辆来控制伴随车辆移动的速度、方向。车辆间的协作通过周期性的广播单跳的信标来实现，信标消息包含车辆位置、速度、加速度等信息。车辆在前进过程中可以通过协商加入或退出platoon网络，领导车辆也可根据道路交通情况改变车队前进的速度、加速度，platoon网络中车辆数量的变化以及交通拥塞的影响将导致信标的传输距离变化。而Platoon是车联网车-车协同通信的一种通用模式，此模式不仅能提高道路容量、节约能源，还可以提高交通管理的效率。

通过CSMA/CA提供各车辆节点的公平接入机会，将时间划分成多个时隙，允许车辆节点在时隙k发送信标。车辆节点i在时隙k选择的发射功率表示为其中P_i为车辆的最大发送功率。d_i表示车辆i与距离最远的目标传输车辆的距离，相应的信道增益为h_i，单位功率负载开销为C_i。干扰节点采用车辆节点相同的频率发送干扰信号以阻塞信标传送、消耗传输节点的能量。在时隙k干扰节点J选择的干扰功率为y^k≥0，干扰节点J与干扰目标车辆距离定义为d_J，相应的信道增益定义为h_J，单位功率负载开销为C_J。干扰节点通过选择发射功率以降低合法信号的SINR，达到干扰的目的。

根据参加博弈的车辆节点及干扰节点，建立博弈对象R，根据车辆节点在功率控制范围内选择的发射功率及干扰节点的干扰功率建立车辆节点及干扰节点的策略空间S，根据车辆节点的效益及干扰节点的效益建立即时效益U；根据博弈对象R、策略空间S及即时效益U建立干扰博弈模型G＝[R,S,U]。干扰博弈模型G＝[R,S,U]中的R为参与博弈的对象，有两个参与者：车辆节点i和干扰节点J；S为博弈的对象的策略空间，即车辆节点i在功率限制范围内选择的发射功率(行为)x_i及干扰节点的干扰功率y，其中x_i∈[0,P_i]。根据车辆节点及干扰节点的信道增益(h_i或h_J)及单位功率负载开销(C_i或C_J)，分别选择车辆节点的行为x_i和干扰节点的行为y以最大化他们的即时效益，车辆节点的即时效益表示为u_i，干扰节点的即时效益表示为u_J。

车辆节点的效益是以最小的负载开销获得更高的信道的信干燥比，车辆节点的效益为：所述干扰节点的效益是消耗车辆节点的能量，降低信道的信干燥比，阻塞正在进行的传输，干扰节点的效益为：

为获得干扰博弈模型中车辆节点的最优发射功率，引入Dyna-Q强化学习方法进行车联网的功率控制，通过历史的学习获得最优的效益。Dyna-Q将Dyna结构引入Q学习，通过结合直接强化学习和间接强化学习，加快强化学习算法的收敛速度。步骤S130中包括了以下步骤：

步骤S131：车辆节点检测当前环境状态选择发射功率x_i ^k；

步骤S132：观察到新的状态s_i ^k+1和车辆节点的效益u_i ^k；

步骤S133：更新车辆节点的Q值函数和V值函数V_i(s_i ^k)，所述Q值函数为车辆节点i在某一状态s_i时，选择某一发射功率x_i，对车辆节点的长期期望效益的影响，所述V值函数V_i(s_i ^k)为当车辆节点i在某一状态s_i，通过选择有效的发射功率，可获得的最大

车辆节点i随着学习的深入，迭代更新车辆的Q值函数Q_i(s_i,x_i)。Q值函数描述了车辆节点i在某一状态s_i时，选择某一发射功率x_i，对车辆长期期望效益的影响。在时隙k车辆的状态记作S为所有状态集合，其中h_i表示车辆节点i与目标车辆的信道增益，y^k-1表示上一时隙干扰节点的干扰功率。干扰节点和车辆节点的发射功率分别量化成K和L个等级，即y^k-1∈{0,1,2L,K-1}，x_i ^k∈X＝{0,1,2L,L-1}。V值函数V_i(s_i ^k)表示当车辆节点i处于某一状态通过选择有效的发射功率，可获得的最大其中更新Q值函数的公式为：其中更新V值函数V_i(s_i ^k)的公式为：α∈(0,1]为学习速率，代表当前经验在整个学习过程中的权重，δ∈[0,1]为折扣因子，代表当前动作对下一时刻效益的影响。

进一步的，车辆节点i除了依据策略来选择发射功率x_i，并更新Q值函数，还需要为每一个动作-状态对建立真实经验记录，从而构建环境模型，步骤S133之后还包括步骤：

步骤S134：记录此次真实经验更新状态转移概率函数和效用函数

步骤S135：随机选择状态-动作

步骤S136：根据真实经验得到车辆节点下一个状态和效益

步骤S137：更新状态-动作的Q值函数。

在每个时隙k记录每次的经验，其包含即车辆节点i在x_i状态下选择了发射功率获得的效益并转移到下一个状态环境模型是通过积累每次交互经验，来近似真实环境的状态转移概率函数和效用函数其中通过公式：对状态转移概率函数进行更新；通过公式：对效用函数进行更新。其中，表示在状态下，以为发送功率的真实次数，其中转移到状态的真实次数可用表示。效用函数是通过计算相同状态-动作对的效用的平均近似得到的。

车辆节点i利用所构建的环境模型产生E次的模拟经验并完成Q值函数的更新，即间接学习。其中E描述了使用模拟经验进行训练学习的速度，若E太大则真实经验会被忽略，构建的Dyna结构会偏离真实的网络环境。在间接学习中，随机选择状态-动作对并根据状态转移概率Π_i得到下一状态并根据以下两个公式更新Q函数：及

为了避免局部收敛，在所设计的抗干扰功率控制方案中，采取贪婪策略来选择最优发射功率，即以大概率选择最优Q值的发射功率，以小概率选择其他发射功率。

在另一个实施例中，一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述实施例所述方法的步骤。

在另一个实施例中，一种电子设备，包括存储器、处理器，所述存储器上存储有计算机程序，所述计算机程序被处理器执行时实现如上述实施例所述方法的步骤。

需要说明的是，尽管在本文中已经对上述各实施例进行了描述，但并非因此限制本发明的专利保护范围。因此，基于本发明的创新理念，对本文所述实施例进行的变更和修改，或利用本发明说明书及附图内容所作的等效结构或等效流程变换，直接或间接地将以上技术方案运用在其他相关的技术领域，均包括在本发明的专利保护范围之内。

Claims

1.一种基于功率控制的车联网抗干扰的方法，其特征在于，包括以下步骤：

将N个配置有传感设备的车辆建立车联网模型；

建立干扰节点与车辆节点间的干扰博弈模型；

根据最优发射功率，车辆节点进行发送信标信息。

2.根据权利要求1所述基于功率控制的车联网抗干扰的方法，其特征在于，所述“建立干扰节点与车辆节点间的干扰博弈模型”具体包括为：

根据参加博弈的车辆节点和干扰节点，建立博弈对象R；

根据车辆节点的效益及干扰节点的效益建立即时效益U；

3.根据权利要求2所述基于功率控制的车联网抗干扰的方法，其特征在于，所述车辆节点的效益为以最小的负载开销获得更高的信道的信干燥比；所述干扰节点的效益是消耗车辆节点的能量，降低信道的信干燥比。

4.根据权利要求1所述基于功率控制的车联网抗干扰的方法，其特征在于，所述“基于Dyna-Q强化学习对车联网模型进行功率控制获取车辆节点的最优发射功率”具体包括：

车辆节点检测当前环境状态选择发射功率x_i ^k；

观察到新的状态s_i ^k+1和车辆节点的效益u_i ^k；

5.根据权利要求4所述基于功率控制的车联网抗干扰的方法，其特征在于，所述“车辆节点检测当前环境状态选择发射功率x_i ^k”具体包括：

6.根据权利要求4所述基于功率控制的车联网抗干扰的方法，其特征在于，所述“更新车辆节点的Q值函数和V值函数V_i(s_i ^k)”后包括步骤：

记录此次真实经验更新状态转移概率函数和效用函数

随机选择状态-动作

根据真实经验得到车辆节点下一个状态和效益

更新状态-动作的Q值函数。

7.一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1到6任意一项所述方法的步骤。

8.一种电子设备，其特征在于：包括存储器、处理器，所述存储器上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1到6任意一项所述方法的步骤。