CN112765892A

CN112765892A - 一种异构车联网中的智能切换判决方法

Info

Publication number: CN112765892A
Application number: CN202110109945.7A
Authority: CN
Inventors: 宋清洋; 刘哲; 亓伟敬; 林鹏; 于尧
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2021-01-27
Filing date: 2021-01-27
Publication date: 2021-05-07
Anticipated expiration: 2041-01-27
Also published as: CN112765892B

Abstract

一种异构车联网中的智能切换判决方法，属于车联网通信技术领域，包括：步骤1、搭建问题模型；步骤2、搭建DCRQN架构，主要分为网络环境和决策大脑两部分；决策大脑从网络环境中获得网络的状态信息，即网络接入点接收到的车辆终端的SINR，并对网络状态信息进行处理，然后决策大脑制定决策，并执行决策指令，实现对网络的管理操作，即将车辆终端切换到目标网络；所述决策大脑由三个部分组成，分别为：智能体模块、特征提取模块和决策模块；步骤3、基于DCRQN进行切换决策。本发明方法能够学习车辆终端所处的状态，做出最佳的切换决策，使得车辆终端在整个覆盖范围内的平均吞吐量最高，提高车辆终端的服务质量。

Description

一种异构车联网中的智能切换判决方法

技术领域

本发明属于车联网通信技术领域，具体涉及一种基于DCRQN(Deep ConvolutionalRecurrent Q-network)的异构车联网中的智能切换判决方法。

背景技术

车联网，又可以称作车载互联网、车载网络，是由智能交通领域与物联网领域交互发展融合的产物。车联网已被视为智能交通系统(ITS)和智慧城市发展的重要组成部分。它有望带来一系列全新的应用，从道路安全改善到交通效率优化，从自动驾驶到车辆随时随地的互联网接入。车联网将最终对社会和世界各地数百万人的日常生活产生深远的影响。由于其严格和多样化的服务质量(QoS)需求以及车载环境的动态性，如快速变化的无线传播信道和不断变化的网络拓扑，车联网也带来了不同于传统无线通信系统的新的挑战。为了应对这些挑战，在全球范围内，研究人员开发了各种各样的通信标准，如美国的专用短程通信标准(DSRC)和欧洲的ITSG5标准。最近，第三代合作伙伴计划(3GPP)也启动了一个在长期演进(LTE)网络和未来5G蜂窝系统中支持车辆到一切(V2X)服务的项目。

与此同时，随着高性能计算和存储设施以及各种先进的车载传感器，如激光雷达、雷达和照相机，车辆将不仅仅是一种简单的交通工具。它们生成、收集、存储、处理和传输大量数据，以使驾驶更安全、更方便。这些丰富的数据将必然为探索可靠和有效的车联网的设计提供新的机会。机器学习作为人工智能的一个主要分支，构建了能够在复杂环境中运行的智能系统，在计算机视觉、自然语言处理、机器人等领域都有很多成功的应用。它开发了分析大量的数据的高效方法，这有助于支持未来的智能无线电终端。此外，机器学习代表了一种有效的数据驱动的方法，使其在处理异构数据时具有鲁棒性，因为没有对数据分布做出明确的假设。机器学习提供了一套通用的工具来开发和挖掘车联网中产生的多个数据源。这将有助于系统做出更明智和数据驱动的决策，减轻通信挑战，并提供非传统的服务，如基于位置的服务，实时交通流预测和控制，车辆轨迹预测以及自动驾驶。然而，如何利用这些工具服务于车联网的目的仍然是一个挑战，并代表了一个有前途的研究方向。

发明内容

针对现有技术存在的不足，本发明提出一种基于DCRQN的异构车联网中的智能切换判决方法，该方法能够学习车辆终端所处的状态，做出最佳的切换决策，使得车辆终端在整个覆盖范围内的平均吞吐量最高。

一种异构车联网中的智能切换判决方法，包括以下步骤：

步骤1、搭建问题模型，具体如下：

步骤1-1、将车联网切换问题建模为马尔科夫决策过程。

步骤1-2、定义马尔科夫决策过程的状态空间S，采用网络接收到车辆终端的SINR来表征车辆终端在网络中所处的状态。

步骤1-3、定义马尔科夫决策过程的动作空间A，用不同动作表示将车辆终端切换到不同网络的决策。

步骤1-4、定义马尔科夫决策过程的奖励，以实时吞吐量作为奖励r。智能体通过学习能够获得最大化累积奖励的最优策略，从而使得车辆终端在整个覆盖范围内的平均吞吐量最高。

步骤2、搭建DCRQN架构，主要分为网络环境和决策大脑两部分。决策大脑从网络环境中获得网络的状态信息，并对网络状态信息进行处理，然后决策大脑制定决策，并执行决策指令，实现对网络的管理操作。决策大脑由三个部分组成，分别为：智能体模块、特征提取模块和决策模块，具体如下：

步骤2-1、构建智能体模块；该模块负责直接与网络环境进行交互，感知车辆终端的当前状态并执行动作。智能体模块周期性地从实际网络环境中获取网络状态，对状态信息进行预处理，将预处理过的状态信息反馈给特征提取模块；智能体模块监控决策模块的输出，如果决策模块输出了某个策略，智能体模块会执行该决策指令，实现对网络环境的管理和控制。

步骤2-2、构建特征提取模块；该模块由两个子模块组成，分别是卷积神经网络子模块和循环神经网络子模块。根据从智能体模块中读取的预处理状态信息，特征提取模块依次提取无线信号的空间特征和时间特征，得到一个包含车辆终端的位置信息和移动性信息的特征向量，并将其输入到决策模块。根据决策模块返回的损失函数，在卷积神经网络和循环神经网络中执行反向传播算法，完成卷积神经网络和循环神经网络的训练以及参数更新。

步骤2-3、构建决策模块，即构建一个前向全连接的神经网络，从而实现状态到动作的映射，将特征提取模块输出的特征向量映射成相应的决策，将这个全向连接的神经网络拟合成最优决策函数。决策模块读取特征提取模块输出的特征向量，利用Q值函数，输出各个决策的评估值；对于任意的状态输入，选择评估值最大的动作决策，然后通知智能体模块执行该决策。

步骤3、基于DCRQN进行切换决策，具体过程如下：

步骤3-1、智能体模块对读取的状态数据S_n进行预处理，将状态数据S_n预处理成张量，输出状态数据集合φ(S_n)。

步骤3-2、特征提取模块对预处理后的状态信息进行特征提取。首先通过卷积神经网络子模块提取车辆终端在网络中的空间位置特征，然后利用循环神经网络子模块提取状态信息的时间特征。

步骤3-3、决策模块计算决策空间中的每个动作的Q值，并做出决策。决策模块将最终决策的动作通知给智能体模块。智能体模块执行相应的网络管理操作，实现对车辆终端切换的控制。

步骤3-4、进行网络训练。将基于DCRQN的切换决策过程中涉及的三种类型的神经网络，即卷积神经网络、循环神经网络与前向全连接神经网络作为一个整体，并对该整体网络的联合非线性函数F_N(.)进行训练，以得到最优的参数集θ，从而学习状态到动作的最优映射策略。

本发明优点：

本发明首先考虑了强化学习不仅具有能够在与环境的交互中学习，最终获得能够最大化长期累积收益的最优策略的特点；还具有在线学习的特性，可以感知到网络部署的变化，之前学到的策略不再是最佳策略，将通过另一轮训练得到更新最佳策略。因此，本发明设计了一个DCRQN架构，并基于此架构提出了一种基于DCRQN的车联网切换方法，通过在实际网络环境中进行训练，能够得到适用于该车联网场景的最优切换判决策略，具有较强的普适性和自适应性。其次，车辆终端的高速移动导致信号强度在传播过程中有明显的波动，在一段时间内，连续的无线信号之间存在显著的相关性。本发明考虑深度学习可以通过将低层属性特征组合成更抽象的高层属性来探索数据的分布式特征的特点，使用网络接收到车辆终端的SINR来表征车辆终端所处的状态，分别使用卷积神经网络和循环神经网络提取无线信号的空间特征和时序特征，从而能够很好地表示车辆终端在网络中的状态特征。而且，本发明针对在网络切换的过程中，由于无线链路的质量较差，导致车辆终端的吞吐量下降的问题，将车辆终端的实时吞吐量作为DCRQN的奖励，从而能够明显地提高车辆终端在切换过程中的吞吐量，从而提高车辆终端的服务质量。

附图说明

图1为本发明提出的DCRQN架构图；

图2为本发明提出的DCRQN的训练过程图；

图3为本发明切换方法的仿真场景图；

图4为本发明切换方法的车辆终端单次切换过程中吞吐量的结果对比图；

图5为本发明切换方法的平均吞吐量与仿真次数的结果对比图；

图6为本发明切换方法的吞吐量的累积分布函数图；

图7为本发明切换方法的总吞吐量与车辆终端数量的结果对比图。

具体实施方式

下面结合附图对本发明做进一步说明。

本实施例主要解决网络切换过程中车辆终端吞吐量下降的问题，能够最大限度地提高车辆终端的平均吞吐量。

一种异构车联网中的智能切换判决方法，包括以下步骤：

步骤1、搭建问题模型，具体如下：

步骤1-1、将车联网切换问题建模为马尔科夫决策过程。在马尔科夫决策过程中，在每个时刻t，智能体通过识别当前状态s_t∈S来感知环境，选择一个动作a_t∈A，并在环境中执行动作a_t。然后环境反馈回奖励r_t＝r(s_t,a_t)，同时过渡到下一个状态s_t+1。

步骤1-2、定义马尔科夫决策过程的状态空间S。利用对数距离路径损耗模型作为信道传输模型。在与车辆终端i距离为d_ij的网络j，检测到的RSS为：

其中P_dij表示在与车辆终端i距离为d_ij的网络j检测到的RSS，P_tx为车辆终端的信号发射功率，G_t、G_r分别为发射增益和接收增益，f为频率，d_ref为计算损耗的参考距离，L是系统损失，c是光速，δ是路径损耗因子，π是圆周率。在这种情况下，对于一条从车辆终端i到网络j的上行链路，网络j接收到的SINR为：

其中

表示由除车辆终端i以外所有正在发送数据的车辆终端所造成的累积干扰，σ²是加性高斯白噪声。N是除车辆终端i以外所有正在发送数据的车辆终端，M是网络数量。在车联网中，SINR是影响通信质量的一个关键因素，它能够表征通信链路的可靠程度。因此，采用网络接收到车辆终端的SINR来表征车辆终端在网络中所处的状态。在时刻n，智能体感知到的状态S_n∈S定义为：

S_n＝{s₁,s₂,...,s_m,...,s_M-1,s_M} (3)

其中，s_m∈S_n(0<m<M)为每个网络的状态信息(即SINR)。

步骤1-3、定义马尔科夫决策过程的动作空间A为：

A＝{a₁,a₂,...,a_m,...,a_M-1,a_M} (4)

其中，M为动作空间A的维度，即决策候选集的大小，它等于网络的数目。a_m∈A表示将车辆终端切换到第m个网络的决策。

步骤1-4、定义马尔科夫决策过程的奖励。在建模的马尔科夫决策过程中，智能体试图最大化累积奖励。由于本发明的切换方法以车辆终端的平均吞吐量最大化为目标，因此本发明以实时吞吐量作为奖励r。

使用Q函数来对不同状态的不同动作进行估值。通过策略π生成的动作状态对(s,a)的Q值，即评估函数Q^π(s,a)，表示从状态s开始，使用动作a作为第一个动作，并持续使用策略π，所得到的累积折扣奖励的期望值：

其中r_t+i表示从状态s_t开始重复使用策略π来选择动作所获得的奖励。在随机环境中，同样的一些动作的奖励序列是不同的，智能体从时间t考虑的未来越多，奖励序列就越有可能不同。因此，引入γ(0≤γ<1)为折扣奖励因子，它确定了未来奖励与立即奖励的相对比例。因此，智能体学习到的最优策略π^*是：

步骤2、如图1为本发明设计的DCRQN架构，主要分为网络环境和决策大脑两部分。决策大脑从网络环境中获得网络的状态信息，并对网络状态信息进行处理，然后决策大脑决策大脑指定决策，并执行决策指令，实现对网络的管理操作。决策大脑由三个部分组成，分别为：智能体模块、特征提取模块和决策模块，具体如下：

步骤2-1、构建智能体模块。它是该DCRQN架构中负责直接与网络环境交互的模块，是感知当前状态并执行动作的实体，其主要功能如下：

(1)周期性地从实际网络环境中获取网络状态；

(2)对状态信息进行预处理，然后反馈给特征提取模块；

(3)通过决策模块进行动作输出，获得环境的奖励。

步骤2-2、构建特征提取模块。它由两个子模块组成，分别是卷积神经网络子模块和循环神经网络子模块。将通过智能体模块预处理后的状态信息先反馈给卷积神经网络子模块，然后反馈给循环神经网络子模块。

卷积神经网络特征提取模块的主要功能是根据状态信息提取车辆终端在车联网中的相对位置特征。因为在现实环境中各接入设备的布局拓扑都是不一致的，比如星型拓扑，这可能会直接影响切换决策。例如，在其他条件相同的情况下，决策模块倾向于将车辆终端切换到与其最近的网络，而“与其最近的网络”这条信息就是卷积神经网络子模块所提取的空间特征。卷积神经网络最终输出一个特征向量，它可以表征车辆终端在某一时刻的空间位置，并将其反馈给循环神经网络子模块，作为循环神经网络子模块的输入，以用于后续特征的提取。

循环神经网络子模块的主要功能是提取状态信息的时序特征。在实际的车联网中，车辆终端的移动导致网络接收到的信号强度在传播过程中有明显的波动。而且，在一段时间内，网络接收到的连续的无线信号前后之间存在显著的相关性。通过循环神经网络可以提取接收到的无线信号的时间特征，从而推断车辆终端的移动速度或移动方向。循环神经网络子模块提取的车辆终端的移动性特征和卷积神经网络子模块提取的车辆终端的空间位置特征，一起被作为决策模块的输入。主要功能如下：

(1)从智能体模块中读取预处理状态信息并将其作为卷积神经网络的输入；

(2)依次提取无线信号的空间特征和临时特征，得到一个包含车辆终端的位置信息和移动性信息的特征向量，并将其作为决策模块的输入。

(3)根据决策模块返回的损失函数，在卷积神经网络和循环神经网络中执行反向传播算法，完成卷积神经网络和循环神经网络的训练以及参数更新。

步骤2-3、构建决策模块。它本质上是一个前向全连接的神经网络，利用它来实现状态到动作的映射，将特征提取模块输出的特征向量映射成相应的决策。最优策略对应于最优决策函数，为了得到最优策略，需要将这个全向连接的神经网络拟合成能够最优决策函数模型。该模型具有非线性特性，可以逼近任意函数模型。同样，其主要功能如下：

(1)读取特征提取模块输出的特征向量，并将其作为输入；

(2)使用全连接神经网络近似Q学习算法中的Q值函数，输出各个决策的评估值(决策的好坏程度)。

(3)对于任意的状态输入，选择评估值最大的动作决策，然后通知智能体模块执行该决策；

(4)从智能体模块读取对环境执行某个决策后的奖励，计算Q学习算法的损失函数，并将前向全连接神经网络中执行反向传播算法，完成相关神经网络的训练以及参数的更新。最终将通过前向全连接神经网络回传的损失函数传递给特征提取模块，用于特征提取网络进行参数的训练和更新。

步骤3、基于DCRQN进行切换决策，具体过程如下：

步骤3-1、智能体模块对读取的状态数据S_n进行预处理，将状态S_n预处理成张量，输出状态数据集合φ(S_n)，定义为：

φ(S_n)＝{S_n-l+1,S_n-l+2,...,S_n-l+j,...,S_n-1,S_n}^T (7)

其中，l是智能体模块读取的状态数据的时间长度，它表示选取多长时间的状态数据用于下一阶段的特征提取。

步骤3-2、智能体模块对车辆终端的状态信息进行预处理后，特征提取模块会对这些信息进行特征提取。它首先通过卷积神经网络子模块提取车辆终端在网络中的空间位置特征，然后利用循环神经网络子模块提取状态信息的时间特征。

卷积神经网络子模块使用卷积核对输入的状态信息进行卷积操作得到卷积层的输出。构造连续的两个卷积层对状态数据集合φ(S_n)执行卷积操作，卷积层1包含16个卷积核，每个卷积核大小为5×5。卷积层2设置了32个卷积核，每个卷积核大小为3×3。在每次的卷积操作后都进行ReLU操作。ReLU表示修正线性单元，是一个非线性操作。然后，再由池化层对卷积层的结果降维，每个池化核的大小是2×2。输出特征图的大小(卷积特征)由三个参数控制，分别是：深度、步长、零填充。输出特征图的大小使用零填充，即在输入矩阵的边缘使用零值进行填充，零填充的好处是可以控制特征图的大小。在这种情况下，整个卷积神经网络中的卷积层和池化层交替出现并执行相应的操作，最终完成对空间特征的提取。卷积神经网络在本质上是一个可自学习参数的非线性函数，它被定义为：

C＝f_C(φ(S)；v_C(k,p；β_C)) (8)

其中f_C(.)是卷积神经网络的非线性映射函数，v_c(.)表示卷积神经网络所有参数的集合。k,p分别表示卷积层和池化层的设计参数，β_C表示卷积神经网络的可变参数，比如权重和偏置。

通过卷积神经网络对状态数据集合进行处理和分析后，获得一个三维的特征图C。循环神经网络子模块包含两个RNN循环单元，每个循环单元的隐藏单元个数为256，选择tanh函数作为隐藏层的激活函数。为了适应循环神经网络结构，特征提取模块将特征图C转换为一个二维特征图C'，并将其输入循环神经网络，对其进行时序特征提取，循环神经网络的映射函数是：

χ＝f_R(C'；v_R(u；β_R)) (9)

其中f_R(.)是循环神经网络的非线性映射函数，v_R(.)是循环神经网络所有参数的集合，u表示RNN单元的个数。β_R表示循环神经中的可量参数。这一过程实现从二维特征集合C'中提取时序特征，并得到最终的特征向量χ，是整个特征提取模块的最终输出。它既能反映车辆终端在车联网中的位置的空间特征，又能反映车辆终端移动性信息的时间特征。可以很好地表征车辆终端在车联网中的状态。

步骤3-3、决策模块读取通过特征提取模块提取到的特征向量，并做出决策。

决策模块本身属于前向全连接的神经网络，包含两个全连接层，后面连接一个softmax分类器，它作为DCRQN中的Q值评估函数，用来计算决策空间中的每个动作的Q值。给定一个输入特征向量χ，动作的Q值可以计算为：

Q(χ,a_i；v_D(v；β_D))＝f_D(χ,a_i；v_D(v；β_D)),a_i∈A (10)

其中f_D是在决策过程中的非线性映射函数，v_D(.)是全连接神经网络中所有参数的集合。β_D表示全连接神经网络中的可变参数。Q(χ,a_i；v_D(v；β_D))表示在神经网络参数为β_D的情况下，当输入的特征向量为χ时，决策网络选择动作a_i的偏好程度。最终决策的动作可以根据这个策略确定：

决策模块会将最终决策的动作立即通知给智能体模块，智能体模块接收到该决策后，会执行相应的网络管理操作，实现对车辆终端切换的控制。

步骤3-4、进行网络训练。

基于DQN的切换决策过程中涉及了三种类型的神经网络，卷积神经网络、循环神经网络和前向全连接神经网络。为了简单起见，将这三种网络作为一个整体。则状态空间与决策空间中动作Q值的映射关系可以表示为：

Q(φ(S_t),a_i；θ)＝F_N(φ(S_t),a_i；θ) (12)

其中F_N(.)为卷积神经网络、循环神经网络与前向全连接神经网络的联合非线性函数。参数θ是变量所有可变参数集合，包括参数β_C、参数β_R和参数β_D。Q(φ(S_t),a_i；θ)表示在时间t，给定输入状态φ(S_t)时，决策空间中动作a_i的Q值，即表示动作a_i的偏好程度。相应地，最终决策的动作被定义为：

为了学习状态到动作的最优映射策略，需要对F_N(.)进行训练，以得到最优的参数集θ。训练环节需要依据损失函数进行梯度计算，并通过反向传播算法进行参数的迭代更新。然而，当使用非线性函数如神经网络来表示Q值函数时，传统的强化学习训练方法被认为是不稳定的，甚至是发散的。为了解决这一问题，本发明采用了以下两种方法来提高学习的稳定性和效率。

首先，引入记忆库D来存储先前的经验，包含当前状态s_t、当前动作a_t、获取的奖励r_t和下一个状态s_t+1。记忆库D的定义为：

其中w是记忆库D的最大容量。在训练过程中，每个生成的经验存入记忆库D。在这种情况下，通过引入记忆库会扰乱内存之间的相关性，使得神经网络可以学习先前的经验，从而提高学习效率。

实际上，在DQN中有两个Q网络，即Q值评估网络和Q值目标网络。Q值评估网络用于实时学习和更新包括权值和偏置在内的参数。建立“暂时冻结”的Q值目标网络，定义Q值目标函数

来解耦动作的决策过程。

图2描述了DCRQN的整体训练过程。网络状态s_t被感知，然后预处理为状态数据集合φ(S_n)。然后，Q值评估网络生成经验并将其存储到记忆库D中。当记忆库D存储的经验足够多时，从记忆库D中随机抽取长度为l_d的经验，组成一个小的经验集合d，然后将经验集合d中的经验输入到Q值目标网络。在奖励信息r和经验集合d的基础上，损失函数Cost(θ)可以计算为：

Cost(θ)＝E_d[(y_j-Q(φ(S_j),a_j；θ))²] (15)

其中y_j是目标Q值，计算如下：

其中γ是累积奖励的延迟回报因子。然后根据损失函数，在每一次的训练步骤里面我们会进行梯度的反向传播，从而进一步使用梯度下降方法更新Q值评估函数，更新θ中的参数集。每训练G次，对

进行更新，即令

是Q值目标函数。因此Q值评估网络被称为是“暂时冻结”的。

此外，我们利用ε贪心算法来提高学习能力，以避免DCRQN学习陷入局部最优，它允许同时执行两项任务：探索和利用。根据ε贪婪策略，智能体将以概率ε∈[0,1]随机选择一个动作a∈A(探索)，以概率1-ε根据政策π(a)选择决策空间的动作(利用)。随着训练迭代次数的增加，获得的策略会逐渐收敛。因此建立一个线性函数，它能把探索率ε从初始值ε_i降低到最终值ε_f，表示为：

ε＝ε-(ε_i-ε_f)/ζ (17)

其中ζ是迭代周期。经过大量的经验训练，所提的算法最终能得到一个适用于所在环境的最优的切换判决策略，能够根据车辆终端所处的状态做出最佳的动作决策。

具体而言，基于DCRQN的切换决策可分为训练阶段和判决阶段两部分。在训练阶段，首先初始化固定参数和Q值评估网络和Q值目标网络的参数。智能体模块读取状态信息s_t并将其预处理为φ(S_t)。训练迭代周期ζ被确定，φ(S_t)作为Q值评估网络的输入。通过特征提取模块和决策模块输出动作的Q值。根据ε贪心算法，决策模块以概率ε选择一个随机动作a_t∈A，或根据策略π(a)选取动作a_t。然后ε通过ε＝ε-(ε_i-ε_f)/ζ被更新。智能体模块执行动作a_t，获得奖励r_t和下一状态S_t+1之后，将S_t+1预处理为φ(S_t+1)。Q值评估网络保存经验(φ(S_t),a_t,r_t,φ(S_t+1))到记忆库D。每一次训练，Q值目标网络从D中随机采样l_d个样本组成集合d，将d输入Q值评估网络和Q值目标网络计算损失函数Cost(θ)，使用梯度下降方法更新Q值评估函数，更新θ中的参数集。每训练G次对

进行更新，

通过大量的训练迭代可以得到最优的切换策略，但在判决阶段不需要引入ε贪心策略和训练Q值目标网络。

本实施中，为验证本发明所提的基于DCRQN的切换方法在提升切换过程中的吞吐量的效果，将其与以下两种切换方法进行仿真对比：

(1)基于RSS阈值的切换方法(RSST)。

(2)基于RNN的强化学习切换方法(DRQN)，即在深度强化学习算法中仅使用循环神经网络来提取车辆终端在网络中的状态特征。

图3为本发明的仿真场景图，图中所有LTE网络的覆盖半径设置为1000米，所有WAVE网络的覆盖半径设置为150米。在仿真场景下，随机生成终端节点，代表车辆终端。

图4展示了分别采用本发明提出的切换方法、基于RSST的切换方法和基于RNN的强化学习切换方法时，车辆终端在移动过程中吞吐量随时间变化的趋势图。在如图3的仿真场景中，让车辆终端按照图中所示的路径移动。由图4可知，当车辆终端开始远离WAVE3，并进入WAVE3和WAVE2的重叠覆盖区域后，车辆终端的吞吐量随着车辆的移动而持续下降。当车辆终端的吞吐量下降到一定程度时，本发明所提出的切换方法最早触发切换，使得其吞吐量开始回升。基于DRQN的切换方法做出切换决策的时间稍晚，使得车辆终端经历了一段时间的低吞吐量。基于RSST的切换方法做出切换决策的时间最晚，导致车辆终端的吞吐量下降到了图中的最低点，使得车辆终端很长一段时间处于低吞吐量的状态。

图5为本发明提出的切换方法、基于RSST的切换方法和基于RNN的强化学习切换方法的平均吞吐量的对比图。从图中可以看出，在五次仿真实验中，本发明提出的方法的平均吞吐量均高于基于RSST的切换方法和基于DRQN的切换方法的平均吞吐量。因此，三种切换方法中，本发明所提出的基于DCRQN的切换方法能够根据车辆终端在网络中的状态，选择最佳的切换时机和网络，从而避免切换过程中车辆终端的吞吐量下降得过低,提高车辆终端切换过程中的平均吞吐量。

图6为本发明提出的切换方法、基于RSST的切换方法和基于RNN的强化学习切换方法的吞吐量的的累积分布函数图(Cumulative Distribution Function，CDF)。所有车辆终端在仿真场景中随机移动，在三种方法下，分别统计车辆终端在3600秒时间内吞吐量的值，并绘制出吞吐量的累积分布函数图。从图中可以看出，本发明所提的切换方法获得较高吞吐量的概率都大于其他两种切换方法。

图7为本发明提出的切换方法、基于RSST的切换方法和基于RNN的强化学习切换方法的总吞吐量随车辆终端数量的变化曲线。从图可以看出，三种切换方法的总吞吐量都随车辆终端数量的增加而增加，随着车辆终端数量的增加，三种方法的总吞吐量的增加越来越缓慢。另外，当车辆终端的数量相同时，本发明所提出的切换方法的总吐吞量始终高于其他两种方法的总吞吐量。

因为所采用的切换方法不同，使得车辆终端在切换过程中所得到的吞吐量不同。对于基于RSST的切换方法，在车辆聚集的车联网场景中，难以设置适用于全局网络的RSS阈值T。基于DRQN的切换方法虽然避免了基于RSS的切换方法的缺陷，可以通过学习得到适用于特定环境的切换判决策略，但是由于没有提取车辆终端所处状态的空间特征，因此难以实现最优的切换判决策略。而本发明提出的方法通过卷积神经网络和循环神经来提取无线信号的时空特征，能够准确地表征车辆终端所处的状态，采用以最大化车辆终端的平均吞吐量为目标，可以通过一个学习阶段获得最优切换策略。

通过上述的仿真比较，可知本发明提出基于DCRQN的车联网切换方法是有效的。对于基于RSST的切换方法，在车辆聚集的车联网场景中，难以设置适用于全局网络的RSS阈值T。基于DRQN的切换方法虽然避免了基于RSS的切换方法的缺陷，可以通过学习得到适用于特定环境的切换判决策略，但是由于没有提取车辆终端所处状态的空间特征，因此难以实现最优的切换判决策略。而本发明提出的方法通过卷积神经网络和循环神经来提取无线信号的时空特征，能够准确地表征车辆终端所处的状态，采用以最大化车辆终端的平均吞吐量为目标，可以通过一个学习阶段获得最优切换策略，能够提高车辆终端的吞吐量，从而提高车辆用户的服务质量。

Claims

1.一种异构车联网中的智能切换判决方法，其特征在于，包括以下步骤：

步骤1、搭建问题模型；将车联网切换问题建模为马尔科夫决策过程；定义马尔科夫决策过程的状态空间S，采用网络接收到车辆终端的SINR来表征车辆终端在网络中所处的状态；定义马尔科夫决策过程的动作空间A，用不同动作表示将车辆终端切换到不同网络的决策；定义马尔科夫决策过程的奖励，以实时吞吐量作为奖励r；智能体通过学习能够获得最大化累积奖励的最优策略，从而使得车辆终端在整个覆盖范围内的平均吞吐量最高；

步骤2、搭建DCRQN架构，主要分为网络环境和决策大脑两部分；决策大脑从网络环境中获得网络的状态信息，并对网络状态信息进行处理，然后决策大脑制定决策，并执行决策指令，实现对网络的管理操作；所述决策大脑由三个部分组成，分别为：智能体模块、特征提取模块和决策模块；

步骤3、基于DCRQN进行切换决策。

2.根据权利要求1所述的一种异构车联网中的智能切换判决方法，其特征在于，所述步骤2搭建DCRQN架构，具体包括：

步骤2-1、构建智能体模块；该模块负责直接与网络环境进行交互，感知车辆终端的当前状态并执行动作；智能体模块周期性地从实际网络环境中获取网络状态，对状态信息进行预处理，将预处理过的状态信息反馈给特征提取模块；智能体模块监控决策模块的输出，如果决策模块输出了某个策略，智能体模块会执行该决策指令，实现对网络环境的管理和控制；

步骤2-2、构建特征提取模块；该模块由两个子模块组成，分别是卷积神经网络子模块和循环神经网络子模块；根据从智能体模块中读取的预处理状态信息，特征提取模块依次提取无线信号的空间特征和时间特征，得到一个包含车辆终端的位置信息和移动性信息的特征向量，并将其输入到决策模块；根据决策模块返回的损失函数，在卷积神经网络和循环神经网络中执行反向传播算法，完成卷积神经网络和循环神经网络的训练以及参数更新；

步骤2-3、构建决策模块，即构建一个前向全连接的神经网络，从而实现状态到动作的映射，将特征提取模块输出的特征向量映射成相应的决策，将这个全向连接的神经网络拟合成最优决策函数；决策模块读取特征提取模块输出的特征向量，利用Q值函数，输出各个决策的评估值；对于任意的状态输入，选择评估值最大的动作决策，然后通知智能体模块执行该决策。

3.根据权利要求1所述的一种异构车联网中的智能切换判决方法，其特征在于，所述步骤3基于DCRQN进行切换决策，具体包括：

φ(S_n)＝{S_n-l+1,S_n-l+2,...,S_n-l+j,...,S_n-1,S_n}^T (1)

其中，l是智能体模块读取的状态数据的时间长度，它表示选取多长时间的状态数据用于下一阶段的特征提取；

步骤3-2、智能体模块对车辆终端的状态信息进行预处理后，特征提取模块对预处理后的状态信息进行特征提取；首先通过卷积神经网络子模块提取车辆终端在网络中的空间位置特征，然后利用循环神经网络子模块提取状态信息的时间特征；卷积神经网络在本质上是一个可自学习参数的非线性函数，为：

C＝f_C(φ(S)；v_C(k,p；β_C)) (2)

其中f_C(.)是卷积神经网络的非线性映射函数，v_c(.)表示卷积神经网络所有参数的集合，k,p分别表示卷积层和池化层的设计参数，β_C表示卷积神经网络的可变参数；

循环神经网络的映射函数是：

χ＝f_R(C'；v_R(u；β_R)) (3)

其中f_R(.)是循环神经网络的非线性映射函数，v_R(.)是循环神经网络所有参数的集合，u表示RNN单元的个数，β_R表示循环神经中的可量参数；整个特征提取模块的最终输出χ，既能反映车辆终端在车联网中的位置的空间特征，又能反映车辆终端移动性信息的时间特征；

步骤3-3、决策模块读取特征提取模块输出的特征向量，计算决策空间中的每个动作的Q值，并做出决策；给定一个输入特征向量χ，动作的Q值可以计算为：

Q(χ,a_i；v_D(v；β_D))＝f_D(χ,a_i；v_D(v；β_D)),a_i∈A (4)

其中f_D是在决策过程中的非线性映射函数，v_D(.)是全连接神经网络中所有参数的集合，β_D表示全连接神经网络中的可变参数，Q(χ,a_i；v_D(v；β_D))表示在神经网络参数为β_D的情况下，当输入的特征向量为χ时，决策网络选择动作a_i的偏好程度；最终决策的动作为：

决策模块将最终决策的动作立即通知给智能体模块，智能体模块执行相应的网络管理操作，实现对车辆终端切换的控制；

步骤3-4、进行网络训练；

将基于DCRQN的切换决策过程中涉及的三种类型的神经网络作为一个整体，状态空间与决策空间中动作Q值的映射关系可以表示为：

Q(φ(S_t),a_i；θ)＝F_N(φ(S_t),a_i；θ) (6)

其中F_N(.)为卷积神经网络、循环神经网络与前向全连接神经网络的联合非线性函数；参数θ是变量所有可变参数集合，包括参数β_C、参数β_R和参数β_D；Q(φ(S_t),a_i；θ)表示在时间t，给定输入状态φ(S_t)时，决策空间中动作a_i的Q值，即它表示动作a_i的偏好程度；相应地，最终决策的动作被定义为：

对F_N(.)进行训练，以得到最优的参数集θ，从而学习状态到动作的最优映射策略。