CN110213827A

CN110213827A - 基于深度强化学习的车辆数据采集频率动态调节方法

Info

Publication number: CN110213827A
Application number: CN201910439512.0A
Authority: CN
Inventors: 邢志超; 吴平阳; 梁腾; 赵熙唯; 刘倩; 丁冉; 李骏; 桂林卿
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2019-05-24
Filing date: 2019-05-24
Publication date: 2019-09-06
Anticipated expiration: 2039-05-24
Also published as: CN110213827B

Abstract

本发明设计了一套应用于道路安全的算法，实现了在监控路上车辆时数据采集频率的动态调整。由于数据中心监控道路的车辆情况时都是固定的数据采集频率，可能会导致对危险情况的关注度不够，造成不必要的资源浪费，同时大量上传的数据也会对数据中心处理数据产生一定的压力，因此考虑在数据的采集过程中对数据进行预处理。本发明通过对道路环境与车辆移动的建模，获得采集频率与道路状况的匹配度。通过结合深度强化学习算法，找出在每个时刻针对于每种状况的最优决策，从而获得最优的匹配度与最少的能源消耗，从而极大提升数据中心对行驶车辆数据采集的效率。

Description

基于深度强化学习的车辆数据采集频率动态调节方法

方法领域

本发明涉及无线通信方法领域，以及计算机领域中基于神经网络的深度强化学习算法，属于交叉学科的方法应用。

背景方法

车联网概念引申自物联网(Internet of Things),智能交通系统是一个巨大的互动信息网络，如车辆位置，速度和路线。通过GPS，射频识别方法，传感器，摄像机图像处理等设备，车辆可以完成自身环境和状态信息的收集；通过互联网方法，所有车辆都可以将各种信息传输到中央处理器；通过计算机方法，可以分析和处理大量车辆上的这些信息，以计算不同车辆的最佳路线，及时报告道路状况，并安排信号周期。

正是由于车联网有着非常丰富的上层应用，为了服务于日益增长的大数据分析需求，合理利用计算资源，需要数据采集端在采集数据时也体现出智能化，而非传统的固定频率。智能的数据采集频率调节方法可以帮助上层计算中心预先过滤掉一部分无用的信息，提升计算有效性，同时节省传感器的能源消耗。

发明内容

本发明所要解决的方法问题是在车联网的发展背景下，针对目前通常采取固定车辆数据采集频率的系统，提供了一种基于深度强化学习的车辆数据采集频率动态调节方法，以有效提高系统道路安全与计算资源分配。

本发明为解决上述方法问题采用以下方法方案：假设车辆在基站服务区域内行驶的时间为t＝1,...,T，每个服务的时隙为时隙内最小采样间隔为τ。文章就是通过动态调整采样间隔的大小a(t)τ，从而为不同的情况匹配不同的采样频率其中，MDP中的动作集状态集s(t)＝{f(t),var(t)}，即每个时刻的频率与速度的样本方差。每个时刻动作的选择会参考状态中的样本方差，而动作的选定也会改变状态中的频率。

系统的已知量与目标：车辆的速度公式为：在每个时刻t，系统选择不同的采样间隔a(t)τ，以获得不同的数据采集频率此外，系统会有一个长度为L的数据库用来保存历史速度值：

V＝{v(t-1-L),v(t-L),...,v(t-1)}，基于这些历史数据，通过我们所建立的机制得到相应的采集频率f_var。最终，使Z(t)＝|f(t)-f_var(t)|越小越好，从而实现动态频率调节的功能。

步骤11)为了实现对车辆数据的动态采集，因此先将车辆以高斯-马尔科夫移动模型建模，根据Gauss-Markov移动模型：其中φ(t)服从以下推导速度方差的上界：

…

综上，

移项得

因此：

速度方差的上界：

步骤12)每个时刻系统都会根据之前保存的车辆速度值计算方差，再根据方差去调整车辆的数据采集频率。在此我们定义一个数据长度为L的数据库用来保存历史速度值：V＝{v(t-1-L),v(t-L),...,v(t-1)}。然后，以无偏估计计算样本速度的方差：

步骤13)归一化样本方差：由于样本方差var(t)的最大值不一定小于总体方差最大值D_max，因此考虑使用sigmoid函数，在归一化值var大于1时，其对应的频率还保持为频率的最大值。根据sigmoid公式：通过调整公式中的参数θ,γ，可以修改不同的频率f_var与归一化方差var的对应关系。

然后再通过将动作选择的频率f(t)与方差匹配的频率f_var(t)做差Z(t)＝|f(t)-f_var(t)|，最小化两者的差值以优化频率的选择。

Reward：R(t)＝1-Z(t)，差值Z(t)越小，回报R(t)越大。

2.根据权利要求1所述的方法，通过深度神经网络的学习方法找算法中的最优决策，包括：

步骤21)，将目标函数进行问题转化：令R(t)＝-e(t)+χ(t)，从而问题转换为；其中π为需要找出的最优决策；

步骤22)用基于神经网络的深度强化学习算法，通过最小化神经网络的收敛值找到收敛时刻的决策序列，再通过调整对车辆超速速度的阈值设定，找出能够使收敛最优的参数。

本发明采用以上方法方案与现有方法相比，具有以下方法效果：

提出的基于深度强化学习的车辆数据采集频率动态调节算法性能优于现有的固定频率的车辆数据采集方法，且采集能耗与数据有效度明显优于后者，实现了性能与能量消耗的良好折中，同时因为采集的数据有效性的提高，使得上层数据处理中心的压力减小，优化上层数据中心的计算资源分配。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

图1是本发明原理示意图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域方法人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

本发明的一种路侧节点基于深度强化学习的车辆数据采集频率动态调节方法包括：确定想要优化的参数，通过合适的训练集设计MDP过程，通过深度强化学习方法线下训练数据集，待训练完成后放置线上应用。

作为一种实施例，所述方法包括：考虑车辆的移动模型，模拟车辆在道路上的速度、角度变化；利用基于目标车辆历史速度值的方差的无偏估计，将方差归一化为能表示车辆速度变化幅度的参量；通过深度强化学习的学习机制，学习每个时刻车辆的方差参量，在时刻开始初即给定当前时刻的数据采集频率，从而实现频率的动态调节。

Claims

1.一种基于深度强化学习的车辆数据采集频率动态调节方法，其特征包括：

在道路安全的角度对道路上车辆的数据采集频率进行动态规划；

通过深度神经网络的学习方法找算法中的最优决策，以获得比较理想的效果；

所述在道路安全的角度对道路上车辆的数据采集频率进行动态规划，包括：

…

综上，

移项得

因此：

速度方差的上界：

步骤12)每个时刻系统都会根据之前保存的车辆速度值计算方差，再根据方差去调整车辆的数据采集频率，在此我们定义一个数据长度为L的数据库用来保存历史速度值：V＝{v(t-1-L),v(t-L),...,v(t-1)}，然后，以无偏估计计算样本速度的方差：

步骤13)归一化样本方差：由于样本方差var(t)的最大值不一定小于总体方差最大值D_max，因此考虑使用sigmoid函数，在归一化值var大于1时，其对应的频率还保持为频率的最大值，根据sigmoid公式：通过调整公式中的参数θ,γ，可以修改不同的频率f_var与归一化方差var的对应关系，

然后再通过将动作选择的频率f(t)与方差匹配的频率f_var(t)做差Z(t)＝|f(t)-f_var(t)|，最小化两者的差值以优化频率的选择，

Reward：R(t)＝1-Z(t)，差值Z(t)越小，回报R(t)越大。

步骤21)，将目标函数进行问题转化：令R(t)＝-e(t)，从而问题转换为；其中π为需要找出的最优决策；