CN110081897A

CN110081897A - 一种限制性骑行路径规划装置及方法

Info

Publication number: CN110081897A
Application number: CN201910371140.2A
Authority: CN
Inventors: 王子赟; 阮悦颖; 张洁; 陈悦林; 叶小玮; 陆妍
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2019-05-06
Filing date: 2019-05-06
Publication date: 2019-08-02
Anticipated expiration: 2039-05-06
Also published as: CN110081897B

Abstract

本发明公开了一种限制性骑行路径规划装置及方法，涉及数据分析领域，包括主机电路和从机电路，主机电路和从机电路通过无线通信连接；主机电路包括主机控制器、定位接收器、记录设备，主机控制器分别与定位接收器和记录设备连接；从机电路包括从机控制器、交互输入设备、交互显示设备，从机控制器分别与交互输入设备和交互显示设备连接；定位接收器用于定位帧数据中的经度数据和纬度数据，并对各个路径点进行标记；记录设备用于记录和存储位置数据；交互输入设备用于输入骑行目的地；交互显示设备用于显示用户的实时位置和骑行路径。根据用户的实际骑行需求选择出最适合用户的路径，适用场景多。

Description

一种限制性骑行路径规划装置及方法

技术领域

本发明涉及数据分析领域，尤其是一种限制性骑行路径规划装置及方法。

背景技术

随着共享单车的兴起，骑行运动方式渐渐推广，骑行市场被逐步开发出来。作为全球八大无线产业之一，GPS为代表的导航定位服务占领了广大市场，GPS 因为全天、高精、高效等优势及其导航追踪、精准授时等各方面的实用功能，已经逐步应用到各个领域。

现有的导航设备主要是根据行驶时间和出行方式来推荐路径，当用户确定出发地和目的地后，系统会根据出行方式生成路径和相应的时间。然而，面向骑行的导航设备比较少见，主要原因包括：投入成本巨大而盈利有限，单车上的导航设备使用场景单一，通常只涉及短途通勤场景，根据起点和终点规划最短路径。

发明内容

本发明针对上述问题及技术需求，提出了一种限制性骑行路径规划装置及方法。

本发明的技术方案如下：

第一方面，一种限制性骑行路径规划装置，包括：主机电路和从机电路，所述主机电路和所述从机电路通过无线通信连接；所述主机电路包括主机控制器、定位接收器、记录设备，所述主机控制器分别与所述定位接收器和所述记录设备连接；所述从机电路包括从机控制器、交互输入设备、交互显示设备，所述从机控制器分别与所述交互输入设备和所述交互显示设备连接；

所述定位接收器用于定位帧数据中的经度数据和纬度数据，并对各个路径点进行标记；

所述记录设备用于记录和存储位置数据；

所述交互输入设备用于输入骑行目的地；

所述交互显示设备用于显示用户的实时位置和骑行路径。

其进一步的技术方案为：所述主机控制器和所述从机控制器采用 STM32F103VET6单片机，所述定位接收器是UBLOX-NEO-6M模组和 STM32F103VET6上自带的AT24C02 EEPROM模块，其中，UBLOX-NEO-6M 模组作为GPS信号分析处理模组，AT24C02存储GPS配置信息；所述记录设备采用Micro SD卡；所述交互输入设备采用按键模块；所述交互显示设备采用带ILI9341控制器的TFL液晶屏。

其进一步的技术方案为：所述主机电路还包括第一无线通信模块，所述第一无线通信模块与所述主机控制器连接，所述从机电路还包括第二无线通信模块，所述第二无线通信模块与所述从机控制器连接；所述第一无线通信模块和所述第二无线通信模块用于实现所述主机电路和所述从机电路之间的无线通信。

其进一步的技术方案为：所述第一无线通信模块和所述第二无线通信模块采用STM32F103VET6单片机上自带的ESP8266 WiFi模块。

第二方面，一种限制性骑行路径规划方法，应用于第一方面所述的限制性骑行路径规划装置中，所述方法包括：

确定预定区域内的各个路径点，所述路径点为至少两条道路的交汇点；

采集各个路径点的经纬度数据，记录各个路径点的海拔高度，对每个路径点预设风景评分，将每个路径点的经纬度数据、海拔高度、风景评分对应存储；

接收用户选择的起点和终点，对于每个行驶路段，获取同时间段内GPS数据中其他骑行者的所有骑行路径，确定出起点与终点之间的所有待选路径集合，所述待选路径集合包括有向路段集、每条待选路径的最大海拔差集和每条待选路径的综合风景评分集；

接收用户选择的骑行模式，所述骑行模式包括最短距离模式、风景最优模式、锻炼身体模式；

根据用户选择的骑行模式，通过约束深度强化学习算法确定出对骑行模式对应的目标路径。

其进一步的技术方案为：所述骑行模式为最短距离模式，所述通过约束深度强化学习算法确定出对骑行模式对应的目标路径，包括：

待选路径集合W中包括所有路径点组成的路径点集E和有向路径集A，用户的起点位置e_i为路径点集E中的第i个路径点，将用户的起点位置e_i的状态特征表示为s(e_i)＝[x_i,y_i,x_D,y_D]，x_i表示起点的经度，y_i表示起点的纬度，x_D表示终点的经度，y_D表示终点的纬度；起点位置e_i到终点的骑行时间用Q(s(e_i))表示，将起点位置e_i的状态特征s(e_i)输入BP神经网络得到起点到终点的骑行时间 Q(s(e_i))；

用户在待选路径集合G中所在路径点e_i+n∈E，e_i+n表示在起点位置e_i后的第 n个路径点，与起点位置e_i相连接的所有路段a_i,j组成起点位置e_i的有向路径集 A(e_i)；奖励函数r(e_i,a_i,i+1)表示用户在起点位置e_i选择路段a_i,i+1的骑行时间Q(s(e_i))；根据骑行经验执行贪婪策略π和环境交互得到由所在路径点、选择的相邻路段和骑行时间组成的求解：h_i:k＝e_i,a_i,i+1,r(e_i,a_i,i+1),e_i+1,a_i+1,i+2,...,e_k，e_k表示终点之前所经过的最后一个路口，即路径点集E中的第k个路径点；

当完成一次求解，Q值发生更新，将求解中用户在起点位置e_i以及之后经过的每个路径点表示为[s(e_i),a_i,i+1,r(e_i,a_i,i+1),s(e_i+1)]存储于求解记忆P中；当每次完成成功求解时，计算成功求解中每个起点位置e_i到终点位置的累积折减收益 G(h_i:k)；定义节点记忆N＝{[s(e_i),q(e_i)|e_i∈E,q(e_i)＝minG(h_i:k)]}，二元组s(e_i)，q(e_i)存储起点位置e_i的状态特征和起点到终点的最短骑行时间；

采用深度Q-learning算法，神经网路的训练通过最小化起点位置e_i到终点的最短骑行时间q(e_i)和起点位置ei到终点的骑行时间估计值Q(s(e_i))误差平方和，即其中θ为神经网络权重系数；

采用ε贪婪策略，以ε概率选择当前最佳策略，1-ε概率随机选择策略，基于深度Q-learning算法，结合待选路径集合W，选择对应最短距离模式的路径，具体步骤包括：

输入W＝(E,A)；

初始化节点记忆N，循环执行初始化Q值及神经网络权重系数θ，嵌套循环1至k，在起点位置e_i用户满足交通规则时，采用ε贪婪策略选择和起点位置相连的路段a_i,i+1；

将选择记录[s(e_i),a_i,i+1,r(e_i,a_i,i+1)]加入求解，并将记录[s(e_i),a_i,i+1,r(e_i,a_i,i+1),s(e_i+1)] 存储于求解记忆P，直到最后一个路径点e_k和终点e_D重合结束循环；

计算成功从起点到终点的路径中每个起点位置e_i到终点的累积折减收益 G(h_i:k)，并更新节点记忆N；

使用梯度下降更新θ，以最小化[(q(e_i)-Q(s(e_i),θ))]²，输出贪婪策略 a_i,i+1＝π(e_i)，得到所选择的一个路段，到达终点后，所有选择的路段组成的路径即与最短距离模式对应的路径。

其进一步的技术方案为：所述骑行模式为风景最优模式，所述通过约束深度强化学习算法确定出对骑行模式对应的目标路径，包括：

根据骑行经验设定风景评分初始值g₀，待选路径集合W中包括所有路径点组成的路径点集E、有向路径集A、每条待选路径的综合风景评分集g，用户的起点位置e_i为路径点集E中的第i个路径点，将用户的起点位置e_i的状态特征表示为s(e_i)＝[x_i,y_i,x_D,y_D]，x_i表示起点的经度，y_i表示起点的纬度，x_D表示终点的经度，y_D表示终点的纬度；起点位置e_i到终点的骑行时间用Q(s(e_i))表示，将起点位置e_i的状态特征s(e_i)输入BP神经网络得到起点到终点的骑行时间 Q(s(e_i))；

采用ε贪婪策略，以ε概率选择当前最佳策略，1-ε概率随机选择策略，基于深度Q-learning算法，结合待选路径集合W，选择对应风景最优模式的路径，具体步骤包括：

输入W＝(E,A,g)；

使用梯度下降更新θ，以最小化输出贪婪策略a_i,i+1＝π(e_i)，得到所选择的一个路段，到达终点后，所有选择的路段组成的路径即与风景最优模式对应的路径。

其进一步的技术方案为：所述骑行模式为锻炼身体模式，所述通过约束深度强化学习算法确定出对骑行模式对应的目标路径，包括：

设每条待选路径的最低点e_l海拔为Z_l，最高点e_h海拔为Z_h，海拔差最大值为z，待选路径集合W中包括所有路径点组成的路径点集E、有向路径集A、每条待选路径的最大海拔差集Z，用户的起点位置e_i为路径点集E中的第i个路径点，将用户的起点位置e_i的状态特征表示为s(e_i)＝[x_i,y_i,x_D,y_D]，x_i表示起点的经度，y_i表示起点的纬度，x_D表示终点的经度，y_D表示终点的纬度；起点位置 e_i到终点的骑行时间用Q(s(e_i))表示，将起点位置e_i的状态特征s(e_i)输入BP神经网络得到起点到终点的骑行时间Q(s(e_i))；

采用ε贪婪策略，以ε概率选择当前最佳策略，1-ε概率随机选择策略，基于深度Q-learning算法，结合待选路径集合W，选择对应锻炼身体模式的路径，具体步骤包括：

输入W＝(E,A,Z)；

计算成功从起点到终点的路径中每个起点位置e_i到终点的累积折减收益G(h_i:k)，并更新节点记忆N；

使用梯度下降更新θ，以最小化输出贪婪策略a_i,i+1＝π(e_i)，得到所选择的一个路段，到达终点后，所有选择的路段组成的路径即与锻炼身体模式对应的路径。

本发明的有益技术效果是：

通过GPS定位骑行的实时情况，针对观景、锻炼等不同用户的需求，根据骑行经验，给出合理的骑行路径，能为骑行者爱好者提供科学的运动指导，根据用户需求以及骑行经验帮助用户选择骑行方案，统筹兼顾，优化路程，增添了骑行运动的乐趣，提高骑行体验，有利于推广绿色出行。

通过约束深度强化学习(CDRL)算法计算与骑行模式对应的最优路径，该算法主要由路径约束和深度Q-learning算法两个阶段组成。在第一阶段，生成起点和终点之间可选择的约束路径，通过隐含的骑行者的经验对可选择的路段进行限制，在第二阶段，设计深度Q-learning算法学习骑行者经验，根据出发时间在线计算给定最优路径。该方案在线计算用时短，计算效率高。

附图说明

图1是本发明一个实施例提供的限制性骑行路径规划装置的结构示意图。

图2是本发明一个实施例提供的限制性骑行路径规划方法的流程图。

图3是本发明一个实施例提供的路径点采集数据图。

图4是本发明一个实施例提供的路径规划状态转移图。

具体实施方式

下面结合附图对本发明的具体实施方式做进一步说明。

图1是本发明一个实施例提供的限制性骑行路径规划装置的结构示意图，如图1所示，该装置可以包括主机电路和从机电路，主机电路和从机电路通过无线通信连接；主机电路包括主机控制器、定位接收器、记录设备，主机控制器分别与定位接收器和记录设备连接；从机电路包括从机控制器、交互输入设备、交互显示设备，从机控制器分别与交互输入设备和交互显示设备连接；定位接收器用于定位帧数据中的经度数据和纬度数据，并对各个路径点进行标记；记录设备用于记录和存储位置数据；交互输入设备用于输入骑行目的地；交互显示设备用于显示用户的实时位置和骑行路径。

示例性的，主机控制器和从机控制器采用STM32F103VET6单片机，定位接收器是UBLOX-NEO-6M模组和STM32F103VET6上自带的AT24C02 EEPROM模块，其中，UBLOX-NEO-6M模组作为GPS信号分析处理模组， AT24C02存储GPS配置信息，保证GPS掉电配置不丢失，UBLOX-NEO-6M GPS 模组上带有USB接口，支持直接连接到上位机，借用上位机软件对模组直接进行配置与数据信息读取，定位接收器与STM32F103VET6的12C/USART接口连接；记录设备采用Micro SD卡，Micro SD卡上的位置信息在更改格式为KML 之后，可以使用Google Earth对运动轨迹进行地图绘制，便于用户对骑行运动查看，记录设备与STM32F103VET6的SPI1接口连接；交互输入设备采用按键模块，交互输入设备与STM32F103VET6的GPIO接口连接；交互显示设备采用带ILI9341控制器的TFL液晶屏。

尽管图中未示出，主机电路还包括第一无线通信模块，第一无线通信模块与主机控制器连接，从机电路还包括第二无线通信模块，第二无线通信模块与所述从机控制器连接；第一无线通信模块和第二无线通信模块用于实现主机电路和从机电路之间的无线通信。

示例性的，第一无线通信模块和第二无线通信模块采用STM32F103VET6 单片机上自带的ESP8266 WiFi模块。

本发明实施例还提供一种限制性骑行路径规划方法，应用于如图1所示的限制性骑行路径规划装置中，如图2所示，该方法可以包括以下步骤：

步骤1，确定预定区域内的各个路径点。

路径点为至少两条道路的交汇点。

步骤2，采集各个路径点的经纬度数据，记录各个路径点的海拔高度，对每个路径点预设风景评分，将每个路径点的经纬度数据、海拔高度、风景评分对应存储。

风景评分考虑到时间、天气、季节等因素，因此风景评分可以是动态变化的。

步骤3，接收用户选择的起点和终点，对于每个行驶路段，获取同时间段内GPS数据中其他骑行者的所有骑行路径，确定出起点与终点之间的所有待选路径集合。

待选路径集合包括有向路段集、每条待选路径的最大海拔差集和每条待选路径的综合风景评分集。

首先进行模型假设，假设每条路径的骑行时间是随机变量，假设所测数据真实可靠，假设不同路径的客观值和用户需求值相互独立。

由于骑行单车GPS数据的稀疏性和低采样率，很多地方之间不能获取足够的信息来推断出行的路径，但是骑行者的经验同样隐藏在行驶路径中，因此可以通过学习该行驶路径来学习骑行者骑行经验。

对于最优路径选择的问题，需要生成骑行路径选择集，在实际中，骑行者往往只选择起点至终点的若干条路径行驶，即可选择的路径存在一定约束，为了避免生成的路径选择集遗漏重要的路径，并且生成路径集满足约束，因此根据同时间段内所有骑行者的骑行路径确定待选路径集合。

步骤4，接收用户选择的骑行模式。

骑行模式包括最短距离模式、风景最优模式、锻炼身体模式。

步骤5，根据用户选择的骑行模式，通过约束深度强化学习算法确定出对骑行模式对应的目标路径。

采用深度Q-learning算法来估算Q值，Q值即骑行者在起点位置选择路段的最大累积折减收益。在深度Q-learning算法中，使用深度神经网络作为状态映射到Q值的函数近似器。本实施例使用的BP神经网络中，将出行者起点位置的状态特征作为输入，输出起点到终点的骑行时间。

在第一种可能的实现中，骑行模式为最短距离模式，通过约束深度强化学习算法确定出对骑行模式对应的目标路径，包括：待选路径集合W中包括所有路径点组成的路径点集E和有向路径集A，用户的起点位置e_i为路径点集E中的第i个路径点，将用户的起点位置e_i的状态特征表示为s(e_i)＝[x_i,y_i,x_D,y_D]，x_i表示起点的经度，y_i表示起点的纬度，x_D表示终点的经度，y_D表示终点的纬度；起点位置e_i到终点的骑行时间用Q(s(e_i))表示，将起点位置e_i的状态特征s(e_i)输入 BP神经网络得到起点到终点的骑行时间Q(s(e_i))；用户在待选路径集合G中所在路径点e_i+n∈E，e_i+n表示在起点位置e_i后的第n个路径点，与起点位置e_i相连接的所有路段a_i,j组成起点位置e_i的有向路径集A(e_i)；奖励函数r(e_i,a_i,i+1)表示用户在起点位置e_i选择路段a_i,i+1的骑行时间Q(s(e_i))；根据骑行经验执行贪婪策略π 和环境交互得到由所在路径点、选择的相邻路段和骑行时间组成的求解： h_i:k＝e_i,a_i,i+1,r(e_i,a_i,i+1),e_i+1,a_i+1,i+2,...,e_k，e_k表示终点之前所经过的最后一个路口，即路径点集E中的第k个路径点；当完成一次求解，Q值发生更新，将求解中用户在起点位置e_i以及之后经过的每个路径点表示为[s(e_i),a_i,i+1,r(e_i,a_i,i+1),s(e_i+1)]存储于求解记忆P中；当每次完成成功求解时，计算成功求解中每个起点位置e_i到终点位置的累积折减收益G(h_i:k)；定义节点记忆 N＝{[s(e_i),q(e_i)|e_i∈E,q(e_i)＝minG(h_i:k)]}，二元组s(e_i)，q(e_i)存储起点位置e_i的状态特征和起点到终点的最短骑行时间；采用深度Q-learning算法，神经网路的训练通过最小化起点位置e_i到终点的最短骑行时间q(e_i)和起点位置ei到终点的骑行时间估计值Q(s(e_i))误差平方和，即其中θ 为神经网络权重系数；采用ε贪婪策略，以ε概率选择当前最佳策略，1-ε概率随机选择策略，基于深度Q-learning算法，结合待选路径集合W，选择对应最短距离模式的路径，具体步骤包括：输入W＝(E,A)；初始化节点记忆N，循环执行初始化Q值及神经网络权重系数θ，嵌套循环1至k，在起点位置e_i用户满足交通规则时，采用ε贪婪策略选择和起点位置相连的路段a_i,i+1；将选择记录 [s(e_i),a_i,i+1,r(e_i,a_i,i+1)]加入求解，并将记录[s(e_i),a_i,i+1,r(e_i,a_i,i+1),s(e_i+1)]存储于求解记忆 P，直到最后一个路径点e_k和终点e_D重合结束循环；计算成功从起点到终点的路径中每个起点位置e_i到终点的累积折减收益G(h_i:k)，并更新节点记忆N；使用梯度下降更新θ，以最小化[(q(e_i)-Q(s(e_i),θ))]²，输出贪婪策略a_i,i+1＝π(e_i)，得到所选择的一个路段，到达终点后，所有选择的路段组成的路径即与最短距离模式对应的路径。

在第二种可能的实现中，骑行模式为风景最优模式，通过约束深度强化学习算法确定出对骑行模式对应的目标路径，包括：根据骑行经验设定风景评分初始值g₀，待选路径集合W中包括所有路径点组成的路径点集E、有向路径集 A、每条待选路径的综合风景评分集g，用户的起点位置e_i为路径点集E中的第 i个路径点，将用户的起点位置e_i的状态特征表示为s(e_i)＝[x_i,y_i,x_D,y_D]，x_i表示起点的经度，y_i表示起点的纬度，x_D表示终点的经度，y_D表示终点的纬度；起点位置e_i到终点的骑行时间用Q(s(e_i))表示，将起点位置e_i的状态特征s(e_i)输入BP 神经网络得到起点到终点的骑行时间Q(s(e_i))；用户在待选路径集合G中所在路径点e_i+n∈E，e_i+n表示在起点位置e_i后的第n个路径点，与起点位置e_i相连接的所有路段a_i,j组成起点位置e_i的有向路径集A(e_i)；奖励函数r(e_i,a_i,i+1)表示用户在起点位置e_i选择路段a_i,i+1的骑行时间Q(s(e_i))；根据骑行经验执行贪婪策略π和环境交互得到由所在路径点、选择的相邻路段和骑行时间组成的求解： h_i:k＝e_i,a_i,i+1,r(e_i,a_i,i+1),e_i+1,a_i+1,i+2,...,e_k，e_k表示终点之前所经过的最后一个路口，即路径点集E中的第k个路径点；当完成一次求解，Q值发生更新，将求解中用户在起点位置e_i以及之后经过的每个路径点表示为[s(e_i),a_i,i+1,r(e_i,a_i,i+1),s(e_i+1)]存储于求解记忆P中；当每次完成成功求解时，计算成功求解中每个起点位置e_i到终点位置的累积折减收益G(h_i:k)；定义节点记忆 N＝{[s(e_i),q(e_i)|e_i∈E,q(e_i)＝minG(h_i:k)]}，二元组s(e_i)，q(e_i)存储起点位置e_i的状态特征和起点到终点的最短骑行时间；采用深度Q-learning算法，神经网路的训练通过最小化起点位置e_i到终点的最短骑行时间q(e_i)和起点位置ei到终点的骑行时间估计值Q(s(e_i))误差平方和，即其中θ为神经网络权重系数；采用ε贪婪策略，以ε概率选择当前最佳策略，1-ε概率随机选择策略，基于深度Q-learning算法，结合待选路径集合W，选择对应风景最优模式的路径，具体步骤包括：输入W＝(E,A,g)；初始化节点记忆N，循环执行初始化Q值及神经网络权重系数θ，嵌套循环1至k，在起点位置e_i用户满足交通规则时，采用ε贪婪策略选择和起点位置相连的路段a_i,i+1；将选择记录 [s(e_i),a_i,i+1,r(e_i,a_i,i+1)]加入求解，并将记录[s(e_i),a_i,i+1,r(e_i,a_i,i+1),s(e_i+1)]存储于求解记忆P，直到最后一个路径点e_k和终点e_D重合结束循环；计算成功从起点到终点的路径中每个起点位置e_i到终点的累积折减收益G(h_i:k)，并更新节点记忆N；使用梯度下降更新θ，以最小化输出贪婪策略a_i,i+1＝π(e_i)，得到所选择的一个路段，到达终点后，所有选择的路段组成的路径即与风景最优模式对应的路径。

示例性的，风景评分满分10分，根据骑行经验设定风景评分初始值为5。

在第三种可能的实现中，骑行模式为锻炼身体模式，通过约束深度强化学习算法确定出对骑行模式对应的目标路径，包括：设每条待选路径的最低点e_l海拔为Z_l，最高点e_h海拔为Z_h，海拔差最大值为z，待选路径集合W中包括所有路径点组成的路径点集E、有向路径集A、每条待选路径的最大海拔差集Z，用户的起点位置e_i为路径点集E中的第i个路径点，将用户的起点位置e_i的状态特征表示为s(e_i)＝[x_i,y_i,x_D,y_D]，x_i表示起点的经度，y_i表示起点的纬度，x_D表示终点的经度，y_D表示终点的纬度；起点位置e_i到终点的骑行时间用Q(s(e_i))表示，将起点位置e_i的状态特征s(e_i)输入BP神经网络得到起点到终点的骑行时间Q(s(e_i))；用户在待选路径集合G中所在路径点e_i+n∈E，e_i+n表示在起点位置e_i后的第n个路径点，与起点位置e_i相连接的所有路段a_i,j组成起点位置e_i的有向路径集A(e_i)；奖励函数r(e_i,a_i,i+1)表示用户在起点位置e_i选择路段a_i,i+1的骑行时间 Q(s(e_i))；根据骑行经验执行贪婪策略π和环境交互得到由所在路径点、选择的相邻路段和骑行时间组成的求解：h_i:k＝e_i,a_i,i+1,r(e_i,a_i,i+1),e_i+1,a_i+1,i+2,...,e_k，e_k表示终点之前所经过的最后一个路口，即路径点集E中的第k个路径点；当完成一次求解，Q值发生更新，将求解中用户在起点位置e_i以及之后经过的每个路径点表示为[s(e_i),a_i,i+1,r(e_i,a_i,i+1),s(e_i+1)]存储于求解记忆P中；当每次完成成功求解时，计算成功求解中每个起点位置e_i到终点位置的累积折减收益G(h_i:k)；定义节点记忆 N＝{[s(e_i),q(e_i)|e_i∈E,q(e_i)＝minG(h_i:k)]}，二元组s(e_i)，q(e_i)存储起点位置e_i的状态特征和起点到终点的最短骑行时间；采用深度Q-learning算法，神经网路的训练通过最小化起点位置e_i到终点的最短骑行时间q(e_i)和起点位置ei到终点的骑行时间估计值Q(s(e_i))误差平方和，即其中θ为神经网络权重系数；采用ε贪婪策略，以ε概率选择当前最佳策略，1-ε概率随机选择策略，基于深度Q-learning算法，结合待选路径集合W，选择对应锻炼身体模式的路径，具体步骤包括：输入W＝(E,A,Z)；初始化节点记忆N，循环执行初始化Q值及神经网络权重系数θ，嵌套循环1至k，在起点位置e_i用户满足交通规则时，采用ε贪婪策略选择和起点位置相连的路段a_i,i+1；将选择记录 [s(e_i),a_i,i+1,r(e_i,a_i,i+1)]加入求解，并将记录[s(e_i),a_i,i+1,r(e_i,a_i,i+1),s(e_i+1)]存储于求解记忆 P，直到最后一个路径点e_k和终点e_D重合结束循环；计算成功从起点到终点的路径中每个起点位置e_i到终点的累积折减收益G(h_i:k)，并更新节点记忆N；使用梯度下降更新θ，以最小化输出贪婪策略a_i,i+1＝π(e_i)，得到所选择的一个路段，到达终点后，所有选择的路段组成的路径即与锻炼身体模式对应的路径。

示例性的，如图3所示，其示出了采集预定区域内的路径点，假设用户确定起点和终点分别为医学院和三食堂，根据图3中的路径点和骑行经验依次生成图4所示的状态转换图，用户可以自行选择不同模式的最优路径。当起点选择为医学院，终点为三食堂时，CDRL算法根据骑行经验，在医学院选择下一个骑行地点，由此类推，直至到达三食堂，生成多条路径，用户根据自身需求选择适合的路径。

以上所述的仅是本发明的优先实施方式，本发明不限于以上实施例。可以理解，本领域技术人员在不脱离本发明的精神和构思的前提下直接导出或联想到的其他改进和变化，均应认为包含在本发明的保护范围之内。

Claims

1.一种限制性骑行路径规划装置，其特征在于，包括：主机电路和从机电路，所述主机电路和所述从机电路通过无线通信连接；所述主机电路包括主机控制器、定位接收器、记录设备，所述主机控制器分别与所述定位接收器和所述记录设备连接；所述从机电路包括从机控制器、交互输入设备、交互显示设备，所述从机控制器分别与所述交互输入设备和所述交互显示设备连接；

所述记录设备用于记录和存储位置数据；

所述交互输入设备用于输入骑行目的地；

所述交互显示设备用于显示用户的实时位置和骑行路径。

2.根据权利要求1所述的限制性骑行路径规划装置，其特征在于，所述主机控制器和所述从机控制器采用STM32F103VET6单片机，所述定位接收器是UBLOX-NEO-6M模组和STM32F103VET6上自带的AT24C02 EEPROM模块，其中，UBLOX-NEO-6M模组作为GPS信号分析处理模组，AT24C02存储GPS配置信息；所述记录设备采用Micro SD卡；所述交互输入设备采用按键模块；所述交互显示设备采用带ILI9341控制器的TFL液晶屏。

3.根据权利要求2所述的限制性骑行路径规划装置，其特征在于，所述主机电路还包括第一无线通信模块，所述第一无线通信模块与所述主机控制器连接，所述从机电路还包括第二无线通信模块，所述第二无线通信模块与所述从机控制器连接；所述第一无线通信模块和所述第二无线通信模块用于实现所述主机电路和所述从机电路之间的无线通信。

4.根据权利要求3所述的限制性骑行路径规划装置，其特征在于，所述第一无线通信模块和所述第二无线通信模块采用STM32F103VET6单片机上自带的ESP8266 WiFi模块。

5.一种限制性骑行路径规划方法，其特征在于，应用于权利要求1至4任一所述的限制性骑行路径规划装置中，所述方法包括：

6.根据权利要求5所述的限制性骑行路径规划方法，其特征在于，所述骑行模式为最短距离模式，所述通过约束深度强化学习算法确定出对骑行模式对应的目标路径，包括：

待选路径集合W中包括所有路径点组成的路径点集E和有向路径集A，用户的起点位置e_i为路径点集E中的第i个路径点，将用户的起点位置e_i的状态特征表示为s(e_i)＝[x_i,y_i,x_D,y_D]，x_i表示起点的经度，y_i表示起点的纬度，x_D表示终点的经度，y_D表示终点的纬度；起点位置e_i到终点的骑行时间用Q(s(e_i))表示，将起点位置e_i的状态特征s(e_i)输入BP神经网络得到起点到终点的骑行时间Q(s(e_i))；

用户在待选路径集合G中所在路径点e_i+n∈E，e_i+n表示在起点位置e_i后的第n个路径点，与起点位置e_i相连接的所有路段a_i,j组成起点位置e_i的有向路径集A(e_i)；奖励函数r(e_i,a_i,i+1)表示用户在起点位置e_i选择路段a_i,i+1的骑行时间Q(s(e_i))；根据骑行经验执行贪婪策略π和环境交互得到由所在路径点、选择的相邻路段和骑行时间组成的求解：h_i:k＝e_i,a_i,i+1,r(e_i,a_i,i+1),e_i+1,a_i+1,i+2,...,e_k，e_k表示终点之前所经过的最后一个路口，即路径点集E中的第k个路径点；

当完成一次求解，Q值发生更新，将求解中用户在起点位置e_i以及之后经过的每个路径点表示为[s(e_i),a_i,i+1,r(e_i,a_i,i+1),s(e_i+1)]存储于求解记忆P中；当每次完成成功求解时，计算成功求解中每个起点位置e_i到终点位置的累积折减收益G(h_i:k)；定义节点记忆N＝{[s(e_i),q(e_i)|e_i∈E,q(e_i)＝minG(h_i:k)]}，二元组s(e_i)，q(e_i)存储起点位置e_i的状态特征和起点到终点的最短骑行时间；

输入W＝(E,A)；

将选择记录[s(e_i),a_i,i+1,r(e_i,a_i,i+1)]加入求解，并将记录[s(e_i),a_i,i+1,r(e_i,a_i,i+1),s(e_i+1)]存储于求解记忆P，直到最后一个路径点e_k和终点e_D重合结束循环；

使用梯度下降更新θ，以最小化[(q(e_i)-Q(s(e_i),θ))]²，输出贪婪策略a_i,i+1＝π(e_i)，得到所选择的一个路段，到达终点后，所有选择的路段组成的路径即与最短距离模式对应的路径。

7.根据权利要求5所述的限制性骑行路径规划方法，其特征在于，所述骑行模式为风景最优模式，所述通过约束深度强化学习算法确定出对骑行模式对应的目标路径，包括：

根据骑行经验设定风景评分初始值g₀，待选路径集合W中包括所有路径点组成的路径点集E、有向路径集A、每条待选路径的综合风景评分集g，用户的起点位置e_i为路径点集E中的第i个路径点，将用户的起点位置e_i的状态特征表示为s(e_i)＝[x_i,y_i,x_D,y_D]，x_i表示起点的经度，y_i表示起点的纬度，x_D表示终点的经度，y_D表示终点的纬度；起点位置e_i到终点的骑行时间用Q(s(e_i))表示，将起点位置e_i的状态特征s(e_i)输入BP神经网络得到起点到终点的骑行时间Q(s(e_i))；

输入W＝(E,A,g)；

8.根据权利要求5所述的限制性骑行路径规划方法，其特征在于，所述骑行模式为锻炼身体模式，所述通过约束深度强化学习算法确定出对骑行模式对应的目标路径，包括：

设每条待选路径的最低点e_l海拔为Z_l，最高点e_h海拔为Z_h，海拔差最大值为z，待选路径集合W中包括所有路径点组成的路径点集E、有向路径集A、每条待选路径的最大海拔差集Z，用户的起点位置e_i为路径点集E中的第i个路径点，将用户的起点位置e_i的状态特征表示为s(e_i)＝[x_i,y_i,x_D,y_D]，x_i表示起点的经度，y_i表示起点的纬度，x_D表示终点的经度，y_D表示终点的纬度；起点位置e_i到终点的骑行时间用Q(s(e_i))表示，将起点位置e_i的状态特征s(e_i)输入BP神经网络得到起点到终点的骑行时间Q(s(e_i))；

输入W＝(E,A,Z)；