CN115826013A

CN115826013A - 基于轻量化强化学习的城市多径环境下北斗卫星定位方法

Info

Publication number: CN115826013A
Application number: CN202310115785.6A
Authority: CN
Inventors: 唐健浩; 李珍妮; 马垣德; 郑咏雯; 王千明; 谢胜利
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2023-02-15
Filing date: 2023-02-15
Publication date: 2023-03-21
Anticipated expiration: 2043-02-15
Also published as: CN115826013B

Abstract

本发明涉及一种基于轻量化强化学习的城市多径环境下北斗卫星定位方法。具体包括以下步骤：引入部分可观测马尔可夫决策过程建立环境交互模型；构建包括一个主智能体及多个子智能体的模型框架，得到高性能主智能体作为深度强化学习教师模型；对教师模型策略剪枝，得到稀疏化学生模型，测量冗余度后对稀疏化学生模型进行重构并重新训练，得到高性能学生轻量化模型；将高性能学生轻量化模型部署在车载定位设备上，实时定位校正卫星参数并获取校正后的定位信息；将校正后的定位信息按照时间序列输出到真实路面；本发明能够实现对城市复杂环境的动态学习，并能够设置于车载定位设备上，大幅提升车载动态变化定位精度。

Description

基于轻量化强化学习的城市多径环境下北斗卫星定位方法

技术领域

本发明涉及卫星定位技术领域，尤其涉及一种基于轻量化强化学习的城市多径环境下北斗卫星定位方法。

背景技术

精准卫星导航定位技术是智能网联汽车的核心技术之一，在当前的车载定位和导航功能已经普遍应用，现有的全球卫星导航系统（GNSS）能得到车辆所处的经纬度信息和当前的姿态信息，能够准确反映出车辆在地球坐标系中的绝对位置。

目前高精度车规级定位技术在宽广开阔路面的定位精度已经能达到分米及甚至厘米级，但是在城市峡谷环境、立体高架桥、城市森林等复杂环境下，由于全球卫星信号被遮挡、建筑物反射等引起的多径效应，使得卫星定位发生十几米的偏移，不能满足车道级导航的精度要求。

斯坦福团队在导航领域顶级2021GNSS+会议和2022GNSS+会议上首次提出一种静态学习模型——深度神经网络的定位校正模型，但静态学习模型普遍存在需要依赖于初始位置信息的传统缺陷，难以适应在城市的复杂环境中，车载动态变化定位的校正。

发明内容

本发明提供一种基于轻量化强化学习的城市多径环境下北斗卫星定位方法，用于解决车载动态变化定位精度低的问题。

本发明提供一种基于轻量化强化学习的城市多径环境下北斗卫星定位方法，具体包括以下步骤：

X1：引入部分可观测马尔可夫决策过程建立环境交互模型，通过将过往预测信息作为置信状态，定义相应的动作空间

，观测状态空间

，信念状态空间

，奖励函数

，其中：

动作空间

；

式中：

为校正动作参数，m为纬度校正步长，n为经度校正步长；

通过所述环境交互模型的控制策略输出相应的定位校正动作，对定位设备播报的定位信息进行校正，动作空间定义为标量矩阵；

观测状态空间

；

式中：

为t-N-1时刻的定位预测校正信息，

为t-1时刻的定位预测校正信息，

为t时刻的所述定位设备播报的定位信息；

信念状态空间

；

通过与观测状态空间的定位信息对比，在所述环境交互模型的定位信息做出预测校正后，利用当前的预测校正定位信息

来替换

，更新信念状态空间；

奖励函数

；

式中：

为状态值，

为校正动作参数；

所述奖励函数定义为环境交互模型校正的定位信息与实际地图匹配定位信息的欧几里得距离；

X2：使用异步优势策略价值A3C算法，构建包括一个主智能体及多个子智能体的模型框架，通过每个所述子智能体并行探索环境信息后，对每个所述子智能体探索的环境信息的权值参数求解得到梯度信息上传至所述主智能体，通过所述梯度信息异步更新所述主智能体参数，并不断迭代探索过程和异步更新过程，进而得到高性能主智能体作为深度强化学习教师模型；

X3：通过策略剪枝方法对所述深度强化学习教师模型进行修剪，得到稀疏化学生模型，测量所述稀疏化学生模型的冗余度后对所述稀疏化学生模型进行重构，并重新训练重构后的所述稀疏化学生模型，进而获得高性能学生轻量化模型；

X4：获取北斗卫星定位参数，将所述高性能学生轻量化模型部署在车载定位设备上，对所述北斗卫星定位参数实时定位校正，得到校正后的定位信息；

X5：将所述校正后的定位信息按照时间序列依次输出到真实的路面上。

具体的，所述主智能体和所述子智能体均包括：策略网络与价值网络；

所述策略网络用于更新主智能体和所述子智能体的动作策略，通过寻找一个最优动作策略来最大化期望回报值

；

所述智能体的价值网络用来评价动作策略的优劣，通过输出状态价值为策略网络提供反馈。

具体的，步骤X2中，所述通过每个所述子智能体并行探索环境信息后，对每个所述子智能体探索的环境信息的权值参数求解得到梯度信息上传至所述主智能体，具体为：

引入部分可观测的马尔科夫决策过程，将历史定位观测值作为置信状态，通过每个所述子智能体并行与环境交互得到滑动窗口观测缓冲区，每当定位设备播报一个新的定位观测值时，将所述新的定位观测值与所述历史定位观测值加入子智能体进行一次训练并将滑动窗口移动到下一个观察缓冲区，直至所述子智能体训练结束，得到定位纬度与经度的原始特征参数；

对定位纬度与经度的原始特征参数进行归一化处理，减小所述原始特征参数之间的数量级，将所述原始特征参数转换成取值范围在[0,1]之间的归一化特征参数；

将归一化的特征参数的定位观测值输入到子智能体的价值网络中，通过折扣率、

时刻的奖励值、以及n步价值估计函数构建时序差分误差，并通过t时刻的信念状态值、一段时间内子智能体与环境交互得到的折扣奖励、以及真实的价值函数构建优势函数；

通过所述时序差分误差和子智能体个数得到多个子智能体的价值网络的总目标函数；

通过所述优势函数和所述策略网络输出的策略构建包括多个子智能体的策略网络的总目标函数；

根据多个子智能体的价值网络的总目标函数和策略网络的总目标函数，使用随机梯度算法来计算价值网络和策略网络的权值参数的梯度信息，并上传到主智能体更新模型参数。

具体的，步骤X2中，所述通过梯度信息异步更新主智能体参数，具体为：

通过随机梯度下降迭代更新主智能体的价值网络的权值参数矩阵，并通过随机梯度上升迭代更新主智能体策略网络的权值参数矩阵。

具体的，步骤X2中，所述不断迭代探索过程和异步更新过程，具体为：

所述子智能体通过异步并行的方式与环境不断交互，利用并行计算资源积累经验参数，加速所述主智能体通过异步更新模型参数的训练迭代过程，直至所述主智能体训练收敛。

具体的，步骤X3中，所述通过策略剪枝方法对所述深度强化学习教师模型进行修剪，得到稀疏化学生模型，具体为：

对策略网络中每一个要修剪的网络层，均添加一个大小和形状与对应所述网络层的权值张量相同的二进制掩码向量；

按照对应所述网络层权值的绝对值大小对所述权值进行排序，并将最小的权值屏蔽置零，直到达到期望的稀疏度，以确定这个二进制掩码向量的每一元素；

如果某一权值被屏蔽置零，则其对应的二进制掩码向量中的元素为0，否则为1，通过二进制掩码向量确定网络层中参与前向传播和后向传播的权值；

根据所述网络层中参与前向传播和后向传播的权值从初始时刻迭代修剪所述策略网络以及所述价值网络，直至网络稀疏度达到最终稀疏值。

具体的，为了恢复稀疏化学生模型损失的性能，每对策略网络和价值网络进行N次裁剪，便对所述稀疏化学生模型进行评估，如果评估信息低于预设阈值，便使用知识蒸馏对所述稀疏化学生模型进行性能恢复训练，以恢复所述稀疏化学生模型的性能。

具体的，所述使用知识蒸馏对所述稀疏化学生模型进行性能恢复训练，具体为：

定义所述教师模型状态价值的经验回放对，用于存储教师模型的状态价值信息；

定义所述学生模型的状态价值作为学生模型的状态值，用于存储学生模型的状态价值信息；

通过调整所述学生模型中策略网络的权值参数矩阵，使得所述学生模型的状态价值接近所述教师模型的状态价值。

具体的，步骤X3中，所述测量所述稀疏化学生模型的冗余度后对所述稀疏化学生模型进行重构，并重新训练重构后的所述稀疏化学生模型，进而获得高性能学生轻量化模型，具体为：

通过测量所述稀疏化学生模型中策略网络每层的非零参数数量，确定每层的冗余度；

根据每层的冗余度重构小规模的稀疏化学生模型的策略网络和价值网络；

通过知识蒸馏方法构建KL散度目标函数来完成所述稀疏化学生模型的性能恢复训练；

将重构后的学生模型的策略网络和价值网络的大小与重构前的大小进行比较；

判断比较后的差异是否小于预设的阈值；如果小于预设的阈值，则输出得到小而紧凑的高性能学生轻量化模型；如果未小于定义阈值，则重复步骤X3和X4，从而得到高性能学生轻量化模型。

具体的，步骤X4中，所述获取北斗卫星定位参数，将所述高性能学生轻量化模型部署在车载定位设备上，对所述北斗卫星定位参数实时定位校正，得到校正后的定位信息，具体为：

通过北斗卫星定位设备获取卫星定位参数；

对获取的所述卫星定位参数进行归一化处理，减小所述卫星定位参数之间的数量级；

将归一化处理后的定位信息输入所述高性能学生轻量化模型的策略网络，通过所述高性能学生轻量化模型的策略网络，从校正动作中选取最优校正动作对处理后的定位信息进行校正，得到校正后的定位信息。

本发明的有益效果在于，本发明提供一种基于轻量化强化学习的城市多径环境下北斗卫星定位方法，具体包括以下步骤：X1：引入部分可观测马尔可夫决策过程建立环境交互模型，通过将过往预测信息作为置信状态，定义相应的动作空间

，观测状态空间

，信念状态空间

，奖励函数

，其中：动作空间

；式中：

为校正动作参数，m为纬度校正步长，n为经度校正步长；通过所述环境交互模型的控制策略输出相应的定位校正动作，对定位设备播报的定位信息进行校正，动作空间定义为标量矩阵；观测状态空间

；式中：

为t-N-1时刻的定位预测校正信息，

为t-1时刻的定位预测校正信息，

为t时刻的所述定位设备播报的定位信息；信念状态空间

；通过与观测状态空间的定位信息对比，在所述环境交互模型的定位信息做出预测校正后，利用当前的预测校正定位信息

来替换

，更新信念状态空间；奖励函数

；式中：

为状态值，

为校正动作参数；所述奖励函数定义为环境交互模型校正的定位信息与实际地图匹配定位信息的欧几里得距离；X2：使用异步优势策略价值A3C算法，构建包括一个主智能体及多个子智能体的模型框架，通过每个所述子智能体并行探索环境信息后，对每个所述子智能体探索的环境信息的权值参数求解得到梯度信息上传至所述主智能体，通过所述梯度信息异步更新所述主智能体参数，并不断迭代探索过程和异步更新过程，进而得到高性能主智能体作为深度强化学习教师模型；X3：通过策略剪枝方法对所述深度强化学习教师模型进行修剪，得到稀疏化学生模型，测量所述稀疏化学生模型的冗余度后对所述稀疏化学生模型进行重构，并重新训练重构后的所述稀疏化学生模型，进而获得高性能学生轻量化模型；X4：获取北斗卫星定位参数，将所述高性能学生轻量化模型部署在车载定位设备上，对所述北斗卫星定位参数实时定位校正，得到校正后的定位信息；X5：将所述校正后的定位信息按照时间序列依次输出到真实的路面上。

本发明提供的一种基于轻量化强化学习的城市多径环境下北斗卫星定位方法，能够通过部分可观测马尔可夫决策过程建立环境交互模型，将过往智能体的预测信息作为置信状态，定义相应的动作空间

，观测空间

，信念状态空间

，奖励函数

；并通过构建一主多从的智能体模型框架，通过多个子智能体并行快速学习环境信息，上传至主智能体进行异步更新得到深度强化学习教师模型，实现对城市复杂环境的动态学习，有效缩短同步环境信息所使用的时间；再通过策略剪枝的方式将教师模型进一步轻量化、紧凑化得到学生模型，使其能够设置于车载定位设备，进而大幅提升车载动态变化定位精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为基于轻量化强化学习的城市多径环境下北斗卫星定位方法流程图；

图2为一主多从异步并行深度强化学习模型示意图；

图3为深度强化学习教师模型以及学生模型训练流程图。

具体实施方式

下面将结合本发明中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1~图3所示，本发明提出一种基于轻量化强化学习的城市多径环境下北斗卫星定位方法，具体包括以下步骤：

X1：引入部分可观测马尔可夫决策过程建立环境交互模型，通过将过往预测信息作为置信状态，且上一时刻的置信状态的时序信号可以决定下一个状态，定义相应的动作空间

，观测状态空间

，信念状态空间

，奖励函数

，其中：

动作空间

；

式中：

为校正动作参数，m为纬度校正步长，n为经度校正步长；

模型的控制策略需要输出相应的定位校正动作，而所校正的对象是定位设备播报的定位信息，因此动作空间可以定义为一个标量矩阵

；

需要说明的是，m和n的取值范围均为{-10,-9,…,0,…,9,10}，即总共21²=441个校正步长；

观测状态空间

；

式中：

为t-N-1时刻的定位预测校正信息，

为t-1时刻的定位预测校正信息，

为t时刻的所述定位设备播报的定位信息；

可以理解的是，为了创建固定时间长度的时间序列，起始时刻可以为任意时刻，这里固定序列长度起始时刻设置为t-N-1时刻；

信念状态空间

；

来替换

，更新信念状态空间；

奖励函数

；

式中：

为状态值；

通过模型校正的定位信息与地图匹配定位信息的欧几里得距离来定义奖励函数，即模型校正的定位信息与地图匹配信息之间差值平方误差和的负数，具体公式如下：

；

；

式中：T为车辆行驶整条路线的总时间，

是奖励缩放因子，

为奖励折扣因子，

为

时刻模型校正的定位信息

与实际地图匹配的定位信息

的欧几里得距离的负数；

可以理解的是，由于在车辆行驶过程中，模型在不同

时刻校正的定位信息具有时序性，需要按照时间序列将整条路线的定位的奖励进行累积，模型通过最大化奖励函数以寻求最优的校正策略；

X2：使用异步优势策略价值A3C算法，构建包括一个主智能体及多个子智能体的模型框架，通过每个子智能体并行探索环境信息后，对每个子智能体探索的环境信息的权值参数求解得到梯度信息上传至主智能体，通过梯度信息异步更新主智能体参数，并不断迭代探索过程和异步更新过程，进而得到高性能主智能体作为深度强化学习教师模型；

X3：通过策略剪枝方法对深度强化学习教师模型进行修剪，得到稀疏化学生模型，测量稀疏化学生模型的冗余度后对稀疏化学生模型进行重构，并重新训练重构后的稀疏化学生模型获得高性能学生轻量化模型；

X4：获取北斗卫星定位参数，将高性能学生轻量化模型部署在车载定位设备上，对北斗卫星定位参数实时定位校正，得到校正后的定位信息；

X5：将校正后的定位信息按照时间序列依次输出到真实的路面上。

在本发明的另一个具体的实施例中，主智能体和子智能体均包括策略网络与价值网络；

智策略网络用于更新主智能体和子智能体的动作策略，通过寻找一个最优动作策略

来最大化期望回报值

；

其中，

表示主智能体策略网络的权值参数矩阵；

智能体的价值网络用来评价输出动作策略的优劣，通过输出状态价值

为策略网络提供反馈；

其中，

表示主智能体的价值网络。

需要说明的是，由于深度强化学习策略网络输入层的神经元个数应该与输入状态的纬度相同，输出层的神经元个数应该与校正量的纬度相同；因此，子智能体的策略网络输入层的神经元个数为100，输出神经元个数为441；子智能体的价值网络输入层神经元个数为100，输出神经元的个数为1；

由于主智能体与子智能体具有相同的网络结构，因此主智能体的策略网络结构、价值网络结构以及网络结构对应的神经元数量与子智能体保持一致。

在本发明的另一个具体的实施例中，步骤X2中，通过每个子智能体并行探索环境信息后，对每个子智能体探索的环境信息的权值参数求解得到梯度信息上传至主智能体，具体为：

引入部分可观测的马尔科夫决策过程，将历史定位观测值作为置信状态，通过每个子智能体并行与环境交互得到滑动窗口观测缓冲区，每当定位设备播报一个新的定位观测值时，将新的定位观测值与历史定位观测值加入子智能体进行一次训练并将滑动窗口移动到下一个观察缓冲区，直至子智能体训练结束，得到定位纬度与经度的原始特征参数。

在具体实施过程中，定位将接收到一个新的定位观测值

发送给子智能体，滑动窗口向前移动一步形成一个具有恒定大小N的新的滑动窗口观测缓冲区

，其中信念状态有N-1个，由

构成

的其余部分，

为最后一个元素；当接受机设备播报一个新定位观测值

时，即输入状态包含接受机设备播报的定位观测值和一系列历史定位观测值，子智能体会立即训练并将滑动窗口移动到下一个观察缓冲区，这个过程不断循环直到子智能体训练结束；

需要说明的是，时间序列长度N可以取任意值，这里我们取值与智能体的数量相同。

对定位纬度与经度的原始特征参数进行归一化处理，将原始特征参数转换成取值范围在[0,1]之间的归一化特征参数，公式如下：

；

；

式中：

为归一化后的纬度特征参数，

为归一化后的经度特征参数，

为原始纬度特征参数，

为原始经度特征参数；

可以理解的是，为了减小因输入的特征参数间数量级差别较大，引起子智能体通过损失函数计算梯度的方向偏离最小值的方向，需要对输入的特征参数作归一化处理；

将归一化特征参数的定位观测值

输入到子智能体的价值网络中，通过

步的价值估计函数与真实的价值函数构建时序差分误差（TD-error）

与优势函数

，公式如下：

；

；

式中：

表示折扣率，

表示为信念状态值，

表示为

时刻的信念状态值，

表示为

时刻的奖励值，

为在一段T时间内子智能体与环境交互得到的折扣奖励，

为在t=0时刻子智能体的价值网络输出的价值估计函数，

为在

=

时刻子智能体的价值网络输出的价值估计函数；

对于多个子智能体的价值网络的总目标函数

为：

；

；

式中：

表示折扣率，N为子智能体的个数；

构建策略网络的总目标函数如下：

；

式中：E表示求期望；

对于子智能体的策略网络来说，策略网络目标是输出策略

不断逼近最优策略；

使用随机梯度算法来计算价值网络和策略网络的权值参数的梯度信息

，并上传到主智能体更新模型参数，其中

为策略网络的梯度信息，

为价值网络的梯度信息。

在本发明的另一个更具体的实施例中，衰减因子

一般取值为0.9。

在本发明的另一个具体的实施例中，步骤X2中，通过梯度信息异步更新主智能体参数具体为：

通过随机梯度下降迭代更新主智能体的价值网络的权值参数矩阵

，并通过随机梯度上升迭代更新策略网络的权值参数矩阵

，公式如下：

；

；

其中，

表示价值网络的学习率，

表示策略网络的学习率，k表示子智能体在第k次迭代过程上传梯度信息给主智能体。

表示子智能体在第k次迭代过程上传梯度信息

给主智能体。

表示子智能体在第k次迭代过程上传梯度信息

给主智能体。

在本发明的另一个具体的实施例中，步骤X2中，不断迭代探索过程和异步更新过程，具体为：

子智能体通过异步并行的方式与环境不断交互，有效利用并行计算资源在短时间内积累到大量经验参数，加速主智能体通过异步更新模型参数的训练迭代过程，直至主智能体训练收敛，输出稳定精确的定位信息。

在本发明的另一个具体的实施例中，步骤X3中，通过策略剪枝方法对深度强化学习教师模型进行修剪，得到稀疏化学生模型，具体为：

对策略网络中每一个要修剪的网络层，均添加一个大小和形状与对应网络层的权值张量相同的二进制掩码向量；

按照对应网络层权值的绝对值大小对权值进行排序，并将最小的权值屏蔽置零，直到达到期望的稀疏度，以确定这个二进制掩码向量的每一元素；

如果某一权值被屏蔽置零，则其对应的二进制掩码向量中的元素为0，否则为1，通过二进制掩码向量确定网络层中参与前向传播和后向传播的权值参数是否为0；

从初始时刻修剪策略网络以及价值网络，网络稀疏度从初始稀疏值

（通常为0）逐步增加到最终稀疏值

，具体目标函数如下：

；

其中，

表示初始稀疏度，

表示策略网络或者价值网络的当前稀疏度，

表示当前时刻，

表示初始时刻，

表示剪枝频率；

需要说明的是，网络训练和剪枝操作是交替进行的，即每执行一次剪枝操作，都会进行

次的网络训练让网络从剪枝操作引起的精度损失中恢复过来。

在另一个更具体的实施例中，为了恢复稀疏化学生模型损失的性能，每对策略网络和价值网络进行N次裁剪，便对稀疏化学生模型进行评估，如果其性能低于预先设定的阈值，便使用知识蒸馏对稀疏化学生模型进行性能恢复训练，以恢复稀疏化学生模型的性能。

在另一个更具体的实施例中，使用知识蒸馏对稀疏化学生模型进行性能恢复训练，具体为：

定义

为教师模型的状态价值经验回放对，用于存储教师模型的状态价值信息；

定义

为学生模型的状态价值作为学生模型的状态值，用于存储学生模型的状态价值信息；

通过优化目标函数

调整学生模型中策略网络的权值参数矩阵

，以使得学生模型的状态价值

接近教师模型的状态价值

，公式如下：

；

其中，

表示softmax函数的温度；

可以理解的是，当

>1时，softmax后的值分布的更加均匀平缓，所以需要采取一个数值较大的

，

∈[2，5]，使教师模型的状态价值更加毕竟真实的状态价值。

在本发明的一个具体的实施例中，步骤X3中，测量稀疏化学生模型的冗余度后对稀疏化学生模型进行重构，并重新训练重构后的稀疏化学生模型获得高性能学生轻量化模型，具体为：

通过测量稀疏化学生模型中策略网络每一层的非零参数数量，确定每层的冗余度；

根据冗余度重构一个小规模的策略网络和价值网络；

为了使学生模型输出的状态价值不断向教师模型输出的状态价值靠拢，可以借鉴教师模型的经验，通过知识蒸馏方法构建KL散度目标函数来完成稀疏化学生模型的性能恢复训练；

判断差异是否小于预设的阈值；如果小于预设的阈值，则输出得到小而紧凑的高性能学生轻量化模型；如果未小于定义阈值，则重复步骤X4,从而得到一个小而紧凑高性能学生轻量化模型。

在本发明的另一个具体的实施例中，步骤X4中，将高性能学生轻量化模型部署在车载定位设备上，对北斗卫星定位参数实时定位校正，得到校正后的定位信息，具体为：

通过北斗卫星定位设备获取定位参数

；

将获取的所述卫星定位参数进行归一化处理，减小因输入的特征参数间数量级差别较大，而导致的深度强化学习模型预测出现的偏差；

将处理后的定位信息

输入高性能学生轻量化模型的策略网络，策略网络经过输入的定位信息通过策略

从441个校正动作中选择一个最优校正动作

对定位信息

进行校正，得到校正后的定位信息。

在本发明的另一个具体的实施例中，将校正后的定位信息输入高性能学生轻量化模型的价值网络，通过高性能学生轻量化模型的价值网络输出策略π的状态值

来评价当前策略网络选取的校正动作的优劣，当评价为优时输出选取动作，当评价为劣时通过高性能学生轻量化模型的重新选取最优动作对归一化后的定位信息进行校正并进行重新评价。

本申请的说明书中的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个（项）”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项（个）或复数项（个）的任意组合。例如，a，b或c中的至少一项（个），可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

Claims

1.一种基于轻量化强化学习的城市多径环境下北斗卫星定位方法，其特征在于，具体包括以下步骤：

，观测状态空间

，信念状态空间

，奖励函数

，其中：

动作空间

；

式中：

为校正动作参数，m为纬度校正步长，n为经度校正步长；

观测状态空间

；

式中：

为t-N-1时刻的定位预测校正信息，

为t-1时刻的定位预测校正信息，

为t时刻的所述定位设备播报的定位信息；

信念状态空间

；

来替换

，更新信念状态空间；

奖励函数

；

式中：

为状态值，

为校正动作参数；

2.根据权利要求1所述的基于轻量化强化学习的城市多径环境下北斗卫星定位方法，其特征在于，所述主智能体和所述子智能体均包括：策略网络与价值网络；

；

3.根据权利要求2所述的基于轻量化强化学习的城市多径环境下北斗卫星定位方法，其特征在于，步骤X2中，所述通过每个所述子智能体并行探索环境信息后，对每个所述子智能体探索的环境信息的权值参数求解得到梯度信息上传至所述主智能体，具体为：

4.根据权利要求2所述的基于轻量化强化学习的城市多径环境下北斗卫星定位方法，其特征在于，步骤X2中，所述通过所述梯度信息异步更新所述主智能体参数，具体为：

5.根据权利要求2所述的基于轻量化强化学习的城市多径环境下北斗卫星定位方法，其特征在于，步骤X2中，所述不断迭代探索过程和异步更新过程，具体为：

6.根据权利要求2所述的基于轻量化强化学习的城市多径环境下北斗卫星定位方法，其特征在于，步骤X3中，所述通过策略剪枝方法对所述深度强化学习教师模型进行修剪，得到稀疏化学生模型，具体为：

7.根据权利要求6所述的基于轻量化强化学习的城市多径环境下北斗卫星定位方法，其特征在于，为了恢复稀疏化学生模型损失的性能，每对策略网络和价值网络进行N次裁剪，便对所述稀疏化学生模型进行评估，如果评估信息低于预设阈值，便使用知识蒸馏对所述稀疏化学生模型进行性能恢复训练，以恢复所述稀疏化学生模型的性能。

8.根据权利要求7所述的基于轻量化强化学习的城市多径环境下北斗卫星定位方法，其特征在于，所述使用知识蒸馏对所述稀疏化学生模型进行性能恢复训练，具体为：

9.根据权利要求2所述的基于轻量化强化学习的城市多径环境下北斗卫星定位方法，其特征在于，步骤X3中，所述测量所述稀疏化学生模型的冗余度后对所述稀疏化学生模型进行重构，并重新训练重构后的所述稀疏化学生模型，进而获得高性能学生轻量化模型，具体为：

10.根据权利要求2所述的基于轻量化强化学习的城市多径环境下北斗卫星定位方法，其特征在于，步骤X4中，所述获取北斗卫星定位参数，将所述高性能学生轻量化模型部署在车载定位设备上，对所述北斗卫星定位参数实时定位校正，得到校正后的定位信息，具体为：

通过北斗卫星定位设备获取卫星定位参数；