CN115826013A - 基于轻量化强化学习的城市多径环境下北斗卫星定位方法 - Google Patents
基于轻量化强化学习的城市多径环境下北斗卫星定位方法 Download PDFInfo
- Publication number
- CN115826013A CN115826013A CN202310115785.6A CN202310115785A CN115826013A CN 115826013 A CN115826013 A CN 115826013A CN 202310115785 A CN202310115785 A CN 202310115785A CN 115826013 A CN115826013 A CN 115826013A
- Authority
- CN
- China
- Prior art keywords
- model
- positioning
- value
- network
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Position Fixing By Use Of Radio Waves (AREA)
Abstract
本发明涉及一种基于轻量化强化学习的城市多径环境下北斗卫星定位方法。具体包括以下步骤:引入部分可观测马尔可夫决策过程建立环境交互模型;构建包括一个主智能体及多个子智能体的模型框架,得到高性能主智能体作为深度强化学习教师模型;对教师模型策略剪枝,得到稀疏化学生模型,测量冗余度后对稀疏化学生模型进行重构并重新训练,得到高性能学生轻量化模型;将高性能学生轻量化模型部署在车载定位设备上,实时定位校正卫星参数并获取校正后的定位信息;将校正后的定位信息按照时间序列输出到真实路面;本发明能够实现对城市复杂环境的动态学习,并能够设置于车载定位设备上,大幅提升车载动态变化定位精度。
Description
技术领域
本发明涉及卫星定位技术领域,尤其涉及一种基于轻量化强化学习的城市多径环境下北斗卫星定位方法。
背景技术
精准卫星导航定位技术是智能网联汽车的核心技术之一,在当前的车载定位和导航功能已经普遍应用,现有的全球卫星导航系统(GNSS)能得到车辆所处的经纬度信息和当前的姿态信息,能够准确反映出车辆在地球坐标系中的绝对位置。
目前高精度车规级定位技术在宽广开阔路面的定位精度已经能达到分米及甚至厘米级,但是在城市峡谷环境、立体高架桥、城市森林等复杂环境下,由于全球卫星信号被遮挡、建筑物反射等引起的多径效应,使得卫星定位发生十几米的偏移,不能满足车道级导航的精度要求。
斯坦福团队在导航领域顶级2021GNSS+会议和2022GNSS+会议上首次提出一种静态学习模型——深度神经网络的定位校正模型,但静态学习模型普遍存在需要依赖于初始位置信息的传统缺陷,难以适应在城市的复杂环境中,车载动态变化定位的校正。
发明内容
本发明提供一种基于轻量化强化学习的城市多径环境下北斗卫星定位方法,用于解决车载动态变化定位精度低的问题。
本发明提供一种基于轻量化强化学习的城市多径环境下北斗卫星定位方法,具体包括以下步骤:
通过所述环境交互模型的控制策略输出相应的定位校正动作,对定位设备播报的定位信息进行校正,动作空间定义为标量矩阵;
所述奖励函数定义为环境交互模型校正的定位信息与实际地图匹配定位信息的欧几里得距离;
X2:使用异步优势策略价值A3C算法,构建包括一个主智能体及多个子智能体的模型框架,通过每个所述子智能体并行探索环境信息后,对每个所述子智能体探索的环境信息的权值参数求解得到梯度信息上传至所述主智能体,通过所述梯度信息异步更新所述主智能体参数,并不断迭代探索过程和异步更新过程,进而得到高性能主智能体作为深度强化学习教师模型;
X3:通过策略剪枝方法对所述深度强化学习教师模型进行修剪,得到稀疏化学生模型,测量所述稀疏化学生模型的冗余度后对所述稀疏化学生模型进行重构,并重新训练重构后的所述稀疏化学生模型,进而获得高性能学生轻量化模型;
X4:获取北斗卫星定位参数,将所述高性能学生轻量化模型部署在车载定位设备上,对所述北斗卫星定位参数实时定位校正,得到校正后的定位信息;
X5:将所述校正后的定位信息按照时间序列依次输出到真实的路面上。
具体的,所述主智能体和所述子智能体均包括:策略网络与价值网络;
所述智能体的价值网络用来评价动作策略的优劣,通过输出状态价值为策略网络提供反馈。
具体的,步骤X2中,所述通过每个所述子智能体并行探索环境信息后,对每个所述子智能体探索的环境信息的权值参数求解得到梯度信息上传至所述主智能体,具体为:
引入部分可观测的马尔科夫决策过程,将历史定位观测值作为置信状态,通过每个所述子智能体并行与环境交互得到滑动窗口观测缓冲区,每当定位设备播报一个新的定位观测值时,将所述新的定位观测值与所述历史定位观测值加入子智能体进行一次训练并将滑动窗口移动到下一个观察缓冲区,直至所述子智能体训练结束,得到定位纬度与经度的原始特征参数;
对定位纬度与经度的原始特征参数进行归一化处理,减小所述原始特征参数之间的数量级,将所述原始特征参数转换成取值范围在[0,1]之间的归一化特征参数;
将归一化的特征参数的定位观测值输入到子智能体的价值网络中,通过折扣率、时刻的奖励值、以及n步价值估计函数构建时序差分误差,并通过t时刻的信念状态值、一段时间内子智能体与环境交互得到的折扣奖励、以及真实的价值函数构建优势函数;
通过所述时序差分误差和子智能体个数得到多个子智能体的价值网络的总目标函数;
通过所述优势函数和所述策略网络输出的策略构建包括多个子智能体的策略网络的总目标函数;
根据多个子智能体的价值网络的总目标函数和策略网络的总目标函数,使用随机梯度算法来计算价值网络和策略网络的权值参数的梯度信息,并上传到主智能体更新模型参数。
具体的,步骤X2中,所述通过梯度信息异步更新主智能体参数,具体为:
通过随机梯度下降迭代更新主智能体的价值网络的权值参数矩阵,并通过随机梯度上升迭代更新主智能体策略网络的权值参数矩阵。
具体的,步骤X2中,所述不断迭代探索过程和异步更新过程,具体为:
所述子智能体通过异步并行的方式与环境不断交互,利用并行计算资源积累经验参数,加速所述主智能体通过异步更新模型参数的训练迭代过程,直至所述主智能体训练收敛。
具体的,步骤X3中,所述通过策略剪枝方法对所述深度强化学习教师模型进行修剪,得到稀疏化学生模型,具体为:
对策略网络中每一个要修剪的网络层,均添加一个大小和形状与对应所述网络层的权值张量相同的二进制掩码向量;
按照对应所述网络层权值的绝对值大小对所述权值进行排序,并将最小的权值屏蔽置零,直到达到期望的稀疏度,以确定这个二进制掩码向量的每一元素;
如果某一权值被屏蔽置零,则其对应的二进制掩码向量中的元素为0,否则为1,通过二进制掩码向量确定网络层中参与前向传播和后向传播的权值;
根据所述网络层中参与前向传播和后向传播的权值从初始时刻迭代修剪所述策略网络以及所述价值网络,直至网络稀疏度达到最终稀疏值。
具体的,为了恢复稀疏化学生模型损失的性能,每对策略网络和价值网络进行N次裁剪,便对所述稀疏化学生模型进行评估,如果评估信息低于预设阈值,便使用知识蒸馏对所述稀疏化学生模型进行性能恢复训练,以恢复所述稀疏化学生模型的性能。
具体的,所述使用知识蒸馏对所述稀疏化学生模型进行性能恢复训练,具体为:
定义所述教师模型状态价值的经验回放对,用于存储教师模型的状态价值信息;
定义所述学生模型的状态价值作为学生模型的状态值,用于存储学生模型的状态价值信息;
通过调整所述学生模型中策略网络的权值参数矩阵,使得所述学生模型的状态价值接近所述教师模型的状态价值。
具体的,步骤X3中,所述测量所述稀疏化学生模型的冗余度后对所述稀疏化学生模型进行重构,并重新训练重构后的所述稀疏化学生模型,进而获得高性能学生轻量化模型,具体为:
通过测量所述稀疏化学生模型中策略网络每层的非零参数数量,确定每层的冗余度;
根据每层的冗余度重构小规模的稀疏化学生模型的策略网络和价值网络;
通过知识蒸馏方法构建KL散度目标函数来完成所述稀疏化学生模型的性能恢复训练;
将重构后的学生模型的策略网络和价值网络的大小与重构前的大小进行比较;
判断比较后的差异是否小于预设的阈值;如果小于预设的阈值,则输出得到小而紧凑的高性能学生轻量化模型;如果未小于定义阈值,则重复步骤X3和X4,从而得到高性能学生轻量化模型。
具体的,步骤X4中,所述获取北斗卫星定位参数,将所述高性能学生轻量化模型部署在车载定位设备上,对所述北斗卫星定位参数实时定位校正,得到校正后的定位信息,具体为:
通过北斗卫星定位设备获取卫星定位参数;
对获取的所述卫星定位参数进行归一化处理,减小所述卫星定位参数之间的数量级;
将归一化处理后的定位信息输入所述高性能学生轻量化模型的策略网络,通过所述高性能学生轻量化模型的策略网络,从校正动作中选取最优校正动作对处理后的定位信息进行校正,得到校正后的定位信息。
本发明的有益效果在于,本发明提供一种基于轻量化强化学习的城市多径环境下北斗卫星定位方法,具体包括以下步骤:X1:引入部分可观测马尔可夫决策过程建立环境交互模型,通过将过往预测信息作为置信状态,定义相应的动作空间,观测状态空间,信念状态空间,奖励函数,其中:动作空间;式中:为校正动作参数,m为纬度校正步长,n为经度校正步长;通过所述环境交互模型的控制策略输出相应的定位校正动作,对定位设备播报的定位信息进行校正,动作空间定义为标量矩阵;观测状态空间;式中:为t-N-1时刻的定位预测校正信息,为t-1时刻的定位预测校正信息,为t时刻的所述定位设备播报的定位信息;信念状态空间;通过与观测状态空间的定位信息对比,在所述环境交互模型的定位信息做出预测校正后,利用当前的预测校正定位信息来替换,更新信念状态空间;奖励函数; 式中:为状态值,为校正动作参数;所述奖励函数定义为环境交互模型校正的定位信息与实际地图匹配定位信息的欧几里得距离;X2:使用异步优势策略价值A3C算法,构建包括一个主智能体及多个子智能体的模型框架,通过每个所述子智能体并行探索环境信息后,对每个所述子智能体探索的环境信息的权值参数求解得到梯度信息上传至所述主智能体,通过所述梯度信息异步更新所述主智能体参数,并不断迭代探索过程和异步更新过程,进而得到高性能主智能体作为深度强化学习教师模型;X3:通过策略剪枝方法对所述深度强化学习教师模型进行修剪,得到稀疏化学生模型,测量所述稀疏化学生模型的冗余度后对所述稀疏化学生模型进行重构,并重新训练重构后的所述稀疏化学生模型,进而获得高性能学生轻量化模型;X4:获取北斗卫星定位参数,将所述高性能学生轻量化模型部署在车载定位设备上,对所述北斗卫星定位参数实时定位校正,得到校正后的定位信息;X5:将所述校正后的定位信息按照时间序列依次输出到真实的路面上。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为基于轻量化强化学习的城市多径环境下北斗卫星定位方法流程图;
图2为一主多从异步并行深度强化学习模型示意图;
图3为深度强化学习教师模型以及学生模型训练流程图。
具体实施方式
下面将结合本发明中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1~图3所示,本发明提出一种基于轻量化强化学习的城市多径环境下北斗卫星定位方法,具体包括以下步骤:
X1:引入部分可观测马尔可夫决策过程建立环境交互模型,通过将过往预测信息作为置信状态,且上一时刻的置信状态的时序信号可以决定下一个状态,定义相应的动作空间,观测状态空间,信念状态空间,奖励函数,其中:
需要说明的是,m和n的取值范围均为{-10,-9,…,0,…,9,10},即总共212=441个校正步长;
可以理解的是,为了创建固定时间长度的时间序列,起始时刻可以为任意时刻,这里固定序列长度起始时刻设置为t-N-1时刻;
通过模型校正的定位信息与地图匹配定位信息的欧几里得距离来定义奖励函数,即模型校正的定位信息与地图匹配信息之间差值平方误差和的负数,具体公式如下:
X2:使用异步优势策略价值A3C算法,构建包括一个主智能体及多个子智能体的模型框架,通过每个子智能体并行探索环境信息后,对每个子智能体探索的环境信息的权值参数求解得到梯度信息上传至主智能体,通过梯度信息异步更新主智能体参数,并不断迭代探索过程和异步更新过程,进而得到高性能主智能体作为深度强化学习教师模型;
X3:通过策略剪枝方法对深度强化学习教师模型进行修剪,得到稀疏化学生模型,测量稀疏化学生模型的冗余度后对稀疏化学生模型进行重构,并重新训练重构后的稀疏化学生模型获得高性能学生轻量化模型;
X4:获取北斗卫星定位参数,将高性能学生轻量化模型部署在车载定位设备上,对北斗卫星定位参数实时定位校正,得到校正后的定位信息;
X5:将校正后的定位信息按照时间序列依次输出到真实的路面上。
在本发明的另一个具体的实施例中,主智能体和子智能体均包括策略网络与价值网络;
需要说明的是,由于深度强化学习策略网络输入层的神经元个数应该与输入状态的纬度相同,输出层的神经元个数应该与校正量的纬度相同;因此,子智能体的策略网络输入层的神经元个数为100,输出神经元个数为441;子智能体的价值网络输入层神经元个数为100,输出神经元的个数为1;
由于主智能体与子智能体具有相同的网络结构,因此主智能体的策略网络结构、价值网络结构以及网络结构对应的神经元数量与子智能体保持一致。
在本发明的另一个具体的实施例中,步骤X2中,通过每个子智能体并行探索环境信息后,对每个子智能体探索的环境信息的权值参数求解得到梯度信息上传至主智能体,具体为:
引入部分可观测的马尔科夫决策过程,将历史定位观测值作为置信状态,通过每个子智能体并行与环境交互得到滑动窗口观测缓冲区,每当定位设备播报一个新的定位观测值时,将新的定位观测值与历史定位观测值加入子智能体进行一次训练并将滑动窗口移动到下一个观察缓冲区,直至子智能体训练结束,得到定位纬度与经度的原始特征参数。
在具体实施过程中,定位将接收到一个新的定位观测值发送给子智能体,滑动窗口向前移动一步形成一个具有恒定大小N的新的滑动窗口观测缓冲区,其中信念状态有N-1个,由构成的其余部分,为最后一个元素;当接受机设备播报一个新定位观测值时,即输入状态包含接受机设备播报的定位观测值和一系列历史定位观测值,子智能体会立即训练并将滑动窗口移动到下一个观察缓冲区,这个过程不断循环直到子智能体训练结束;
需要说明的是,时间序列长度N可以取任意值,这里我们取值与智能体的数量相同。
对定位纬度与经度的原始特征参数进行归一化处理,将原始特征参数转换成取值范围在[0,1]之间的归一化特征参数,公式如下:
可以理解的是,为了减小因输入的特征参数间数量级差别较大,引起子智能体通过损失函数计算梯度的方向偏离最小值的方向,需要对输入的特征参数作归一化处理;
式中:表示折扣率,表示为信念状态值,表示为时刻的信念状态值,表示为时刻的奖励值,为在一段T时间内子智能体与环境交互得到的折扣奖励,为在t=0时刻子智能体的价值网络输出的价值估计函数,为在=时刻子智能体的价值网络输出的价值估计函数;
构建策略网络的总目标函数如下:
式中:E表示求期望;
在本发明的另一个具体的实施例中,步骤X2中,通过梯度信息异步更新主智能体参数具体为:
其中,表示价值网络的学习率,表示策略网络的学习率,k表示子智能体在第k次迭代过程上传梯度信息给主智能体。表示子智能体在第k次迭代过程上传梯度信息给主智能体。表示子智能体在第k次迭代过程上传梯度信息给主智能体。
在本发明的另一个具体的实施例中,步骤X2中,不断迭代探索过程和异步更新过程,具体为:
子智能体通过异步并行的方式与环境不断交互,有效利用并行计算资源在短时间内积累到大量经验参数,加速主智能体通过异步更新模型参数的训练迭代过程,直至主智能体训练收敛,输出稳定精确的定位信息。
在本发明的另一个具体的实施例中,步骤X3中,通过策略剪枝方法对深度强化学习教师模型进行修剪,得到稀疏化学生模型,具体为:
对策略网络中每一个要修剪的网络层,均添加一个大小和形状与对应网络层的权值张量相同的二进制掩码向量;
按照对应网络层权值的绝对值大小对权值进行排序,并将最小的权值屏蔽置零,直到达到期望的稀疏度,以确定这个二进制掩码向量的每一元素;
如果某一权值被屏蔽置零,则其对应的二进制掩码向量中的元素为0,否则为1,通过二进制掩码向量确定网络层中参与前向传播和后向传播的权值参数是否为0;
在另一个更具体的实施例中,为了恢复稀疏化学生模型损失的性能,每对策略网络和价值网络进行N次裁剪,便对稀疏化学生模型进行评估,如果其性能低于预先设定的阈值,便使用知识蒸馏对稀疏化学生模型进行性能恢复训练,以恢复稀疏化学生模型的性能。
在另一个更具体的实施例中,使用知识蒸馏对稀疏化学生模型进行性能恢复训练,具体为:
在本发明的一个具体的实施例中,步骤X3中,测量稀疏化学生模型的冗余度后对稀疏化学生模型进行重构,并重新训练重构后的稀疏化学生模型获得高性能学生轻量化模型,具体为:
通过测量稀疏化学生模型中策略网络每一层的非零参数数量,确定每层的冗余度;
根据冗余度重构一个小规模的策略网络和价值网络;
为了使学生模型输出的状态价值不断向教师模型输出的状态价值靠拢,可以借鉴教师模型的经验,通过知识蒸馏方法构建KL散度目标函数来完成稀疏化学生模型的性能恢复训练;
将重构后的学生模型的策略网络和价值网络的大小与重构前的大小进行比较;
判断差异是否小于预设的阈值;如果小于预设的阈值,则输出得到小而紧凑的高性能学生轻量化模型;如果未小于定义阈值,则重复步骤X4,从而得到一个小而紧凑高性能学生轻量化模型。
在本发明的另一个具体的实施例中,步骤X4中,将高性能学生轻量化模型部署在车载定位设备上,对北斗卫星定位参数实时定位校正,得到校正后的定位信息,具体为:
将获取的所述卫星定位参数进行归一化处理,减小因输入的特征参数间数量级差别较大,而导致的深度强化学习模型预测出现的偏差;
在本发明的另一个具体的实施例中,将校正后的定位信息输入高性能学生轻量化模型的价值网络,通过高性能学生轻量化模型的价值网络输出策略π的状态值来评价当前策略网络选取的校正动作的优劣,当评价为优时输出选取动作,当评价为劣时通过高性能学生轻量化模型的重新选取最优动作对归一化后的定位信息进行校正并进行重新评价。
本申请的说明书中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
Claims (10)
1.一种基于轻量化强化学习的城市多径环境下北斗卫星定位方法,其特征在于,具体包括以下步骤:
通过所述环境交互模型的控制策略输出相应的定位校正动作,对定位设备播报的定位信息进行校正,动作空间定义为标量矩阵;
所述奖励函数定义为环境交互模型校正的定位信息与实际地图匹配定位信息的欧几里得距离;
X2:使用异步优势策略价值A3C算法,构建包括一个主智能体及多个子智能体的模型框架,通过每个所述子智能体并行探索环境信息后,对每个所述子智能体探索的环境信息的权值参数求解得到梯度信息上传至所述主智能体,通过所述梯度信息异步更新所述主智能体参数,并不断迭代探索过程和异步更新过程,进而得到高性能主智能体作为深度强化学习教师模型;
X3:通过策略剪枝方法对所述深度强化学习教师模型进行修剪,得到稀疏化学生模型,测量所述稀疏化学生模型的冗余度后对所述稀疏化学生模型进行重构,并重新训练重构后的所述稀疏化学生模型,进而获得高性能学生轻量化模型;
X4:获取北斗卫星定位参数,将所述高性能学生轻量化模型部署在车载定位设备上,对所述北斗卫星定位参数实时定位校正,得到校正后的定位信息;
X5:将所述校正后的定位信息按照时间序列依次输出到真实的路面上。
3.根据权利要求2所述的基于轻量化强化学习的城市多径环境下北斗卫星定位方法,其特征在于,步骤X2中,所述通过每个所述子智能体并行探索环境信息后,对每个所述子智能体探索的环境信息的权值参数求解得到梯度信息上传至所述主智能体,具体为:
引入部分可观测的马尔科夫决策过程,将历史定位观测值作为置信状态,通过每个所述子智能体并行与环境交互得到滑动窗口观测缓冲区,每当定位设备播报一个新的定位观测值时,将所述新的定位观测值与所述历史定位观测值加入子智能体进行一次训练并将滑动窗口移动到下一个观察缓冲区,直至所述子智能体训练结束,得到定位纬度与经度的原始特征参数;
对定位纬度与经度的原始特征参数进行归一化处理,减小所述原始特征参数之间的数量级,将所述原始特征参数转换成取值范围在[0,1]之间的归一化特征参数;
将归一化的特征参数的定位观测值输入到子智能体的价值网络中,通过折扣率、时刻的奖励值、以及n步价值估计函数构建时序差分误差,并通过t时刻的信念状态值、一段时间内子智能体与环境交互得到的折扣奖励、以及真实的价值函数构建优势函数;
通过所述时序差分误差和子智能体个数得到多个子智能体的价值网络的总目标函数;
通过所述优势函数和所述策略网络输出的策略构建包括多个子智能体的策略网络的总目标函数;
根据多个子智能体的价值网络的总目标函数和策略网络的总目标函数,使用随机梯度算法来计算价值网络和策略网络的权值参数的梯度信息,并上传到主智能体更新模型参数。
4.根据权利要求2所述的基于轻量化强化学习的城市多径环境下北斗卫星定位方法,其特征在于,步骤X2中,所述通过所述梯度信息异步更新所述主智能体参数,具体为:
通过随机梯度下降迭代更新主智能体的价值网络的权值参数矩阵,并通过随机梯度上升迭代更新主智能体策略网络的权值参数矩阵。
5.根据权利要求2所述的基于轻量化强化学习的城市多径环境下北斗卫星定位方法,其特征在于,步骤X2中,所述不断迭代探索过程和异步更新过程,具体为:
所述子智能体通过异步并行的方式与环境不断交互,利用并行计算资源积累经验参数,加速所述主智能体通过异步更新模型参数的训练迭代过程,直至所述主智能体训练收敛。
6.根据权利要求2所述的基于轻量化强化学习的城市多径环境下北斗卫星定位方法,其特征在于,步骤X3中,所述通过策略剪枝方法对所述深度强化学习教师模型进行修剪,得到稀疏化学生模型,具体为:
对策略网络中每一个要修剪的网络层,均添加一个大小和形状与对应所述网络层的权值张量相同的二进制掩码向量;
按照对应所述网络层权值的绝对值大小对所述权值进行排序,并将最小的权值屏蔽置零,直到达到期望的稀疏度,以确定这个二进制掩码向量的每一元素;
如果某一权值被屏蔽置零,则其对应的二进制掩码向量中的元素为0,否则为1,通过二进制掩码向量确定网络层中参与前向传播和后向传播的权值;
根据所述网络层中参与前向传播和后向传播的权值从初始时刻迭代修剪所述策略网络以及所述价值网络,直至网络稀疏度达到最终稀疏值。
7.根据权利要求6所述的基于轻量化强化学习的城市多径环境下北斗卫星定位方法,其特征在于,为了恢复稀疏化学生模型损失的性能,每对策略网络和价值网络进行N次裁剪,便对所述稀疏化学生模型进行评估,如果评估信息低于预设阈值,便使用知识蒸馏对所述稀疏化学生模型进行性能恢复训练,以恢复所述稀疏化学生模型的性能。
8.根据权利要求7所述的基于轻量化强化学习的城市多径环境下北斗卫星定位方法,其特征在于,所述使用知识蒸馏对所述稀疏化学生模型进行性能恢复训练,具体为:
定义所述教师模型状态价值的经验回放对,用于存储教师模型的状态价值信息;
定义所述学生模型的状态价值作为学生模型的状态值,用于存储学生模型的状态价值信息;
通过调整所述学生模型中策略网络的权值参数矩阵,使得所述学生模型的状态价值接近所述教师模型的状态价值。
9.根据权利要求2所述的基于轻量化强化学习的城市多径环境下北斗卫星定位方法,其特征在于,步骤X3中,所述测量所述稀疏化学生模型的冗余度后对所述稀疏化学生模型进行重构,并重新训练重构后的所述稀疏化学生模型,进而获得高性能学生轻量化模型,具体为:
通过测量所述稀疏化学生模型中策略网络每层的非零参数数量,确定每层的冗余度;
根据每层的冗余度重构小规模的稀疏化学生模型的策略网络和价值网络;
通过知识蒸馏方法构建KL散度目标函数来完成所述稀疏化学生模型的性能恢复训练;
将重构后的学生模型的策略网络和价值网络的大小与重构前的大小进行比较;
判断比较后的差异是否小于预设的阈值;如果小于预设的阈值,则输出得到小而紧凑的高性能学生轻量化模型;如果未小于定义阈值,则重复步骤X3和X4,从而得到高性能学生轻量化模型。
10.根据权利要求2所述的基于轻量化强化学习的城市多径环境下北斗卫星定位方法,其特征在于,步骤X4中,所述获取北斗卫星定位参数,将所述高性能学生轻量化模型部署在车载定位设备上,对所述北斗卫星定位参数实时定位校正,得到校正后的定位信息,具体为:
通过北斗卫星定位设备获取卫星定位参数;
对获取的所述卫星定位参数进行归一化处理,减小所述卫星定位参数之间的数量级;
将归一化处理后的定位信息输入所述高性能学生轻量化模型的策略网络,通过所述高性能学生轻量化模型的策略网络,从校正动作中选取最优校正动作对处理后的定位信息进行校正,得到校正后的定位信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310115785.6A CN115826013B (zh) | 2023-02-15 | 2023-02-15 | 基于轻量化强化学习的城市多径环境下北斗卫星定位方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310115785.6A CN115826013B (zh) | 2023-02-15 | 2023-02-15 | 基于轻量化强化学习的城市多径环境下北斗卫星定位方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115826013A true CN115826013A (zh) | 2023-03-21 |
CN115826013B CN115826013B (zh) | 2023-04-21 |
Family
ID=85521415
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310115785.6A Active CN115826013B (zh) | 2023-02-15 | 2023-02-15 | 基于轻量化强化学习的城市多径环境下北斗卫星定位方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115826013B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109547505A (zh) * | 2019-01-26 | 2019-03-29 | 福州大学 | 基于强化学习的多径tcp传输调度方法 |
CN109827579A (zh) * | 2019-03-08 | 2019-05-31 | 兰州交通大学 | 一种组合定位中滤波模型实时校正的方法和系统 |
US20200372410A1 (en) * | 2019-05-23 | 2020-11-26 | Uber Technologies, Inc. | Model based reinforcement learning based on generalized hidden parameter markov decision processes |
CN113392935A (zh) * | 2021-07-09 | 2021-09-14 | 浙江工业大学 | 基于注意力机制的多智能体深度强化学习策略优化方法 |
WO2022090800A1 (en) * | 2020-10-27 | 2022-05-05 | Mobileye Vision Technologies Ltd. | Systems and methods for evaluating domain-specific navigation system capabilities |
CN114911157A (zh) * | 2022-04-08 | 2022-08-16 | 南京大学 | 基于部分可观测强化学习的机器人导航控制方法及系统 |
-
2023
- 2023-02-15 CN CN202310115785.6A patent/CN115826013B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109547505A (zh) * | 2019-01-26 | 2019-03-29 | 福州大学 | 基于强化学习的多径tcp传输调度方法 |
CN109827579A (zh) * | 2019-03-08 | 2019-05-31 | 兰州交通大学 | 一种组合定位中滤波模型实时校正的方法和系统 |
US20200372410A1 (en) * | 2019-05-23 | 2020-11-26 | Uber Technologies, Inc. | Model based reinforcement learning based on generalized hidden parameter markov decision processes |
WO2022090800A1 (en) * | 2020-10-27 | 2022-05-05 | Mobileye Vision Technologies Ltd. | Systems and methods for evaluating domain-specific navigation system capabilities |
CN113392935A (zh) * | 2021-07-09 | 2021-09-14 | 浙江工业大学 | 基于注意力机制的多智能体深度强化学习策略优化方法 |
CN114911157A (zh) * | 2022-04-08 | 2022-08-16 | 南京大学 | 基于部分可观测强化学习的机器人导航控制方法及系统 |
Non-Patent Citations (2)
Title |
---|
JIANHAO TANG, ZHENNI LI, SHENGLI XIE, SHUXUE DING, SHAOLONG ZHENG, XUENI CHEN: "Deep sparse representation via deep dictionary learning for reinforcement learning" * |
孙嘉浩;陈劲杰;: "基于强化学习的无人驾驶仿真研究" * |
Also Published As
Publication number | Publication date |
---|---|
CN115826013B (zh) | 2023-04-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109142171B (zh) | 基于特征扩张的融合神经网络的城市pm10浓度预测方法 | |
CN111639747B (zh) | 一种基于bp神经网络的gnss-r海面风速反演方法及系统 | |
CN110533631A (zh) | 基于金字塔池化孪生网络的sar图像变化检测方法 | |
CN114218870A (zh) | 一种基于变分模态分解与注意力机制的风速预测方法 | |
CN111159149A (zh) | 一种基于三维卷积神经网络的河流流量预测方法 | |
CN111190211B (zh) | 一种gps失效位置预测定位方法 | |
CN116853272A (zh) | 一种融合复杂网络和图Transformer的自动驾驶车辆行为预测方法及系统 | |
CN116910534A (zh) | 一种不同海域海洋环境要素时空智能预测方法和装置 | |
CN113221450B (zh) | 一种针对稀疏不均匀时序数据的航位预测方法及系统 | |
US5488589A (en) | Neural network based three dimensional ocean modeler | |
Cohen et al. | A-KIT: Adaptive Kalman-informed transformer | |
CN115826013B (zh) | 基于轻量化强化学习的城市多径环境下北斗卫星定位方法 | |
CN115062526B (zh) | 基于深度学习的三维电离层电子浓度分布模型训练方法 | |
CN114742265B (zh) | 一种vhf信号传播路径误差预测方法及系统 | |
Tewari et al. | Application of LSTMs and HAND in rapid flood inundation mapping | |
Adebayo et al. | Refractive index perception and prediction of radio wave through recursive neural networks using meteorological data parameters | |
Velasco et al. | Performance analysis of multilayer perceptron neural network models in week-ahead rainfall forecasting | |
CN114879263A (zh) | 基于卷积神经网络的三维磁张量梯度反演方法及装置 | |
CN115169225A (zh) | 一种应用于海冰多模式集合预报的自适应加权方法 | |
CN110264154B (zh) | 一种基于自编码器的众包信号地图构建方法 | |
CN113077110A (zh) | 一种基于gru的调和残差分段式潮位预测方法 | |
Lounis et al. | Deep Neural Networks for Water Quality Mapping | |
Youwei et al. | Predictions to the water level of changjiang waterway employing deep learning algorithm lstm | |
CN114693988B (zh) | 卫星自主位姿的判定方法、系统及存储介质 | |
Narayanan et al. | An iterative scheme to learn system dynamics of space objects from partial state information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |