CN115826013A - 基于轻量化强化学习的城市多径环境下北斗卫星定位方法 - Google Patents

基于轻量化强化学习的城市多径环境下北斗卫星定位方法 Download PDF

Info

Publication number
CN115826013A
CN115826013A CN202310115785.6A CN202310115785A CN115826013A CN 115826013 A CN115826013 A CN 115826013A CN 202310115785 A CN202310115785 A CN 202310115785A CN 115826013 A CN115826013 A CN 115826013A
Authority
CN
China
Prior art keywords
model
positioning
value
network
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310115785.6A
Other languages
English (en)
Other versions
CN115826013B (zh
Inventor
唐健浩
李珍妮
马垣德
郑咏雯
王千明
谢胜利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN202310115785.6A priority Critical patent/CN115826013B/zh
Publication of CN115826013A publication Critical patent/CN115826013A/zh
Application granted granted Critical
Publication of CN115826013B publication Critical patent/CN115826013B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Position Fixing By Use Of Radio Waves (AREA)

Abstract

本发明涉及一种基于轻量化强化学习的城市多径环境下北斗卫星定位方法。具体包括以下步骤:引入部分可观测马尔可夫决策过程建立环境交互模型;构建包括一个主智能体及多个子智能体的模型框架,得到高性能主智能体作为深度强化学习教师模型;对教师模型策略剪枝,得到稀疏化学生模型,测量冗余度后对稀疏化学生模型进行重构并重新训练,得到高性能学生轻量化模型;将高性能学生轻量化模型部署在车载定位设备上,实时定位校正卫星参数并获取校正后的定位信息;将校正后的定位信息按照时间序列输出到真实路面;本发明能够实现对城市复杂环境的动态学习,并能够设置于车载定位设备上,大幅提升车载动态变化定位精度。

Description

基于轻量化强化学习的城市多径环境下北斗卫星定位方法
技术领域
本发明涉及卫星定位技术领域,尤其涉及一种基于轻量化强化学习的城市多径环境下北斗卫星定位方法。
背景技术
精准卫星导航定位技术是智能网联汽车的核心技术之一,在当前的车载定位和导航功能已经普遍应用,现有的全球卫星导航系统(GNSS)能得到车辆所处的经纬度信息和当前的姿态信息,能够准确反映出车辆在地球坐标系中的绝对位置。
目前高精度车规级定位技术在宽广开阔路面的定位精度已经能达到分米及甚至厘米级,但是在城市峡谷环境、立体高架桥、城市森林等复杂环境下,由于全球卫星信号被遮挡、建筑物反射等引起的多径效应,使得卫星定位发生十几米的偏移,不能满足车道级导航的精度要求。
斯坦福团队在导航领域顶级2021GNSS+会议和2022GNSS+会议上首次提出一种静态学习模型——深度神经网络的定位校正模型,但静态学习模型普遍存在需要依赖于初始位置信息的传统缺陷,难以适应在城市的复杂环境中,车载动态变化定位的校正。
发明内容
本发明提供一种基于轻量化强化学习的城市多径环境下北斗卫星定位方法,用于解决车载动态变化定位精度低的问题。
本发明提供一种基于轻量化强化学习的城市多径环境下北斗卫星定位方法,具体包括以下步骤:
X1:引入部分可观测马尔可夫决策过程建立环境交互模型,通过将过往预测信息作为置信状态,定义相应的动作空间
Figure SMS_1
,观测状态空间
Figure SMS_2
,信念状态空间
Figure SMS_3
,奖励函数
Figure SMS_4
,其中:
动作空间
Figure SMS_5
式中:
Figure SMS_6
为校正动作参数,m为纬度校正步长,n为经度校正步长;
通过所述环境交互模型的控制策略输出相应的定位校正动作,对定位设备播报的定位信息进行校正,动作空间定义为标量矩阵;
观测状态空间
Figure SMS_7
式中:
Figure SMS_8
t-N-1时刻的定位预测校正信息,
Figure SMS_9
t-1时刻的定位预测校正信息,
Figure SMS_10
t时刻的所述定位设备播报的定位信息;
信念状态空间
Figure SMS_11
通过与观测状态空间的定位信息对比,在所述环境交互模型的定位信息做出预测校正后,利用当前的预测校正定位信息
Figure SMS_12
来替换
Figure SMS_13
,更新信念状态空间;
奖励函数
Figure SMS_14
式中:
Figure SMS_15
为状态值,
Figure SMS_16
为校正动作参数;
所述奖励函数定义为环境交互模型校正的定位信息与实际地图匹配定位信息的欧几里得距离;
X2:使用异步优势策略价值A3C算法,构建包括一个主智能体及多个子智能体的模型框架,通过每个所述子智能体并行探索环境信息后,对每个所述子智能体探索的环境信息的权值参数求解得到梯度信息上传至所述主智能体,通过所述梯度信息异步更新所述主智能体参数,并不断迭代探索过程和异步更新过程,进而得到高性能主智能体作为深度强化学习教师模型;
X3:通过策略剪枝方法对所述深度强化学习教师模型进行修剪,得到稀疏化学生模型,测量所述稀疏化学生模型的冗余度后对所述稀疏化学生模型进行重构,并重新训练重构后的所述稀疏化学生模型,进而获得高性能学生轻量化模型;
X4:获取北斗卫星定位参数,将所述高性能学生轻量化模型部署在车载定位设备上,对所述北斗卫星定位参数实时定位校正,得到校正后的定位信息;
X5:将所述校正后的定位信息按照时间序列依次输出到真实的路面上。
具体的,所述主智能体和所述子智能体均包括:策略网络与价值网络;
所述策略网络用于更新主智能体和所述子智能体的动作策略,通过寻找一个最优动作策略来最大化期望回报值
Figure SMS_17
所述智能体的价值网络用来评价动作策略的优劣,通过输出状态价值为策略网络提供反馈。
具体的,步骤X2中,所述通过每个所述子智能体并行探索环境信息后,对每个所述子智能体探索的环境信息的权值参数求解得到梯度信息上传至所述主智能体,具体为:
引入部分可观测的马尔科夫决策过程,将历史定位观测值作为置信状态,通过每个所述子智能体并行与环境交互得到滑动窗口观测缓冲区,每当定位设备播报一个新的定位观测值时,将所述新的定位观测值与所述历史定位观测值加入子智能体进行一次训练并将滑动窗口移动到下一个观察缓冲区,直至所述子智能体训练结束,得到定位纬度与经度的原始特征参数;
对定位纬度与经度的原始特征参数进行归一化处理,减小所述原始特征参数之间的数量级,将所述原始特征参数转换成取值范围在[0,1]之间的归一化特征参数;
将归一化的特征参数的定位观测值输入到子智能体的价值网络中,通过折扣率、
Figure SMS_18
时刻的奖励值、以及n步价值估计函数构建时序差分误差,并通过t时刻的信念状态值、一段时间内子智能体与环境交互得到的折扣奖励、以及真实的价值函数构建优势函数;
通过所述时序差分误差和子智能体个数得到多个子智能体的价值网络的总目标函数;
通过所述优势函数和所述策略网络输出的策略构建包括多个子智能体的策略网络的总目标函数;
根据多个子智能体的价值网络的总目标函数和策略网络的总目标函数,使用随机梯度算法来计算价值网络和策略网络的权值参数的梯度信息,并上传到主智能体更新模型参数。
具体的,步骤X2中,所述通过梯度信息异步更新主智能体参数,具体为:
通过随机梯度下降迭代更新主智能体的价值网络的权值参数矩阵,并通过随机梯度上升迭代更新主智能体策略网络的权值参数矩阵。
具体的,步骤X2中,所述不断迭代探索过程和异步更新过程,具体为:
所述子智能体通过异步并行的方式与环境不断交互,利用并行计算资源积累经验参数,加速所述主智能体通过异步更新模型参数的训练迭代过程,直至所述主智能体训练收敛。
具体的,步骤X3中,所述通过策略剪枝方法对所述深度强化学习教师模型进行修剪,得到稀疏化学生模型,具体为:
对策略网络中每一个要修剪的网络层,均添加一个大小和形状与对应所述网络层的权值张量相同的二进制掩码向量;
按照对应所述网络层权值的绝对值大小对所述权值进行排序,并将最小的权值屏蔽置零,直到达到期望的稀疏度,以确定这个二进制掩码向量的每一元素;
如果某一权值被屏蔽置零,则其对应的二进制掩码向量中的元素为0,否则为1,通过二进制掩码向量确定网络层中参与前向传播和后向传播的权值;
根据所述网络层中参与前向传播和后向传播的权值从初始时刻迭代修剪所述策略网络以及所述价值网络,直至网络稀疏度达到最终稀疏值。
具体的,为了恢复稀疏化学生模型损失的性能,每对策略网络和价值网络进行N次裁剪,便对所述稀疏化学生模型进行评估,如果评估信息低于预设阈值,便使用知识蒸馏对所述稀疏化学生模型进行性能恢复训练,以恢复所述稀疏化学生模型的性能。
具体的,所述使用知识蒸馏对所述稀疏化学生模型进行性能恢复训练,具体为:
定义所述教师模型状态价值的经验回放对,用于存储教师模型的状态价值信息;
定义所述学生模型的状态价值作为学生模型的状态值,用于存储学生模型的状态价值信息;
通过调整所述学生模型中策略网络的权值参数矩阵,使得所述学生模型的状态价值接近所述教师模型的状态价值。
具体的,步骤X3中,所述测量所述稀疏化学生模型的冗余度后对所述稀疏化学生模型进行重构,并重新训练重构后的所述稀疏化学生模型,进而获得高性能学生轻量化模型,具体为:
通过测量所述稀疏化学生模型中策略网络每层的非零参数数量,确定每层的冗余度;
根据每层的冗余度重构小规模的稀疏化学生模型的策略网络和价值网络;
通过知识蒸馏方法构建KL散度目标函数来完成所述稀疏化学生模型的性能恢复训练;
将重构后的学生模型的策略网络和价值网络的大小与重构前的大小进行比较;
判断比较后的差异是否小于预设的阈值;如果小于预设的阈值,则输出得到小而紧凑的高性能学生轻量化模型;如果未小于定义阈值,则重复步骤X3和X4,从而得到高性能学生轻量化模型。
具体的,步骤X4中,所述获取北斗卫星定位参数,将所述高性能学生轻量化模型部署在车载定位设备上,对所述北斗卫星定位参数实时定位校正,得到校正后的定位信息,具体为:
通过北斗卫星定位设备获取卫星定位参数;
对获取的所述卫星定位参数进行归一化处理,减小所述卫星定位参数之间的数量级;
将归一化处理后的定位信息输入所述高性能学生轻量化模型的策略网络,通过所述高性能学生轻量化模型的策略网络,从校正动作中选取最优校正动作对处理后的定位信息进行校正,得到校正后的定位信息。
本发明的有益效果在于,本发明提供一种基于轻量化强化学习的城市多径环境下北斗卫星定位方法,具体包括以下步骤:X1:引入部分可观测马尔可夫决策过程建立环境交互模型,通过将过往预测信息作为置信状态,定义相应的动作空间
Figure SMS_22
,观测状态空间
Figure SMS_24
,信念状态空间
Figure SMS_26
,奖励函数
Figure SMS_28
,其中:动作空间
Figure SMS_30
;式中:
Figure SMS_32
为校正动作参数,m为纬度校正步长,n为经度校正步长;通过所述环境交互模型的控制策略输出相应的定位校正动作,对定位设备播报的定位信息进行校正,动作空间定义为标量矩阵;观测状态空间
Figure SMS_34
;式中:
Figure SMS_19
t-N-1时刻的定位预测校正信息,
Figure SMS_21
t-1时刻的定位预测校正信息,
Figure SMS_23
t时刻的所述定位设备播报的定位信息;信念状态空间
Figure SMS_25
;通过与观测状态空间的定位信息对比,在所述环境交互模型的定位信息做出预测校正后,利用当前的预测校正定位信息
Figure SMS_27
来替换
Figure SMS_29
,更新信念状态空间;奖励函数
Figure SMS_31
; 式中:
Figure SMS_33
为状态值,
Figure SMS_20
为校正动作参数;所述奖励函数定义为环境交互模型校正的定位信息与实际地图匹配定位信息的欧几里得距离;X2:使用异步优势策略价值A3C算法,构建包括一个主智能体及多个子智能体的模型框架,通过每个所述子智能体并行探索环境信息后,对每个所述子智能体探索的环境信息的权值参数求解得到梯度信息上传至所述主智能体,通过所述梯度信息异步更新所述主智能体参数,并不断迭代探索过程和异步更新过程,进而得到高性能主智能体作为深度强化学习教师模型;X3:通过策略剪枝方法对所述深度强化学习教师模型进行修剪,得到稀疏化学生模型,测量所述稀疏化学生模型的冗余度后对所述稀疏化学生模型进行重构,并重新训练重构后的所述稀疏化学生模型,进而获得高性能学生轻量化模型;X4:获取北斗卫星定位参数,将所述高性能学生轻量化模型部署在车载定位设备上,对所述北斗卫星定位参数实时定位校正,得到校正后的定位信息;X5:将所述校正后的定位信息按照时间序列依次输出到真实的路面上。
本发明提供的一种基于轻量化强化学习的城市多径环境下北斗卫星定位方法,能够通过部分可观测马尔可夫决策过程建立环境交互模型,将过往智能体的预测信息作为置信状态,定义相应的动作空间
Figure SMS_35
,观测空间
Figure SMS_36
,信念状态空间
Figure SMS_37
,奖励函数
Figure SMS_38
;并通过构建一主多从的智能体模型框架,通过多个子智能体并行快速学习环境信息,上传至主智能体进行异步更新得到深度强化学习教师模型,实现对城市复杂环境的动态学习,有效缩短同步环境信息所使用的时间;再通过策略剪枝的方式将教师模型进一步轻量化、紧凑化得到学生模型,使其能够设置于车载定位设备,进而大幅提升车载动态变化定位精度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为基于轻量化强化学习的城市多径环境下北斗卫星定位方法流程图;
图2为一主多从异步并行深度强化学习模型示意图;
图3为深度强化学习教师模型以及学生模型训练流程图。
具体实施方式
下面将结合本发明中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1~图3所示,本发明提出一种基于轻量化强化学习的城市多径环境下北斗卫星定位方法,具体包括以下步骤:
X1:引入部分可观测马尔可夫决策过程建立环境交互模型,通过将过往预测信息作为置信状态,且上一时刻的置信状态的时序信号可以决定下一个状态,定义相应的动作空间
Figure SMS_39
,观测状态空间
Figure SMS_40
,信念状态空间
Figure SMS_41
,奖励函数
Figure SMS_42
,其中:
动作空间
Figure SMS_43
式中:
Figure SMS_44
为校正动作参数,m为纬度校正步长,n为经度校正步长;
模型的控制策略需要输出相应的定位校正动作,而所校正的对象是定位设备播报的定位信息,因此动作空间可以定义为一个标量矩阵
Figure SMS_45
需要说明的是,m和n的取值范围均为{-10,-9,…,0,…,9,10},即总共212=441个校正步长;
观测状态空间
Figure SMS_46
式中:
Figure SMS_47
t-N-1时刻的定位预测校正信息,
Figure SMS_48
t-1时刻的定位预测校正信息,
Figure SMS_49
t时刻的所述定位设备播报的定位信息;
可以理解的是,为了创建固定时间长度的时间序列,起始时刻可以为任意时刻,这里固定序列长度起始时刻设置为t-N-1时刻;
信念状态空间
Figure SMS_50
通过与观测状态空间的定位信息对比,在所述环境交互模型的定位信息做出预测校正后,利用当前的预测校正定位信息
Figure SMS_51
来替换
Figure SMS_52
,更新信念状态空间;
奖励函数
Figure SMS_53
式中:
Figure SMS_54
为状态值;
通过模型校正的定位信息与地图匹配定位信息的欧几里得距离来定义奖励函数,即模型校正的定位信息与地图匹配信息之间差值平方误差和的负数,具体公式如下:
Figure SMS_55
Figure SMS_56
式中:T为车辆行驶整条路线的总时间,
Figure SMS_57
是奖励缩放因子,
Figure SMS_58
为奖励折扣因子,
Figure SMS_59
Figure SMS_60
时刻模型校正的定位信息
Figure SMS_61
与实际地图匹配的定位信息
Figure SMS_62
的欧几里得距离的负数;
可以理解的是,由于在车辆行驶过程中,模型在不同
Figure SMS_63
时刻校正的定位信息具有时序性,需要按照时间序列将整条路线的定位的奖励进行累积,模型通过最大化奖励函数以寻求最优的校正策略;
X2:使用异步优势策略价值A3C算法,构建包括一个主智能体及多个子智能体的模型框架,通过每个子智能体并行探索环境信息后,对每个子智能体探索的环境信息的权值参数求解得到梯度信息上传至主智能体,通过梯度信息异步更新主智能体参数,并不断迭代探索过程和异步更新过程,进而得到高性能主智能体作为深度强化学习教师模型;
X3:通过策略剪枝方法对深度强化学习教师模型进行修剪,得到稀疏化学生模型,测量稀疏化学生模型的冗余度后对稀疏化学生模型进行重构,并重新训练重构后的稀疏化学生模型获得高性能学生轻量化模型;
X4:获取北斗卫星定位参数,将高性能学生轻量化模型部署在车载定位设备上,对北斗卫星定位参数实时定位校正,得到校正后的定位信息;
X5:将校正后的定位信息按照时间序列依次输出到真实的路面上。
在本发明的另一个具体的实施例中,主智能体和子智能体均包括策略网络与价值网络;
智策略网络用于更新主智能体和子智能体的动作策略,通过寻找一个最优动作策略
Figure SMS_64
来最大化期望回报值
Figure SMS_65
其中,
Figure SMS_66
表示主智能体策略网络的权值参数矩阵;
智能体的价值网络用来评价输出动作策略的优劣,通过输出状态价值
Figure SMS_67
为策略网络提供反馈;
其中,
Figure SMS_68
表示主智能体的价值网络。
需要说明的是,由于深度强化学习策略网络输入层的神经元个数应该与输入状态的纬度相同,输出层的神经元个数应该与校正量的纬度相同;因此,子智能体的策略网络输入层的神经元个数为100,输出神经元个数为441;子智能体的价值网络输入层神经元个数为100,输出神经元的个数为1;
由于主智能体与子智能体具有相同的网络结构,因此主智能体的策略网络结构、价值网络结构以及网络结构对应的神经元数量与子智能体保持一致。
在本发明的另一个具体的实施例中,步骤X2中,通过每个子智能体并行探索环境信息后,对每个子智能体探索的环境信息的权值参数求解得到梯度信息上传至主智能体,具体为:
引入部分可观测的马尔科夫决策过程,将历史定位观测值作为置信状态,通过每个子智能体并行与环境交互得到滑动窗口观测缓冲区,每当定位设备播报一个新的定位观测值时,将新的定位观测值与历史定位观测值加入子智能体进行一次训练并将滑动窗口移动到下一个观察缓冲区,直至子智能体训练结束,得到定位纬度与经度的原始特征参数。
在具体实施过程中,定位将接收到一个新的定位观测值
Figure SMS_69
发送给子智能体,滑动窗口向前移动一步形成一个具有恒定大小N的新的滑动窗口观测缓冲区
Figure SMS_70
,其中信念状态有N-1个,由
Figure SMS_71
构成
Figure SMS_72
的其余部分,
Figure SMS_73
为最后一个元素;当接受机设备播报一个新定位观测值
Figure SMS_74
时,即输入状态包含接受机设备播报的定位观测值和一系列历史定位观测值,子智能体会立即训练并将滑动窗口移动到下一个观察缓冲区,这个过程不断循环直到子智能体训练结束;
需要说明的是,时间序列长度N可以取任意值,这里我们取值与智能体的数量相同。
对定位纬度与经度的原始特征参数进行归一化处理,将原始特征参数转换成取值范围在[0,1]之间的归一化特征参数,公式如下:
Figure SMS_75
Figure SMS_76
式中:
Figure SMS_77
为归一化后的纬度特征参数,
Figure SMS_78
为归一化后的经度特征参数,
Figure SMS_79
为原始纬度特征参数,
Figure SMS_80
为原始经度特征参数;
可以理解的是,为了减小因输入的特征参数间数量级差别较大,引起子智能体通过损失函数计算梯度的方向偏离最小值的方向,需要对输入的特征参数作归一化处理;
将归一化特征参数的定位观测值
Figure SMS_81
输入到子智能体的价值网络中,通过
Figure SMS_82
步的价值估计函数与真实的价值函数构建时序差分误差(TD-error)
Figure SMS_83
与优势函数
Figure SMS_84
,公式如下:
Figure SMS_85
Figure SMS_86
式中:
Figure SMS_88
表示折扣率,
Figure SMS_89
表示为信念状态值,
Figure SMS_91
表示为
Figure SMS_94
时刻的信念状态值,
Figure SMS_95
表示为
Figure SMS_96
时刻的奖励值,
Figure SMS_97
为在一段T时间内子智能体与环境交互得到的折扣奖励,
Figure SMS_87
为在t=0时刻子智能体的价值网络输出的价值估计函数,
Figure SMS_90
为在
Figure SMS_92
=
Figure SMS_93
时刻子智能体的价值网络输出的价值估计函数;
对于多个子智能体的价值网络的总目标函数
Figure SMS_98
为:
Figure SMS_99
Figure SMS_100
式中:
Figure SMS_101
表示折扣率,N为子智能体的个数;
构建策略网络的总目标函数如下:
Figure SMS_102
式中:E表示求期望;
对于子智能体的策略网络来说,策略网络目标是输出策略
Figure SMS_103
不断逼近最优策略;
使用随机梯度算法来计算价值网络和策略网络的权值参数的梯度信息
Figure SMS_104
,并上传到主智能体更新模型参数,其中
Figure SMS_105
为策略网络的梯度信息,
Figure SMS_106
为价值网络的梯度信息。
在本发明的另一个更具体的实施例中,衰减因子
Figure SMS_107
一般取值为0.9。
在本发明的另一个具体的实施例中,步骤X2中,通过梯度信息异步更新主智能体参数具体为:
通过随机梯度下降迭代更新主智能体的价值网络的权值参数矩阵
Figure SMS_108
,并通过随机梯度上升迭代更新策略网络的权值参数矩阵
Figure SMS_109
,公式如下:
Figure SMS_110
Figure SMS_111
其中,
Figure SMS_112
表示价值网络的学习率,
Figure SMS_113
表示策略网络的学习率,k表示子智能体在第k次迭代过程上传梯度信息给主智能体。
Figure SMS_114
表示子智能体在第k次迭代过程上传梯度信息
Figure SMS_115
给主智能体。
Figure SMS_116
表示子智能体在第k次迭代过程上传梯度信息
Figure SMS_117
给主智能体。
在本发明的另一个具体的实施例中,步骤X2中,不断迭代探索过程和异步更新过程,具体为:
子智能体通过异步并行的方式与环境不断交互,有效利用并行计算资源在短时间内积累到大量经验参数,加速主智能体通过异步更新模型参数的训练迭代过程,直至主智能体训练收敛,输出稳定精确的定位信息。
在本发明的另一个具体的实施例中,步骤X3中,通过策略剪枝方法对深度强化学习教师模型进行修剪,得到稀疏化学生模型,具体为:
对策略网络中每一个要修剪的网络层,均添加一个大小和形状与对应网络层的权值张量相同的二进制掩码向量;
按照对应网络层权值的绝对值大小对权值进行排序,并将最小的权值屏蔽置零,直到达到期望的稀疏度,以确定这个二进制掩码向量的每一元素;
如果某一权值被屏蔽置零,则其对应的二进制掩码向量中的元素为0,否则为1,通过二进制掩码向量确定网络层中参与前向传播和后向传播的权值参数是否为0;
从初始时刻修剪策略网络以及价值网络,网络稀疏度从初始稀疏值
Figure SMS_118
(通常为0)逐步增加到最终稀疏值
Figure SMS_119
,具体目标函数如下:
Figure SMS_120
其中,
Figure SMS_121
表示初始稀疏度,
Figure SMS_122
表示策略网络或者价值网络的当前稀疏度,
Figure SMS_123
表示当前时刻,
Figure SMS_124
表示初始时刻,
Figure SMS_125
表示剪枝频率;
需要说明的是,网络训练和剪枝操作是交替进行的,即每执行一次剪枝操作,都会进行
Figure SMS_126
次的网络训练让网络从剪枝操作引起的精度损失中恢复过来。
在另一个更具体的实施例中,为了恢复稀疏化学生模型损失的性能,每对策略网络和价值网络进行N次裁剪,便对稀疏化学生模型进行评估,如果其性能低于预先设定的阈值,便使用知识蒸馏对稀疏化学生模型进行性能恢复训练,以恢复稀疏化学生模型的性能。
在另一个更具体的实施例中,使用知识蒸馏对稀疏化学生模型进行性能恢复训练,具体为:
定义
Figure SMS_127
为教师模型的状态价值经验回放对,用于存储教师模型的状态价值信息;
定义
Figure SMS_128
为学生模型的状态价值作为学生模型的状态值,用于存储学生模型的状态价值信息;
通过优化目标函数
Figure SMS_129
调整学生模型中策略网络的权值参数矩阵
Figure SMS_130
,以使得学生模型的状态价值
Figure SMS_131
接近教师模型的状态价值
Figure SMS_132
,公式如下:
Figure SMS_133
其中,
Figure SMS_134
表示softmax函数的温度;
可以理解的是,当
Figure SMS_135
>1时,softmax后的值分布的更加均匀平缓,所以需要采取一个数值较大的
Figure SMS_136
Figure SMS_137
∈[2,5],使教师模型的状态价值更加毕竟真实的状态价值。
在本发明的一个具体的实施例中,步骤X3中,测量稀疏化学生模型的冗余度后对稀疏化学生模型进行重构,并重新训练重构后的稀疏化学生模型获得高性能学生轻量化模型,具体为:
通过测量稀疏化学生模型中策略网络每一层的非零参数数量,确定每层的冗余度;
根据冗余度重构一个小规模的策略网络和价值网络;
为了使学生模型输出的状态价值不断向教师模型输出的状态价值靠拢,可以借鉴教师模型的经验,通过知识蒸馏方法构建KL散度目标函数来完成稀疏化学生模型的性能恢复训练;
将重构后的学生模型的策略网络和价值网络的大小与重构前的大小进行比较;
判断差异是否小于预设的阈值;如果小于预设的阈值,则输出得到小而紧凑的高性能学生轻量化模型;如果未小于定义阈值,则重复步骤X4,从而得到一个小而紧凑高性能学生轻量化模型。
在本发明的另一个具体的实施例中,步骤X4中,将高性能学生轻量化模型部署在车载定位设备上,对北斗卫星定位参数实时定位校正,得到校正后的定位信息,具体为:
通过北斗卫星定位设备获取定位参数
Figure SMS_138
将获取的所述卫星定位参数进行归一化处理,减小因输入的特征参数间数量级差别较大,而导致的深度强化学习模型预测出现的偏差;
将处理后的定位信息
Figure SMS_139
输入高性能学生轻量化模型的策略网络,策略网络经过输入的定位信息通过策略
Figure SMS_140
从441个校正动作中选择一个最优校正动作
Figure SMS_141
对定位信息
Figure SMS_142
进行校正,得到校正后的定位信息。
在本发明的另一个具体的实施例中,将校正后的定位信息输入高性能学生轻量化模型的价值网络,通过高性能学生轻量化模型的价值网络输出策略π的状态值
Figure SMS_143
来评价当前策略网络选取的校正动作的优劣,当评价为优时输出选取动作,当评价为劣时通过高性能学生轻量化模型的重新选取最优动作对归一化后的定位信息进行校正并进行重新评价。
本申请的说明书中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。

Claims (10)

1.一种基于轻量化强化学习的城市多径环境下北斗卫星定位方法,其特征在于,具体包括以下步骤:
X1:引入部分可观测马尔可夫决策过程建立环境交互模型,通过将过往预测信息作为置信状态,定义相应的动作空间
Figure QLYQS_1
,观测状态空间
Figure QLYQS_2
,信念状态空间
Figure QLYQS_3
,奖励函数
Figure QLYQS_4
,其中:
动作空间
Figure QLYQS_5
式中:
Figure QLYQS_6
为校正动作参数,m为纬度校正步长,n为经度校正步长;
通过所述环境交互模型的控制策略输出相应的定位校正动作,对定位设备播报的定位信息进行校正,动作空间定义为标量矩阵;
观测状态空间
Figure QLYQS_7
式中:
Figure QLYQS_8
t-N-1时刻的定位预测校正信息,
Figure QLYQS_9
t-1时刻的定位预测校正信息,
Figure QLYQS_10
t时刻的所述定位设备播报的定位信息;
信念状态空间
Figure QLYQS_11
通过与观测状态空间的定位信息对比,在所述环境交互模型的定位信息做出预测校正后,利用当前的预测校正定位信息
Figure QLYQS_12
来替换
Figure QLYQS_13
,更新信念状态空间;
奖励函数
Figure QLYQS_14
式中:
Figure QLYQS_15
为状态值,
Figure QLYQS_16
为校正动作参数;
所述奖励函数定义为环境交互模型校正的定位信息与实际地图匹配定位信息的欧几里得距离;
X2:使用异步优势策略价值A3C算法,构建包括一个主智能体及多个子智能体的模型框架,通过每个所述子智能体并行探索环境信息后,对每个所述子智能体探索的环境信息的权值参数求解得到梯度信息上传至所述主智能体,通过所述梯度信息异步更新所述主智能体参数,并不断迭代探索过程和异步更新过程,进而得到高性能主智能体作为深度强化学习教师模型;
X3:通过策略剪枝方法对所述深度强化学习教师模型进行修剪,得到稀疏化学生模型,测量所述稀疏化学生模型的冗余度后对所述稀疏化学生模型进行重构,并重新训练重构后的所述稀疏化学生模型,进而获得高性能学生轻量化模型;
X4:获取北斗卫星定位参数,将所述高性能学生轻量化模型部署在车载定位设备上,对所述北斗卫星定位参数实时定位校正,得到校正后的定位信息;
X5:将所述校正后的定位信息按照时间序列依次输出到真实的路面上。
2.根据权利要求1所述的基于轻量化强化学习的城市多径环境下北斗卫星定位方法,其特征在于,所述主智能体和所述子智能体均包括:策略网络与价值网络;
所述策略网络用于更新主智能体和所述子智能体的动作策略,通过寻找一个最优动作策略来最大化期望回报值
Figure QLYQS_17
所述智能体的价值网络用来评价动作策略的优劣,通过输出状态价值为策略网络提供反馈。
3.根据权利要求2所述的基于轻量化强化学习的城市多径环境下北斗卫星定位方法,其特征在于,步骤X2中,所述通过每个所述子智能体并行探索环境信息后,对每个所述子智能体探索的环境信息的权值参数求解得到梯度信息上传至所述主智能体,具体为:
引入部分可观测的马尔科夫决策过程,将历史定位观测值作为置信状态,通过每个所述子智能体并行与环境交互得到滑动窗口观测缓冲区,每当定位设备播报一个新的定位观测值时,将所述新的定位观测值与所述历史定位观测值加入子智能体进行一次训练并将滑动窗口移动到下一个观察缓冲区,直至所述子智能体训练结束,得到定位纬度与经度的原始特征参数;
对定位纬度与经度的原始特征参数进行归一化处理,减小所述原始特征参数之间的数量级,将所述原始特征参数转换成取值范围在[0,1]之间的归一化特征参数;
将归一化的特征参数的定位观测值输入到子智能体的价值网络中,通过折扣率、
Figure QLYQS_18
时刻的奖励值、以及n步价值估计函数构建时序差分误差,并通过t时刻的信念状态值、一段时间内子智能体与环境交互得到的折扣奖励、以及真实的价值函数构建优势函数;
通过所述时序差分误差和子智能体个数得到多个子智能体的价值网络的总目标函数;
通过所述优势函数和所述策略网络输出的策略构建包括多个子智能体的策略网络的总目标函数;
根据多个子智能体的价值网络的总目标函数和策略网络的总目标函数,使用随机梯度算法来计算价值网络和策略网络的权值参数的梯度信息,并上传到主智能体更新模型参数。
4.根据权利要求2所述的基于轻量化强化学习的城市多径环境下北斗卫星定位方法,其特征在于,步骤X2中,所述通过所述梯度信息异步更新所述主智能体参数,具体为:
通过随机梯度下降迭代更新主智能体的价值网络的权值参数矩阵,并通过随机梯度上升迭代更新主智能体策略网络的权值参数矩阵。
5.根据权利要求2所述的基于轻量化强化学习的城市多径环境下北斗卫星定位方法,其特征在于,步骤X2中,所述不断迭代探索过程和异步更新过程,具体为:
所述子智能体通过异步并行的方式与环境不断交互,利用并行计算资源积累经验参数,加速所述主智能体通过异步更新模型参数的训练迭代过程,直至所述主智能体训练收敛。
6.根据权利要求2所述的基于轻量化强化学习的城市多径环境下北斗卫星定位方法,其特征在于,步骤X3中,所述通过策略剪枝方法对所述深度强化学习教师模型进行修剪,得到稀疏化学生模型,具体为:
对策略网络中每一个要修剪的网络层,均添加一个大小和形状与对应所述网络层的权值张量相同的二进制掩码向量;
按照对应所述网络层权值的绝对值大小对所述权值进行排序,并将最小的权值屏蔽置零,直到达到期望的稀疏度,以确定这个二进制掩码向量的每一元素;
如果某一权值被屏蔽置零,则其对应的二进制掩码向量中的元素为0,否则为1,通过二进制掩码向量确定网络层中参与前向传播和后向传播的权值;
根据所述网络层中参与前向传播和后向传播的权值从初始时刻迭代修剪所述策略网络以及所述价值网络,直至网络稀疏度达到最终稀疏值。
7.根据权利要求6所述的基于轻量化强化学习的城市多径环境下北斗卫星定位方法,其特征在于,为了恢复稀疏化学生模型损失的性能,每对策略网络和价值网络进行N次裁剪,便对所述稀疏化学生模型进行评估,如果评估信息低于预设阈值,便使用知识蒸馏对所述稀疏化学生模型进行性能恢复训练,以恢复所述稀疏化学生模型的性能。
8.根据权利要求7所述的基于轻量化强化学习的城市多径环境下北斗卫星定位方法,其特征在于,所述使用知识蒸馏对所述稀疏化学生模型进行性能恢复训练,具体为:
定义所述教师模型状态价值的经验回放对,用于存储教师模型的状态价值信息;
定义所述学生模型的状态价值作为学生模型的状态值,用于存储学生模型的状态价值信息;
通过调整所述学生模型中策略网络的权值参数矩阵,使得所述学生模型的状态价值接近所述教师模型的状态价值。
9.根据权利要求2所述的基于轻量化强化学习的城市多径环境下北斗卫星定位方法,其特征在于,步骤X3中,所述测量所述稀疏化学生模型的冗余度后对所述稀疏化学生模型进行重构,并重新训练重构后的所述稀疏化学生模型,进而获得高性能学生轻量化模型,具体为:
通过测量所述稀疏化学生模型中策略网络每层的非零参数数量,确定每层的冗余度;
根据每层的冗余度重构小规模的稀疏化学生模型的策略网络和价值网络;
通过知识蒸馏方法构建KL散度目标函数来完成所述稀疏化学生模型的性能恢复训练;
将重构后的学生模型的策略网络和价值网络的大小与重构前的大小进行比较;
判断比较后的差异是否小于预设的阈值;如果小于预设的阈值,则输出得到小而紧凑的高性能学生轻量化模型;如果未小于定义阈值,则重复步骤X3和X4,从而得到高性能学生轻量化模型。
10.根据权利要求2所述的基于轻量化强化学习的城市多径环境下北斗卫星定位方法,其特征在于,步骤X4中,所述获取北斗卫星定位参数,将所述高性能学生轻量化模型部署在车载定位设备上,对所述北斗卫星定位参数实时定位校正,得到校正后的定位信息,具体为:
通过北斗卫星定位设备获取卫星定位参数;
对获取的所述卫星定位参数进行归一化处理,减小所述卫星定位参数之间的数量级;
将归一化处理后的定位信息输入所述高性能学生轻量化模型的策略网络,通过所述高性能学生轻量化模型的策略网络,从校正动作中选取最优校正动作对处理后的定位信息进行校正,得到校正后的定位信息。
CN202310115785.6A 2023-02-15 2023-02-15 基于轻量化强化学习的城市多径环境下北斗卫星定位方法 Active CN115826013B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310115785.6A CN115826013B (zh) 2023-02-15 2023-02-15 基于轻量化强化学习的城市多径环境下北斗卫星定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310115785.6A CN115826013B (zh) 2023-02-15 2023-02-15 基于轻量化强化学习的城市多径环境下北斗卫星定位方法

Publications (2)

Publication Number Publication Date
CN115826013A true CN115826013A (zh) 2023-03-21
CN115826013B CN115826013B (zh) 2023-04-21

Family

ID=85521415

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310115785.6A Active CN115826013B (zh) 2023-02-15 2023-02-15 基于轻量化强化学习的城市多径环境下北斗卫星定位方法

Country Status (1)

Country Link
CN (1) CN115826013B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109547505A (zh) * 2019-01-26 2019-03-29 福州大学 基于强化学习的多径tcp传输调度方法
CN109827579A (zh) * 2019-03-08 2019-05-31 兰州交通大学 一种组合定位中滤波模型实时校正的方法和系统
US20200372410A1 (en) * 2019-05-23 2020-11-26 Uber Technologies, Inc. Model based reinforcement learning based on generalized hidden parameter markov decision processes
CN113392935A (zh) * 2021-07-09 2021-09-14 浙江工业大学 基于注意力机制的多智能体深度强化学习策略优化方法
WO2022090800A1 (en) * 2020-10-27 2022-05-05 Mobileye Vision Technologies Ltd. Systems and methods for evaluating domain-specific navigation system capabilities
CN114911157A (zh) * 2022-04-08 2022-08-16 南京大学 基于部分可观测强化学习的机器人导航控制方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109547505A (zh) * 2019-01-26 2019-03-29 福州大学 基于强化学习的多径tcp传输调度方法
CN109827579A (zh) * 2019-03-08 2019-05-31 兰州交通大学 一种组合定位中滤波模型实时校正的方法和系统
US20200372410A1 (en) * 2019-05-23 2020-11-26 Uber Technologies, Inc. Model based reinforcement learning based on generalized hidden parameter markov decision processes
WO2022090800A1 (en) * 2020-10-27 2022-05-05 Mobileye Vision Technologies Ltd. Systems and methods for evaluating domain-specific navigation system capabilities
CN113392935A (zh) * 2021-07-09 2021-09-14 浙江工业大学 基于注意力机制的多智能体深度强化学习策略优化方法
CN114911157A (zh) * 2022-04-08 2022-08-16 南京大学 基于部分可观测强化学习的机器人导航控制方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JIANHAO TANG, ZHENNI LI, SHENGLI XIE, SHUXUE DING, SHAOLONG ZHENG, XUENI CHEN: "Deep sparse representation via deep dictionary learning for reinforcement learning" *
孙嘉浩;陈劲杰;: "基于强化学习的无人驾驶仿真研究" *

Also Published As

Publication number Publication date
CN115826013B (zh) 2023-04-21

Similar Documents

Publication Publication Date Title
CN109142171B (zh) 基于特征扩张的融合神经网络的城市pm10浓度预测方法
CN111639747B (zh) 一种基于bp神经网络的gnss-r海面风速反演方法及系统
CN110533631A (zh) 基于金字塔池化孪生网络的sar图像变化检测方法
CN114218870A (zh) 一种基于变分模态分解与注意力机制的风速预测方法
CN111159149A (zh) 一种基于三维卷积神经网络的河流流量预测方法
CN111190211B (zh) 一种gps失效位置预测定位方法
CN116853272A (zh) 一种融合复杂网络和图Transformer的自动驾驶车辆行为预测方法及系统
CN116910534A (zh) 一种不同海域海洋环境要素时空智能预测方法和装置
CN113221450B (zh) 一种针对稀疏不均匀时序数据的航位预测方法及系统
US5488589A (en) Neural network based three dimensional ocean modeler
Cohen et al. A-KIT: Adaptive Kalman-informed transformer
CN115826013B (zh) 基于轻量化强化学习的城市多径环境下北斗卫星定位方法
CN115062526B (zh) 基于深度学习的三维电离层电子浓度分布模型训练方法
CN114742265B (zh) 一种vhf信号传播路径误差预测方法及系统
Tewari et al. Application of LSTMs and HAND in rapid flood inundation mapping
Adebayo et al. Refractive index perception and prediction of radio wave through recursive neural networks using meteorological data parameters
Velasco et al. Performance analysis of multilayer perceptron neural network models in week-ahead rainfall forecasting
CN114879263A (zh) 基于卷积神经网络的三维磁张量梯度反演方法及装置
CN115169225A (zh) 一种应用于海冰多模式集合预报的自适应加权方法
CN110264154B (zh) 一种基于自编码器的众包信号地图构建方法
CN113077110A (zh) 一种基于gru的调和残差分段式潮位预测方法
Lounis et al. Deep Neural Networks for Water Quality Mapping
Youwei et al. Predictions to the water level of changjiang waterway employing deep learning algorithm lstm
CN114693988B (zh) 卫星自主位姿的判定方法、系统及存储介质
Narayanan et al. An iterative scheme to learn system dynamics of space objects from partial state information

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant