CN111273329B

CN111273329B - 一种基于强化学习q学习的实时整周模糊度快速搜索方法

Info

Publication number: CN111273329B
Application number: CN202010061924.8A
Authority: CN
Inventors: 林楠; 杨大兵; 陈刚; 满贵鑫; 周晓彬
Original assignee: China MCC17 Group Co Ltd
Current assignee: China MCC17 Group Co Ltd
Priority date: 2020-01-19
Filing date: 2020-01-19
Publication date: 2022-05-03
Anticipated expiration: 2040-01-19
Also published as: CN111273329A

Abstract

本发明公开了一种基于强化学习Q学习的实时整周模糊度快速搜索方法，属于Q学习技术领域。本发明的步骤为：步骤1、设定Q学习的学习参数以及奖励矩阵；步骤2、初始化模糊度搜索过程的学习矩阵；步骤3、对于学习矩阵的每一个episode，随机选择一个初始状态；步骤4、如果没有达到目标状态，执行以下几步：1)在当前状态中的所有可能行为中选取一个行为；2)利用选定的行为，得到下一个状态；3)按照转移规则计算Q学习的学习矩阵；4)递推至下一个状态；步骤5、利用训练好的学习矩阵，就可以找出一条从任意状态到达目标状态的行为路径。本发明操作简单方便，能够实现对实时模糊度的快速搜索。

Description

一种基于强化学习Q学习的实时整周模糊度快速搜索方法

技术领域

本发明涉及Q学习技术领域，特别涉及一种基于强化学习Q学习的实时整周模糊度快速搜索方法。

背景技术

随着GNSS服务领域的增加，快速获得高精度定位结果成为现有研究的热点。如何实时快速确定整周模糊度是实时载波相位观测值求解的瓶颈问题。现有的实时模糊度搜索方法多采取将搜索空间降维、采用附件条件约束搜索空间的思路，这些方法依然需要遍历待搜索空间，难以实现快速搜索。

专利CN108427131A中提供了一种基线长约束下的整周模糊度快速搜索方法，引入了缩放因子的概念，对当前搜索空间大小进行自适应的缩小和方法，降低了模糊度搜索过程的耗时，在保证成功率的同时提高了搜索效率。

专利CN107966718中针对现有SEVB算法在浮点模糊度解精度较差时存在搜索耗时较大问题。

发明内容

针对现有技术存在的缺陷与不足，本发明提供了一种基于强化学习Q学习的实时整周模糊度快速搜索方法，操作简单方便，能够实现对实时模糊度的快速搜索。

为实现上述目的，本发明提供如下技术方案：

一种基于强化学习Q学习的实时整周模糊度快速搜索方法，包括如下步骤：

步骤1、设定Q学习的学习参数以及奖励矩阵；

步骤2、初始化模糊度搜索过程的学习矩阵；

步骤3、对于学习矩阵的每一个episode，随机选择一个初始状态；

步骤4、如果没有达到目标状态，执行以下几步：

1)在当前状态中的所有可能行为中选取一个行为；

2)利用选定的行为，得到下一个状态；

3)按照转移规则计算Q学习的学习矩阵；

4)递推至下一个状态；

步骤5、利用训练好的学习矩阵，就可以找出一条从任意状态到达目标状态的行为路径：

1)选取当前状态为初始状态；

2)确定Q学习的行为参数，满足学习矩阵在当前状态参数及行为参数下为最大值；

3)将状态值设定为上一步确定的状态；

4)重复步骤2和3，即可使得状态成为目标状态，即：模糊度为目标值。

与现有技术相比，本发明的有益效果是：

本发明的一种基于强化学习Q学习的实时整周模糊度快速搜索方法，操作简单方便，经过第一次模糊度搜索学习之后，根据搜索空间设定学习参数及reward矩阵之后，利用Q学习实现对搜索空间的学习，最终获取从任意搜索空间位置到达目标值的最优路径，实现实时模糊度的快速搜索。

附图说明

图1为本发明的流程示意图；

图2为本发明实施例中糊度搜索空间位于2*2*2的立方体图；

图3为本发明实施例中将2*2*2的立方体按层数展开，并标注各个顶点(也即模糊度备选值)示意图；

图4为本发明实施例中将状态图和即时奖励填到奖励表中，即矩阵图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1-4所示，本实施例的一种基于强化学习Q学习的实时整周模糊度快速搜索方法，包括如下步骤：

步骤1、设定Q学习的学习参数以及奖励矩阵；

步骤2、初始化模糊度搜索过程的学习矩阵；

步骤4、如果没有达到目标状态，执行以下几步：

1)在当前状态中的所有可能行为中选取一个行为；

2)利用选定的行为，得到下一个状态；

3)按照转移规则计算Q学习的学习矩阵；

4)递推至下一个状态；

1)选取当前状态为初始状态；

3)将状态值设定为上一步确定的状态；

对于上述过程，假定糊度搜索空间位于2*2*2的立方体中，如图2所示。将2*2*2的立方体按层数展开，并标注各个顶点(也即模糊度备选值)，如图3所示。假定初值位于0处，目标模糊度位于17点，为每一步移动赋予一个奖励值，设定能够直接到达17点的奖励为100，到达别的点处奖励值为0，不能一步到达的路径赋值为-1。以初值位于0处为例，能从0处到达1、3、6处，奖励值为0，其余点数为-1。将状态图和即时奖励填到奖励表中，即矩阵R，如图4所示。类似地，构建一个矩阵Q，用来表示模糊度搜索过程中已经学到的知识。矩阵Q和矩阵R是同阶的，其行表示状态，列表示行为。在刚开始未进行模糊度搜索时，对三维空间一无所知，因此矩阵Q应初始化为零矩阵。

Q-learning算法的转移规则如下式所示：

其中，s、a表示当前的状态和行为，

表示s的下一个状态及行为，学习参数γ满足0≤γ≤1的常数。

本实施例的一种基于强化学习Q学习的实时整周模糊度快速搜索方法，操作简单方便，在初始状态基于Q学习实现对模糊度搜索过程的学习之后，在后续的整周模糊度求解过程中，依赖于Q学习的学习矩阵，能够实现对模糊度搜索时对目标模糊度参数的快速搜索。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于强化学习Q学习的实时整周模糊度快速搜索方法，其特征在于，包括如下步骤：

步骤1、设定Q学习的学习参数以及奖励矩阵；

步骤2、初始化模糊度搜索过程的学习矩阵；

步骤4、如果没有达到目标状态，执行以下几步：

1)在当前状态中的所有可能行为中选取一个行为；

2)利用选定的行为，得到下一个状态；

3)按照转移规则计算Q学习的学习矩阵；

4)递推至下一个状态；

1)选取当前状态为初始状态；

3)将状态值设定为上一步确定的状态；