CN111273329B - 一种基于强化学习q学习的实时整周模糊度快速搜索方法 - Google Patents
一种基于强化学习q学习的实时整周模糊度快速搜索方法 Download PDFInfo
- Publication number
- CN111273329B CN111273329B CN202010061924.8A CN202010061924A CN111273329B CN 111273329 B CN111273329 B CN 111273329B CN 202010061924 A CN202010061924 A CN 202010061924A CN 111273329 B CN111273329 B CN 111273329B
- Authority
- CN
- China
- Prior art keywords
- learning
- state
- matrix
- behavior
- ambiguity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S19/00—Satellite radio beacon positioning systems; Determining position, velocity or attitude using signals transmitted by such systems
- G01S19/38—Determining a navigation solution using signals transmitted by a satellite radio beacon positioning system
- G01S19/39—Determining a navigation solution using signals transmitted by a satellite radio beacon positioning system the satellite radio beacon positioning system transmitting time-stamped messages, e.g. GPS [Global Positioning System], GLONASS [Global Orbiting Navigation Satellite System] or GALILEO
- G01S19/42—Determining position
- G01S19/43—Determining position using carrier phase measurements, e.g. kinematic positioning; using long or short baseline interferometry
- G01S19/44—Carrier phase ambiguity resolution; Floating ambiguity; LAMBDA [Least-squares AMBiguity Decorrelation Adjustment] method
Landscapes
- Engineering & Computer Science (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于强化学习Q学习的实时整周模糊度快速搜索方法,属于Q学习技术领域。本发明的步骤为:步骤1、设定Q学习的学习参数以及奖励矩阵;步骤2、初始化模糊度搜索过程的学习矩阵;步骤3、对于学习矩阵的每一个episode,随机选择一个初始状态;步骤4、如果没有达到目标状态,执行以下几步:1)在当前状态中的所有可能行为中选取一个行为;2)利用选定的行为,得到下一个状态;3)按照转移规则计算Q学习的学习矩阵;4)递推至下一个状态;步骤5、利用训练好的学习矩阵,就可以找出一条从任意状态到达目标状态的行为路径。本发明操作简单方便,能够实现对实时模糊度的快速搜索。
Description
技术领域
本发明涉及Q学习技术领域,特别涉及一种基于强化学习Q学习的实时整周模糊度快速搜索方法。
背景技术
随着GNSS服务领域的增加,快速获得高精度定位结果成为现有研究的热点。如何实时快速确定整周模糊度是实时载波相位观测值求解的瓶颈问题。现有的实时模糊度搜索方法多采取将搜索空间降维、采用附件条件约束搜索空间的思路,这些方法依然需要遍历待搜索空间,难以实现快速搜索。
专利CN108427131A中提供了一种基线长约束下的整周模糊度快速搜索方法,引入了缩放因子的概念,对当前搜索空间大小进行自适应的缩小和方法,降低了模糊度搜索过程的耗时,在保证成功率的同时提高了搜索效率。
专利CN107966718中针对现有SEVB算法在浮点模糊度解精度较差时存在搜索耗时较大问题。
发明内容
针对现有技术存在的缺陷与不足,本发明提供了一种基于强化学习Q学习的实时整周模糊度快速搜索方法,操作简单方便,能够实现对实时模糊度的快速搜索。
为实现上述目的,本发明提供如下技术方案:
一种基于强化学习Q学习的实时整周模糊度快速搜索方法,包括如下步骤:
步骤1、设定Q学习的学习参数以及奖励矩阵;
步骤2、初始化模糊度搜索过程的学习矩阵;
步骤3、对于学习矩阵的每一个episode,随机选择一个初始状态;
步骤4、如果没有达到目标状态,执行以下几步:
1)在当前状态中的所有可能行为中选取一个行为;
2)利用选定的行为,得到下一个状态;
3)按照转移规则计算Q学习的学习矩阵;
4)递推至下一个状态;
步骤5、利用训练好的学习矩阵,就可以找出一条从任意状态到达目标状态的行为路径:
1)选取当前状态为初始状态;
2)确定Q学习的行为参数,满足学习矩阵在当前状态参数及行为参数下为最大值;
3)将状态值设定为上一步确定的状态;
4)重复步骤2和3,即可使得状态成为目标状态,即:模糊度为目标值。
与现有技术相比,本发明的有益效果是:
本发明的一种基于强化学习Q学习的实时整周模糊度快速搜索方法,操作简单方便,经过第一次模糊度搜索学习之后,根据搜索空间设定学习参数及reward矩阵之后,利用Q学习实现对搜索空间的学习,最终获取从任意搜索空间位置到达目标值的最优路径,实现实时模糊度的快速搜索。
附图说明
图1为本发明的流程示意图;
图2为本发明实施例中糊度搜索空间位于2*2*2的立方体图;
图3为本发明实施例中将2*2*2的立方体按层数展开,并标注各个顶点(也即模糊度备选值)示意图;
图4为本发明实施例中将状态图和即时奖励填到奖励表中,即矩阵图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1-4所示,本实施例的一种基于强化学习Q学习的实时整周模糊度快速搜索方法,包括如下步骤:
步骤1、设定Q学习的学习参数以及奖励矩阵;
步骤2、初始化模糊度搜索过程的学习矩阵;
步骤3、对于学习矩阵的每一个episode,随机选择一个初始状态;
步骤4、如果没有达到目标状态,执行以下几步:
1)在当前状态中的所有可能行为中选取一个行为;
2)利用选定的行为,得到下一个状态;
3)按照转移规则计算Q学习的学习矩阵;
4)递推至下一个状态;
步骤5、利用训练好的学习矩阵,就可以找出一条从任意状态到达目标状态的行为路径:
1)选取当前状态为初始状态;
2)确定Q学习的行为参数,满足学习矩阵在当前状态参数及行为参数下为最大值;
3)将状态值设定为上一步确定的状态;
4)重复步骤2和3,即可使得状态成为目标状态,即:模糊度为目标值。
对于上述过程,假定糊度搜索空间位于2*2*2的立方体中,如图2所示。将2*2*2的立方体按层数展开,并标注各个顶点(也即模糊度备选值),如图3所示。假定初值位于0处,目标模糊度位于17点,为每一步移动赋予一个奖励值,设定能够直接到达17点的奖励为100,到达别的点处奖励值为0,不能一步到达的路径赋值为-1。以初值位于0处为例,能从0处到达1、3、6处,奖励值为0,其余点数为-1。将状态图和即时奖励填到奖励表中,即矩阵R,如图4所示。类似地,构建一个矩阵Q,用来表示模糊度搜索过程中已经学到的知识。矩阵Q和矩阵R是同阶的,其行表示状态,列表示行为。在刚开始未进行模糊度搜索时,对三维空间一无所知,因此矩阵Q应初始化为零矩阵。
Q-learning算法的转移规则如下式所示:
其中,s、a表示当前的状态和行为,
本实施例的一种基于强化学习Q学习的实时整周模糊度快速搜索方法,操作简单方便,在初始状态基于Q学习实现对模糊度搜索过程的学习之后,在后续的整周模糊度求解过程中,依赖于Q学习的学习矩阵,能够实现对模糊度搜索时对目标模糊度参数的快速搜索。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (1)
1.一种基于强化学习Q学习的实时整周模糊度快速搜索方法,其特征在于,包括如下步骤:
步骤1、设定Q学习的学习参数以及奖励矩阵;
步骤2、初始化模糊度搜索过程的学习矩阵;
步骤3、对于学习矩阵的每一个episode,随机选择一个初始状态;
步骤4、如果没有达到目标状态,执行以下几步:
1)在当前状态中的所有可能行为中选取一个行为;
2)利用选定的行为,得到下一个状态;
3)按照转移规则计算Q学习的学习矩阵;
4)递推至下一个状态;
步骤5、利用训练好的学习矩阵,就可以找出一条从任意状态到达目标状态的行为路径:
1)选取当前状态为初始状态;
2)确定Q学习的行为参数,满足学习矩阵在当前状态参数及行为参数下为最大值;
3)将状态值设定为上一步确定的状态;
4)重复步骤2和3,即可使得状态成为目标状态,即:模糊度为目标值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010061924.8A CN111273329B (zh) | 2020-01-19 | 2020-01-19 | 一种基于强化学习q学习的实时整周模糊度快速搜索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010061924.8A CN111273329B (zh) | 2020-01-19 | 2020-01-19 | 一种基于强化学习q学习的实时整周模糊度快速搜索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111273329A CN111273329A (zh) | 2020-06-12 |
CN111273329B true CN111273329B (zh) | 2022-05-03 |
Family
ID=70997493
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010061924.8A Active CN111273329B (zh) | 2020-01-19 | 2020-01-19 | 一种基于强化学习q学习的实时整周模糊度快速搜索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111273329B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111885648A (zh) * | 2020-07-22 | 2020-11-03 | 北京工业大学 | 基于边缘缓存的能量有效的网络内容分发机制构建方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106772474A (zh) * | 2016-12-14 | 2017-05-31 | 航天恒星科技有限公司 | 一种确定整周模糊度的方法及装置 |
CN107607972A (zh) * | 2017-08-21 | 2018-01-19 | 暨南大学 | 一种基于实数编码自适应遗传算法的整周模糊度快速获取方法 |
CN107966718A (zh) * | 2017-11-23 | 2018-04-27 | 东华理工大学 | 一种改进的整周模糊度搜索方法 |
CN108427131A (zh) * | 2017-11-23 | 2018-08-21 | 东华理工大学 | 一种基线长约束下的整周模糊度快速搜索算法 |
-
2020
- 2020-01-19 CN CN202010061924.8A patent/CN111273329B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106772474A (zh) * | 2016-12-14 | 2017-05-31 | 航天恒星科技有限公司 | 一种确定整周模糊度的方法及装置 |
CN107607972A (zh) * | 2017-08-21 | 2018-01-19 | 暨南大学 | 一种基于实数编码自适应遗传算法的整周模糊度快速获取方法 |
CN107966718A (zh) * | 2017-11-23 | 2018-04-27 | 东华理工大学 | 一种改进的整周模糊度搜索方法 |
CN108427131A (zh) * | 2017-11-23 | 2018-08-21 | 东华理工大学 | 一种基线长约束下的整周模糊度快速搜索算法 |
Non-Patent Citations (1)
Title |
---|
改进粒子群算法求解GPS短基线整周模糊度的研究;王建等;《大地测量与地球动力学》;20120831;第32卷(第4期);第148-151页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111273329A (zh) | 2020-06-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108053119B (zh) | 一种求解零等待流水车间调度问题的改进粒子群优化方法 | |
CN104750705B (zh) | 信息回复方法及装置 | |
CN106156331A (zh) | 冷热温数据服务器系统及其处理方法 | |
CN111323037B (zh) | 一种移动机器人新型骨架提取的Voronoi路径规划算法 | |
CN113885536B (zh) | 一种基于全局海鸥算法的移动机器人路径规划方法 | |
CN110726408A (zh) | 一种基于改进蚁群算法的移动机器人路径规划方法 | |
CN111273329B (zh) | 一种基于强化学习q学习的实时整周模糊度快速搜索方法 | |
CN106528989B (zh) | 一种分布式并行sph仿真方法 | |
CN114047770A (zh) | 一种多内心搜寻改进灰狼算法的移动机器人路径规划方法 | |
CN112327876A (zh) | 一种基于终距指数的机器人路径规划方法 | |
CN111261235A (zh) | 用于检索环状分子的结构的方法和装置以及记录介质 | |
CN108459993B (zh) | 基于快速追峰采样的复杂高维系统优化方法 | |
CN115719133A (zh) | 一种基于改进多目标灰狼优化算法解决rhfs调度问题 | |
CN108304404B (zh) | 一种基于改进的Sketch结构的数据频率估计方法 | |
CN112507047B (zh) | 一种基于兴趣点偏好的最优有序路径查询方法 | |
CN113609677A (zh) | 一种基于多路径的机器学习辅助天线设计方法 | |
CN110988933B (zh) | 一种基于模拟退火和梯度下降的选星方法 | |
CN108197613B (zh) | 一种基于深度卷积级联网络的人脸检测优化方法 | |
CN111985162A (zh) | 一种基于深度学习的置换流水车间控制方法及系统 | |
CN115494840A (zh) | 一种基于蒙特卡洛因子的mc-iaco的焊接机器人路径规划方法 | |
CN110908283B (zh) | 电采暖设备控制方法、装置及系统 | |
Panov et al. | Automatic formation of the structure of abstract machines in hierarchical reinforcement learning with state clustering | |
CN110161997B (zh) | 基于蚁群和模拟退火算法的流水车间调度方法及装置 | |
CN114077924A (zh) | 考虑极端大风天气的风电功率预测大风数据增强方法 | |
CN113419532A (zh) | 一种基于均匀设计的路径规划蚁群算法参数选取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |