CN111260027B - 一种基于强化学习的智能体自动决策方法 - Google Patents

一种基于强化学习的智能体自动决策方法 Download PDF

Info

Publication number
CN111260027B
CN111260027B CN202010026000.4A CN202010026000A CN111260027B CN 111260027 B CN111260027 B CN 111260027B CN 202010026000 A CN202010026000 A CN 202010026000A CN 111260027 B CN111260027 B CN 111260027B
Authority
CN
China
Prior art keywords
network
strategy
action
target
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN202010026000.4A
Other languages
English (en)
Other versions
CN111260027A (zh
Inventor
杨成林
王寻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202010026000.4A priority Critical patent/CN111260027B/zh
Publication of CN111260027A publication Critical patent/CN111260027A/zh
Application granted granted Critical
Publication of CN111260027B publication Critical patent/CN111260027B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle

Abstract

本发明公开了一种基于强化学习的智能体自动决策方法,确定智能体的环境状态以及动作空间,构建用于确定可选动作第一选择概率的目标网络以及用于确定实施第一选择概率动作的后效奖励值的评价网络,确定智能体的当前环境状态和目标环境状态,通过目标网络和评价网络得到智能体各步的动作,构成轨迹策略存入经验样本池,根据经验样本池中现有的轨迹策略生成新的轨迹策略对经验样本池进行扩充,根据预先设置好的更新周期采用经验样本池中的样本对评价网络和目标网络进行参数更新。采用本发明可以提高神经网络训练性能,从而提升智能体自动决策的准确度。

Description

一种基于强化学习的智能体自动决策方法
技术领域
本发明属于机器学习技术领域,更为具体地讲,涉及一种基于强化学习的智能体自动决策方法。
背景技术
强化学习(Reinforcement Learning,RL)最初源于心理学,用于模仿智能生物的学习模式,是一类以环境状态(State)作为输入,以适应环境(Environment)为目标的特殊的无模型机器学习方法。图1是强化学习的过程示意图。如图1所示,强化学习的核心思想是通过与环境的不断交互和不断试错(Explorer),利用从环境中得到的反馈信号(Reward)实现对一系列策略(Policy)的优化。
强化学习已经涉及与应用到了很多领域,例如自动驾驶、推荐系统、机器人、直升机飞行、游戏等等领域。例如,目前强化学习在游戏领域得到了快速的发展,主要以谷歌公司的DeepMind团队为代表,从状态有限游戏围棋的AlphaGo到如今状态无限的大型经典即时战略游戏星际争霸2(StarCraft 2)的AlphaStar,都是使用了精心设计的强化学习训练后得到较优模型,自动生成最优目标策略来实现。在自动驾驶领域,强化学习可以使得汽车在无人无地图无规则的条件下,从零开始自主学习驾驶,通过摄像头和其他传感器将周围环境的信息作为输入并解析,例如区分障碍物类别、障碍物的相对速度和相对距离、道路的宽度和曲率等等。
在当前强化学习领域,DQN(Deep Q-Learning)算法是一种较为常用的方法,该方法将Q-learning和深度学习(Deep Learning)结合,其中Q-learning是通过不停地探索和更新Q表中的Q(质量)值从而计算出智能体行动的最佳路径,深度学习就是用神经网络来学习数据。在DQN算法中,其Q值不用Q表记录,而是用神经网络来预测Q值,并通过不断更新神经网络从而学习到最优的行动路径。DQN包含两个神经网络,一个为目标网络,用于预测Q值,另一个为评价网络,用于获取Q评估值。目标网络的参数相对固定,是评价网络的一个历史版本。在智能体运行过程中会维护一个经验样本池,用于记录每一个状态下的行动、奖励、和下一个状态的结果,评价网络从记忆库中随机提取样本进行训练,实现参数更新,目标网络定期将评价网络的参数复制过来完成参数更新。
在现有方法中,由于经验样本池中只存储相关达成规定目标状态的轨迹策略,对于规定探索次数和规定时间步中未达到欲达目标的相关轨迹策略执意丢弃,可能会造成所构造的经验样本池内可用数据较少,也即是说有效样本数少,轨迹中策略所达奖励稀疏,大量浪费资源,包括人工设计奖励函数成本、编写代码成本、硬件设施成本等。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于强化学习的智能体自动决策方法,对经验样本池进行扩充,提高神经网络训练性能,从而提升智能体自动决策的准确度。
为了实现以上发明目的,本发明基于强化学习的智能体自动决策方法包括以下步骤:
S1:确定智能体的环境状态S以及动作空间A,其中动作空间A包含至少一个可选动作;
S2:构建目标网络和评价网络,其中目标网络的输入为环境状态,其输出为智能体各个可选动作的第一选择概率;评价网络的输入各个可选动作的第一选择概率,其输出为实施第一选择概率动作的后效奖励值;
S3:确定智能体的初始环境状态S0和目标环境状态G,通过目标网络和评价网络得到智能体各步的动作,记智能体从初始环境状态S0到达目标环境状态G所需的步数为K,每步获取当前策略πk的元组为(Sk-1,ak-1,Sk,rk,G),其中Sk-1表示第k步动作执行前的环境状态,ak-1表示第k步执行的动作,Sk表示第k步动作执行后所达到的环境状态,rk表示第k步动作得到的即时奖励值;将K步策略构成轨迹策略并存入经验样本池中;
S4:根据经验样本池现有的轨迹策略生成新的轨迹策略,其具体方法如下:记现有的某个轨迹策略中包含K步策略,每步策略为πk=(Sk-1,ak-1,Sk,rk,G),将第k*步动作执行后所达到的环境状态
Figure BDA0002362490610000021
作为目标状态,将根据现有轨迹策略重新从初始环境状态S0开始执行策略到达环境状态
Figure BDA0002362490610000022
将所得到的轨迹策略存入经验样本池中;
S5:根据预先设置好的更新周期对评价网络进行参数更新,在参数更新时从经验样本池中选择若干轨迹策略对评价网络进行训练,目标网络根据预先设置好的更新周期将评价网络的参数复制至目标网络,完成目标网络的更新。目标网络的更新周期大于评价网络的更新周期。
本发明基于强化学习的智能体自动决策方法,确定智能体的环境状态以及动作空间,构建用于确定可选动作第一选择概率的目标网络以及用于确定实施第一选择概率动作的后效奖励值的评价网络,确定智能体的当前环境状态和目标环境状态,通过目标网络和评价网络得到智能体各步的动作,构成轨迹策略存入经验样本池,根据经验样本池中现有的轨迹策略生成新的轨迹策略对经验样本池进行扩充,根据预先设置好的更新周期采用经验样本池中的样本对评价网络和目标网络进行参数更新。采用本发明可以提高神经网络训练性能,从而提升智能体自动决策的准确度。
附图说明
图1是强化学习的过程示意图;
图2是本发明基于强化学习的智能体自动决策方法的具体实施方式流程图;
图3是本实施例中智能汽车自动驾驶网络的结构示意图;
图4是本实施例中基于经典DQN算法进行智能汽车自动驾驶决策的平均得分曲线图;
图5是本实施例中基于本发明进行智能汽车自动驾驶决策的平均得分曲线图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
实施例
图2是本发明基于强化学习的智能体自动决策方法的具体实施方式流程图。如图2所示,本发明基于强化学习的智能体自动决策方法的具体步骤包括:
S201:获取智能体信息:
确定智能体的环境状态S以及动作空间A,其中动作空间A包含至少一个可选动作。
本实施例中以智能汽车的自动驾驶为例,其环境状态为智能汽车所处的道路环境,通常包括智能汽车所拍摄的前方道路图像和传感器所采集到的风速、湿度等参数,动作空间包括智能汽车的多个驾驶动作:汽车行进速度、转速、角度偏移量。
S202:构建目标网络和评价网络:
构建目标网络和评价网络,其中目标网络的输入为环境状态,其输出为智能体各个可选动作的第一选择概率,通过目标网络可以实现对输入环境状态的自动特征提取。评价网络的输入各个可选动作的第一选择概率,其输出为实施第一选择概率动作的后效奖励值。图3是本实施例中智能汽车自动驾驶网络的结构示意图。
S203:获取轨迹策略:
确定智能体的初始环境状态S0和目标环境状态G,通过目标网络和评价网络得到智能体各步的动作,记智能体从初始环境状态S0到达目标环境状态G所需的步数为K,每步获取当前策略πk的元组为(Sk-1,ak-1,Sk,rk,G),其中Sk-1表示第k步动作执行前的环境状态,ak-1表示第k步执行的动作,Sk表示第k步动作执行后所达到的环境状态,rk表示第k步动作得到的即时奖励值。将K步策略构成轨迹策略并存入经验样本池中。
S204:扩充经验样本池:
为了提高经验样本池中的经验样本质量,可以根据经验样本池现有的轨迹策略生成新的轨迹策略,其具体方法如下:记现有的某个轨迹策略中包含K步策略,每步策略为πk=(Sk-1,ak-1,Sk,rk,G),将第k*步动作执行后所达到的环境状态
Figure BDA0002362490610000041
作为目标状态,根据现有轨迹策略重新从初始环境状态S0开始执行策略到达环境状态
Figure BDA0002362490610000042
将所得到的轨迹策略存入经验样本池中。
本发明通过对经验样本池进行了扩充,将未达目标环境状态的部分策略存入,增加矩阵中的奖励正值,将稀疏奖励问题给转化成非稀疏奖励,有效地扩展了经验池中完成任务获得正值奖励的经验数量。在智能体运行过程中会对经验样本池进行维护,保留新的轨迹策略,删除旧的轨迹策略,即采用先入先出的维护模式,以保证对目标网络和评价网络的训练适应最新的环境状态。
S205:网络更新:
根据预先设置好的更新周期对评价网络进行参数更新,在参数更新时从经验样本池中选择若干轨迹策略对评价网络进行训练,目标网络根据预先设置好的更新周期将评价网络的参数复制至目标网络,完成目标网络的更新。目标网络的更新周期大于评价网络的更新周期。
为了更好地说明本发明的技术效果,采用经典DQN算法作为对比方法,和本发明在智能汽车自动驾驶平台中的应用效果进行应用验证。本次验证中轨迹策略的生成和网络更新交叉进行,在对评价网络更新时利用小批量梯度下降法进行。设置控制的最大帧数为200000,重放池队列大小为10000,预达目标取值为5,批尺寸为5,采用Adam优化器。将每100次轨迹策略的得分(即轨迹策略的折扣即时奖励和,也就是Q值)进行平均,以对比两种方法的应用效果。图4是本实施例中基于经典DQN算法进行智能汽车自动驾驶决策的平均得分曲线图。图5是本实施例中基于本发明进行智能汽车自动驾驶决策的平均得分曲线图。比较图4和图5可知,本发明的得分逐渐增大并且平均得分值十分稳定,而经典DQN算法的得分不高且不稳定,这是因为经典DQN算法在进行网络训练时采用随机经验采样和奖励稀疏,导致目标网络和评价网络的性能不高,而本发明通过扩充经验样本池,使以上问题得到了改善。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (1)

1.一种基于强化学习的智能体自动决策方法,其特征在于,包括以下步骤:
S1:确定智能汽车的环境状态S以及动作空间A,其中环境状态为智能汽车所处的道路环境,包括智能汽车所拍摄的前方道路图像和传感器所采集到的风速、湿度,动作空间A包含智能汽车的多个驾驶动作:汽车行进速度、转速、角度偏移量;
S2:构建目标网络和评价网络,其中目标网络的输入为环境状态,其输出为智能汽车各个可选动作的第一选择概率;评价网络的输入各个可选动作的第一选择概率,其输出为实施第一选择概率动作的后效奖励值;
S3:确定智能汽车的初始环境状态S0和目标环境状态G,通过目标网络和评价网络得到智能汽车各步的动作,记智能汽车从初始环境状态S0到达目标环境状态G所需的步数为K,每步获取当前策略πk的元组为(Sk-1,ak-1,Sk,rk,G),其中Sk-1表示第k步动作执行前的环境状态,ak-1表示第k步执行的动作,Sk表示第k步动作执行后所达到的环境状态,rk表示第k步动作得到的即时奖励值;将K步策略构成轨迹策略并存入经验样本池中;
S4:根据经验池现有的轨迹策略生成新的轨迹策略,其具体方法如下:记现有的某个轨迹策略中包含K步策略,每步策略为πk=(Sk-1,ak-1,Sk,rk,G),将第k*步动作执行后所达到的环境状态
Figure FDA0003663702110000011
作为目标状态,将根据现有轨迹策略重新从初始环境状态S0开始执行策略到达环境状态
Figure FDA0003663702110000012
将所得到的轨迹策略存入经验样本池中;
S5:根据预先设置好的更新周期对评价网络进行参数更新,在参数更新时从经验样本池中选择若干轨迹策略对评价网络进行训练,目标网络根据预先设置好的更新周期将评价网络的参数复制至目标网络,完成目标网络的更新;目标网络的更新周期大于评价网络的更新周期。
CN202010026000.4A 2020-01-10 2020-01-10 一种基于强化学习的智能体自动决策方法 Expired - Fee Related CN111260027B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010026000.4A CN111260027B (zh) 2020-01-10 2020-01-10 一种基于强化学习的智能体自动决策方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010026000.4A CN111260027B (zh) 2020-01-10 2020-01-10 一种基于强化学习的智能体自动决策方法

Publications (2)

Publication Number Publication Date
CN111260027A CN111260027A (zh) 2020-06-09
CN111260027B true CN111260027B (zh) 2022-07-26

Family

ID=70952854

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010026000.4A Expired - Fee Related CN111260027B (zh) 2020-01-10 2020-01-10 一种基于强化学习的智能体自动决策方法

Country Status (1)

Country Link
CN (1) CN111260027B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112327821A (zh) * 2020-07-08 2021-02-05 东莞市均谊视觉科技有限公司 一种基于深度强化学习的智能清洁机器人路径规划方法
CN112101564A (zh) * 2020-08-17 2020-12-18 清华大学 基于注意力机制的多智能体值函数分解方法及装置
CN112132263B (zh) * 2020-09-11 2022-09-16 大连理工大学 一种基于强化学习的多智能体自主导航方法
CN112221140B (zh) * 2020-11-04 2024-03-22 腾讯科技(深圳)有限公司 虚拟对象的动作确定模型训练方法、装置、设备及介质
CN113211441B (zh) * 2020-11-30 2022-09-09 湖南太观科技有限公司 神经网络训练和机器人控制方法及装置
CN112765892B (zh) * 2021-01-27 2023-09-26 东北大学 一种异构车联网中的智能切换判决方法
CN112843725A (zh) * 2021-03-15 2021-05-28 网易(杭州)网络有限公司 智能体处理方法及装置
CN115169519A (zh) * 2022-07-14 2022-10-11 重庆交通大学 一种仿生鱼体自主智能游动模拟方法、装置及系统
CN115993831B (zh) * 2023-03-23 2023-06-09 安徽大学 基于深度强化学习的机器人无目标网络的路径规划方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108211362A (zh) * 2017-12-26 2018-06-29 浙江大学 一种基于深度q学习网络的非玩家角色战斗策略学习方法
CN110525428A (zh) * 2019-08-29 2019-12-03 合肥工业大学 一种基于模糊深度强化学习的自动泊车方法
WO2019241680A1 (en) * 2018-06-15 2019-12-19 Google Llc Deep reinforcement learning for robotic manipulation

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108211362A (zh) * 2017-12-26 2018-06-29 浙江大学 一种基于深度q学习网络的非玩家角色战斗策略学习方法
WO2019241680A1 (en) * 2018-06-15 2019-12-19 Google Llc Deep reinforcement learning for robotic manipulation
CN110525428A (zh) * 2019-08-29 2019-12-03 合肥工业大学 一种基于模糊深度强化学习的自动泊车方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
RPR-BP: A Deep Reinforcement Learning Method for Automatic Hyperparameter Optimization;Jia WU;《2019 International Joint Conference on Neural Networks (IJCNN)》;20190930;1-8 *
基于强化学习的游戏环境中智能体决策模型的设计研究;王寻;《中国优秀硕士学位论文全文数据库 (基础科学辑)》;20200715(第7期);A002-473 *
深度强化学习理论及其应用综述;万里鹏;《模式识别与人工智能》;20190131;67-81 *

Also Published As

Publication number Publication date
CN111260027A (zh) 2020-06-09

Similar Documents

Publication Publication Date Title
CN111260027B (zh) 一种基于强化学习的智能体自动决策方法
CN112668235B (zh) 基于离线模型预训练学习的ddpg算法的机器人控制方法
Zhang et al. Query-efficient imitation learning for end-to-end autonomous driving
CN110520868B (zh) 用于分布式强化学习的方法、程序产品和存储介质
CN110956148B (zh) 无人车的自主避障方法及装置、电子设备、可读存储介质
CN112596515B (zh) 一种多物流机器人移动控制方法及装置
CN112433525A (zh) 基于模仿学习及深度强化学习的移动机器人导航方法
CN112162555A (zh) 混合车队中基于强化学习控制策略的车辆控制方法
CN113561986B (zh) 自动驾驶汽车决策方法及装置
WO2023102962A1 (zh) 一种训练端到端的自动驾驶策略的方法
CN112172813B (zh) 基于深度逆强化学习的模拟驾驶风格的跟车系统及方法
CN114162146B (zh) 行驶策略模型训练方法以及自动驾驶的控制方法
WO2019222634A1 (en) Data-efficient hierarchical reinforcement learning
CN115409158A (zh) 基于分层深度强化学习模型的机器人行为决策方法及设备
Feher et al. Q-learning based reinforcement learning approach for lane keeping
CN114089776B (zh) 一种基于深度强化学习的无人机避障方法
CN113276852A (zh) 一种基于最大熵强化学习框架的无人驾驶车道保持方法
Hilleli et al. Toward deep reinforcement learning without a simulator: An autonomous steering example
US20230162539A1 (en) Driving decision-making method and apparatus and chip
CN113743603A (zh) 控制方法、装置、存储介质及电子设备
CN111348034A (zh) 基于生成对抗模仿学习的自动泊车方法及系统
CN114137967B (zh) 基于多网络联合学习的驾驶行为决策方法
Rodrigues et al. Optimizing agent training with deep q-learning on a self-driving reinforcement learning environment
CN113985870B (zh) 一种基于元强化学习的路径规划方法
CN113721655A (zh) 一种控制周期自适应的强化学习无人机稳定飞行控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220726

CF01 Termination of patent right due to non-payment of annual fee