CN111753982A - 一种基于强化学习的人机融合自主性边界切换方法及系统 - Google Patents

一种基于强化学习的人机融合自主性边界切换方法及系统 Download PDF

Info

Publication number
CN111753982A
CN111753982A CN202010478808.6A CN202010478808A CN111753982A CN 111753982 A CN111753982 A CN 111753982A CN 202010478808 A CN202010478808 A CN 202010478808A CN 111753982 A CN111753982 A CN 111753982A
Authority
CN
China
Prior art keywords
boundary
network
uncertainty
reinforcement learning
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010478808.6A
Other languages
English (en)
Inventor
康宇
张倩倩
王雪峰
游诗艺
吕文君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202010478808.6A priority Critical patent/CN111753982A/zh
Publication of CN111753982A publication Critical patent/CN111753982A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种基于强化学习的人机融合自主性边界切换方法及系统,属于人与机器(人工智能)共享控制技术领域,包括:获取决策信息,该决策信息包括被控对象所处环境状态对应的动作、环境状态对应的动作的不确定度以及人工对被控对象所处环境状态的判断结果;利用深度强化学习网络对决策信息进行处理,预测边界切换结果。本发明将自主性边界处理成动态边界,能够根据不同的问题背景,根据人和AI共享的过程,学习更优的界,实现人与机器共享自主控制效果。

Description

一种基于强化学习的人机融合自主性边界切换方法及系统
技术领域
本发明涉及人与机器(人工智能)共享控制技术领域,特别涉及一种基于强化学习的人机融合自主性边界切换方法及系统。
背景技术
在传统控制或者如今火热的人工智能控制领域,人充当的是控制系统目标的终极来源的角色。但是人的各种感官等具有感知各种外界环境的能力,可以充当控制系统的传感器;人的大脑具有独特的智能,可以作为系统的控制器以及人的手脚可以作为具有执行力的执行器。因此,人的作用可以不仅仅体现在控制输入上。如果将人考虑到控制系统的闭环中,利用人特有的智能优势,实现与智能体的共享控制,将会在诸多涉及人机系统的共享控制问题中发挥更大的作用。
目前有关人机系统自主性边界的种类包括:绝对边界、相对边界和其他边界。绝对边界指与具体人机系统无关的静态边界,是人机切换过程中不可逾越的确定边界。相对边界是与具体人机系统相关的动态边界。环境不确定性越大,就会造成相对边界越难确定。其他边界如对抗边界,指在对抗环境下需要考虑的自主性边界、网络化人机边界等。
人机系统中人在系统的构建中的地位有三种可能:一是系统的目标、操控等需要人的深度参与,人是整个系统中不可缺少的一个部分,此时“人在回路”(in-the-loop);二是系统目标由人给出,执行则由具有部分自主性的机器自行进行,此时“人在回路上”(on-the-loop);第三则是机器可根据感知信息独立地确定目标并给出具体指令,无需人的介入,此时“人在回路外”(out-of-the-loop)。人在回路外的系统不算严格意义的人机系统;人在回路上的系统中人的因素的考虑是可以与机器分离割裂的;而“人在回路”的人机系统的设计和分析则同时包含了人和机器两个因素。
发明内容
本发明的目的在于根据被控环境的要求,进行更自主更合适的边界切换,实现人与机器共享自主控制效果。
为实现以上目的,本发明采用一种基于强化学习的人机融合自主性边界切换方法,包括:
获取决策信息,该决策信息包括被控对象所处环境状态对应的动作、环境状态对应的动作的不确定度以及人工对被控对象所处环境状态的判断结果;
利用深度强化学习网络对决策信息进行处理,预测边界切换结果。
进一步地,所述决策信息
Figure BDA0002516651280000021
其中st表示被控对象的环境状态,at表示环境状态st对应的动作,ct表示动作at的不确定度,ht表示人工对于状态st的判断。
进一步地,还包括:
采用贝叶斯神经网络估计所述动作at的不确定度ct
进一步地,所述采用贝叶斯神经网络估计所述动作at的不确定度ct,包括:
利用给定数据集训练参数为φ的贝叶斯神经网络;
利用蒙特卡洛积分获取预测分布的一阶矩和二阶矩,并根据一阶矩和二阶矩获得方差作为所述动作at的不确定度ct
利用训练得到的贝叶斯神经网络对环境状态st对应的动作的不确定性进行预测,得到预测分布。
进一步地,所述利用深度强化学习网络对决策信息进行处理,预测边界切换结果,包括:
S1、获取所述决策信息作为深度强化学习网络的输入;
S2、根据所述决策信息,计算演员网络的输出边界τt
S3、根据演员网络的输出边界τt,计算奖赏值,并利用贝尔曼方程对奖赏值和演员网络的输出边界进行计算,得到时间差分δ;
S4、利用公式
Figure BDA0002516651280000022
对评论家网络Qω进行更新,其中
Figure BDA0002516651280000031
表示当前时刻对应的值函数,αω表示评论家网络Qω的权值参数步长,
Figure BDA0002516651280000032
表示决策信息,ω表示评论家网络参数,I表示衰减系数,
Figure BDA0002516651280000033
表示值函数
Figure BDA0002516651280000034
的梯度;
S5、利用公式
Figure BDA0002516651280000035
对演员网络πθ进行更新,其中
Figure BDA0002516651280000036
表示当前时刻对应的值函数,αθ表示演员网络πθ的权值参数步长,θ表示演员网络参数,I表示衰减系数,
Figure BDA0002516651280000037
表示值函数
Figure BDA0002516651280000038
的梯度;
S6、重复执行步骤S2~S5,直至深度强化学习网络收敛,并将深度强化学习网络输出作为边界切换预测结果。
另一方面,采用一种基于强化学习的人机融合自主性边界切换系统,包括:AI决策模块、人工决策模块、不确定性度量模块、被控对象以及边界切换模块,被控对象分别与AI决策模块和人工决策模块连接,不确定性度量模块与AI决策模块连接,AI决策模块和人工决策模块的输出均与边界切换模块连接,边界切换模块的输出分别与AI决策模块和人工决策模块的输入连接,其中:
AI决策模块根据被控对象当前的环境状态得到当前的环境状态对应的动作;
人工决策模块用于通过人工对被控对象当前的环境状态进行判断,得到判断结果;
不确定性度量模块用于对AI决策模块的输出值进行不确定性估计,得到当前的环境状态对应的动作的不确定度;
边界切换模块用于利用深度强化学习网络对AI决策模块、不确定性度量模块和人工决策模块的输出结果进行处理,预测边界切换结果。
进一步地,在所述被控对象为视觉数据时,所述AI决策模块采用卷积神经网络序列;在所述被控对象为序列数据时,所述AI决策模块采用循环神经网络序列。
进一步地,所述AI决策模块、不确定性度量模块和人工决策模块的输出结果构成决策信息
Figure BDA0002516651280000041
其中st表示环境状态,at表示环境状态st对应的动作,ct表示动作at的不确定度,ht表示人工对于状态st的判断。
进一步地,所述不确定性度量模块包括训练单元、预测单元和不确定度估算单元;
训练单元用于利用给定数据集训练参数为φ的贝叶斯神经网络;
不确定度估算单元用于利用蒙特卡洛积分获取预测分布的一阶矩和二阶矩,并根据一阶矩和二阶矩获得方差作为所述动作at的不确定度ct
预测单元用于利用训练得到的贝叶斯神经网络对环境状态st对应的动作的不确定性进行预测,得到预测分布。
进一步地,所述边界切换模块包括:获取单元、输出边界计算单元、时间差分计算单元、第一更新单元、第二更新单元和预测单元;
获取单元用于获取决策信息
Figure BDA0002516651280000042
作为深度强化学习网络的输入;
输出边界计算单元用于根据所述决策信息
Figure BDA0002516651280000043
计算演员网络的输出边界τt
时间差分计算单元用于根据演员网络的输出边界τt,计算奖赏值,并利用贝尔曼方程对奖赏值和演员网络的输出边界进行计算,得到时间差分δ;
第一更新单元用于利用公式
Figure BDA0002516651280000044
对评论家网络Qω进行更新,其中
Figure BDA0002516651280000045
表示当前时刻对应的值函数,αω表示评论家网络Qω的权值参数步长,ω表示评论家网络参数,I表示衰减系数,
Figure BDA0002516651280000046
表示值函数
Figure BDA0002516651280000047
的梯度;
第二更新单元用于利用公式
Figure BDA0002516651280000048
对演员网络πθ进行更新,其中
Figure BDA0002516651280000049
表示当前时刻对应的值函数,αθ表示演员网络πθ的权值参数步长,θ表示演员网络参数,I表示衰减系数,
Figure BDA00025166512800000410
表示值函数
Figure BDA00025166512800000411
的梯度;
预测单元用于控制输出边界计算单元、时间差分计算单元、第一更新单元以及第二更新单元循环动作直至深度强化学习网络收敛时,将深度强化学习网络输出作为边界切换预测结果。
与现有技术相比,本发明存在以下技术效果:本发明根据被控对象的具体被控环境的要求,在考虑人机融合的基础上,着重于切换边界的学习,不同于现有技术中的静态边界的使用,本方案中将自主性边界处理成动态边界,能够根据不同的问题背景,根据人和AI共享的过程,学习更优的界,既能达到充分发挥人和机器的各自优势,又能相互弥补缺陷,实现人与机器共享自主控制效果。
附图说明
下面结合附图,对本发明的具体实施方式进行详细描述:
图1是一种基于强化学习的人机融合自主性边界切换方法的流程示意图;
图2是一种基于强化学习的人机融合自主性边界切换系统的结构示意图;
图3是AI决策系统的架构图。
具体实施方式
为了更进一步说明本发明的特征,请参阅以下有关本发明的详细说明与附图。所附图仅供参考与说明之用,并非用来对本发明的保护范围加以限制。
如图1所示,本实施例公开了一种基于强化学习的人机融合自主性边界切换方法,包括如下步骤T1至T2:
T1、获取决策信息,该决策信息包括被控对象所处环境状态对应的动作、环境状态对应的动作的不确定度以及人工对被控对象所处环境状态的判断结果;
T2、利用深度强化学习网络对决策信息进行处理,预测边界切换结果。
需要说明的是,被控对象以半自动驾驶车辆为例,上述步骤T1所获取的决策信息包括车辆所处外界环境的当前状态st(包括车辆的位置,速度,所处道路信息,以及其他车辆的信息等),以及AI决策系统根据当前状态st发出的动作信号at(比如转向角度,制动大小等),不确定性评估模块针对AI决策系统的动作信号at所做出的不确定度评估ct,以及半自动驾驶环境中人类对车辆所处外界环境状态的安全级别判断结果ht;上述步骤T2中利用深度强化学习网络对T1步骤获取的决策信息进行处理及学习动态切换边界,以获得智能代理和人类水平之间决策权限的切换,进而实现人机共享控制的目的。
需要说明的是,本实施例中利用AI智能决策系统对被控对象当前所处的环境状态对应的动作进行预测,并对AI智能决策系统的的可靠度或者不确定度进行度量,将AI智能决策系统的预测结果及对应的不确定度以及人工对被控对象当前所处被控环境的控制量的判断,作为深度强化学习网络的输入,深度强化学习网络输出的即为人机切换系统的自主性边界。
本实施例中通过根据被控对象所处的不同的被控环境,将自主性边界处理成动态边界,根据人机共享控制的过程,学习更优的界。
具体地,所述决策信息
Figure BDA0002516651280000061
其中st表示环境状态,at表示环境状态st对应的动作,ct表示动作at的不确定度,ht表示人工对于环境状态st的判断。
具体地,本实施例中采用贝叶斯神经网络估计所述动作at的不确定度ct,包括如下步骤:
利用给定数据集训练参数为φ的贝叶斯神经网络;
需要说明的是,给定数据集D={x,y},训练参数为φ的贝叶斯神经网络(Bayesianneural networks,BNN),理论上可以得到p(φ|D)的后验分布和模型参数fφ
利用训练得到的贝叶斯神经网络对环境状态st对应的动作的不确定性进行预测,得到预测分布;
需要说明的是,假设环境状态st对应的动作的不确定性为x′,输出y′服从以下分布:p(y′|x′,D)=∫p(y′|φ)p(φ|D)dθ,其中,y′=fφ(x′)是x′的模型预测输出。
利用蒙特卡洛积分获取预测分布的一阶矩和二阶矩,并根据一阶矩和二阶矩获得方差作为所述动作at的不确定度ct
具体地,利用蒙特卡洛积分辅助获得预测分布的一阶矩:
Figure BDA0002516651280000071
和二阶矩:
Figure BDA0002516651280000072
从而获得方差:
Figure BDA0002516651280000073
其中,T表示采样次数),J表示单位矩阵,τ表示模型精度。
本实施例通过利用贝叶斯神经网络在特定环境中自然解释参数估计中的不确定性,并将这种不确定性传播到预测中。
具体地,如上述步骤T2所述,利用深度强化学习网络对决策信息进行处理,预测边界切换结果,包括如下细分步骤S1至S6:
S1、获取所述决策信息
Figure BDA0002516651280000074
作为深度强化学习网络的输入,ht取1或0;
本实施例中深度强化学习网络基于Actor-Critic框架实现自主性边界的学习。首先随机初始化演员网络πθ和评论家网络Qω的权值参数步长分别是αθ和αω,Δ=0.01。
S2、根据所述决策信息,计算演员网络的输出边界τt
需要说明的是,通过判断公式:
Figure BDA0002516651280000075
计算人的控制信号ut和下一时刻的边界τt+1,τt为当前时刻的输出边界。
S3、根据演员网络的输出边界τt,计算奖赏值,并利用贝尔曼方程对奖赏值和演员网络的输出边界进行计算,得到时间差分δ;
需要说明的是,奖赏值rt=r(st,at,ut),根据贝尔曼方程计算时间差分
Figure BDA0002516651280000081
其中
Figure BDA0002516651280000082
表示下一时刻对应的值函数,
Figure BDA0002516651280000083
表示当前时刻对应的值函数,γ∈(0,1]表示折扣因子。
S4、利用公式
Figure BDA0002516651280000084
对评论家网络Qω进行更新,其中
Figure BDA0002516651280000085
表示当前时刻对应的值函数,αω表示评论家网络Qω的权值参数步长,
Figure BDA0002516651280000086
表示决策信息,ω表示评论家网络参数,I表示衰减系数,
Figure BDA0002516651280000087
表示值函数
Figure BDA0002516651280000088
的梯度;
S5、利用公式
Figure BDA0002516651280000089
对演员网络πθ进行更新,其中
Figure BDA00025166512800000810
表示当前时刻对应的值函数,αθ表示演员网络πθ的权值参数步长,θ表示演员网络参数,I表示衰减系数,
Figure BDA00025166512800000811
表示值函数
Figure BDA00025166512800000812
的梯度;
S6、重复执行步骤S2~S5,直至深度强化学习网络收敛,并将深度强化学习网络输出作为边界切换预测结果。
如图2所示,本实施例公开了一种基于强化学习的人机融合自主性边界切换系统,包括:AI决策模块10、人工决策模块20、不确定性度量模块30、边界切换模块40以及被控对象50,被控对象50分别与AI决策模块10和人工决策模块20连接,不确定性度量模块与AI决策模块10连接,AI决策模块10和人工决策模块20的输出均与边界切换模块40连接,边界切换模块40的输出分别与AI决策模块10和人工决策模块20的输入连接,其中:
AI决策模块10根据被控对象50当前的环境状态得到当前的环境状态对应的动作;
人工决策模块20用于通过人工对被控对象50当前的环境状态进行判断,得到判断结果;
不确定性度量模块30用于对AI决策模块10的输出值进行不确定性估计,得到当前的环境状态对应的动作的不确定度;
边界切换模块40用于利用深度强化学习网络对AI决策模块10、不确定性度量模块30和人工决策模块20的输出结果进行处理,预测边界切换结果。
需要说明的是,由所述AI决策模块10、不确定性度量模块30和人工决策模块20的输出结果构成的决策信息
Figure BDA0002516651280000091
其中st表示环境状态,at表示环境状态st对应的动作,ct表示动作at的不确定度,ht表示人工对于状态st的判断。
需要说明的是,在所述被控对象50为视觉数据时,所述AI决策模块10采用卷积神经网络序列;在所述被控对象50为序列数据时,所述AI决策模块10采用循环神经网络序列;图3示出了基于集成的思想给出的一种学习的示意图。
应当理解的是,人工智能和大数据等技术则带来了环境感知和策略选择等方面的自主能力,使得机器能够识别周边环境进而自主选择合适策略,发出指令并经由机器的自动化完成最终目标。本领域技术人员可以根据具体被控对象50的不同选取合适的AI决策系统。
具体地,本实施例通过利用贝叶斯神经网络在特定环境中自然解释参数估计中的不确定性,并将这种不确定性传播到预测中。所述不确定性度量模块30包括训练单元、不确定度估算单元和预测单元;
训练单元用于利用给定数据集训练参数为φ的贝叶斯神经网络;
不确定度估算单元用于利用蒙特卡洛积分获取预测分布的一阶矩和二阶矩,并根据一阶矩和二阶矩获得方差作为所述动作at的不确定度ct
预测单元用于利用训练得到的贝叶斯神经网络对环境状态st对应的动作的不确定性进行预测,得到预测分布。
具体地,所述边界切换模块40包括:获取单元、输出边界计算单元、时间差分计算单元、第一更新单元、第二更新单元和预测单元;
获取单元用于获取决策信息
Figure BDA0002516651280000101
作为深度强化学习网络的输入;
输出边界计算单元用于根据所述决策信息
Figure BDA0002516651280000102
计算演员网络的输出边界τt
时间差分计算单元用于根据演员网络的输出边界τt,计算奖赏值,并利用贝尔曼方程对奖赏值和演员网络的输出边界进行计算,得到时间差分δ;
第一更新单元用于利用公式
Figure BDA0002516651280000103
对评论家网络Qω进行更新,其中
Figure BDA0002516651280000104
表示当前时刻对应的值函数,αω表示评论家网络Qω的权值参数步长,ω表示评论家网络参数,I表示衰减系数,
Figure BDA0002516651280000105
表示值函数
Figure BDA0002516651280000106
的梯度;
第二更新单元用于利用公式
Figure BDA0002516651280000107
对演员网络πθ进行更新,其中
Figure BDA0002516651280000108
表示当前时刻对应的值函数,αθ表示演员网络πθ的权值参数步长,θ表示演员网络参数,I表示衰减系数,
Figure BDA0002516651280000109
表示值函数
Figure BDA00025166512800001010
的梯度;
预测单元用于控制输出边界计算单元、时间差分计算单元、第一更新单元以及第二更新单元循环动作直至深度强化学习网络收敛时,将深度强化学习网络输出作为边界切换预测结果。
需要说明的是,本实施例公开的一种基于强化学习的人机融合自主性边界切换系统与上述实施例所公开的一种基于强化学习的人机融合自主性边界切换方法具有相同或相应的技术特征,可实现相同的技术效果,该处不再赘述。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于强化学习的人机融合自主性边界切换方法,其特征在于,包括:
获取决策信息,该决策信息包括被控对象所处环境状态对应的动作、环境状态对应的动作的不确定度以及人工对被控对象所处环境状态的判断结果;
利用深度强化学习网络对决策信息进行处理,预测边界切换结果。
2.如权利要求1所述的基于强化学习的人机融合自主性边界切换方法,其特征在于,所述决策信息
Figure FDA0002516651270000011
其中st表示被控对象的环境状态,at表示环境状态st对应的动作,ct表示动作at的不确定度,ht表示人工对于环境状态st的判断。
3.如权利要求1所述的基于强化学习的人机融合自主性边界切换方法,其特征在于,还包括:
采用贝叶斯神经网络估计所述动作at的不确定度ct
4.如权利要求3所述的基于强化学习的人机融合自主性边界切换方法,其特征在于,所述采用贝叶斯神经网络估计所述动作at的不确定度ct,包括:
利用给定数据集训练参数为φ的贝叶斯神经网络;
利用蒙特卡洛积分获取预测分布的一阶矩和二阶矩,并根据一阶矩和二阶矩获得方差作为所述动作at的不确定度ct
利用训练得到的贝叶斯神经网络对环境状态st对应的动作的不确定性进行预测,得到预测分布。
5.如权利要求1~4任一项所述的基于强化学习的人机融合自主性边界切换方法,其特征在于,所述利用深度强化学习网络对决策信息进行处理,预测边界切换结果,包括:
S1、获取所述决策信息作为深度强化学习网络的输入;
S2、根据所述决策信息,计算演员网络的输出边界τt
S3、根据演员网络的输出边界τt,计算奖赏值,并利用贝尔曼方程对奖赏值和演员网络的输出边界进行计算,得到时间差分δ;
S4、利用公式
Figure FDA0002516651270000021
对评论家网络Qω进行更新,其中
Figure FDA0002516651270000022
表示当前时刻对应的值函数,αω表示评论家网络Qω的权值参数步长,
Figure FDA0002516651270000023
表示决策信息,ω表示评论家网络参数,I表示衰减系数,
Figure FDA0002516651270000024
表示值函数
Figure FDA0002516651270000025
的梯度;
S5、利用公式
Figure FDA0002516651270000026
对演员网络πθ进行更新,其中
Figure FDA0002516651270000027
表示当前时刻对应的值函数,αθ表示演员网络πθ的权值参数步长,θ表示演员网络参数,I表示衰减系数,
Figure FDA0002516651270000028
表示值函数
Figure FDA0002516651270000029
的梯度;
S6、重复执行步骤S2~S5,直至深度强化学习网络收敛,并将深度强化学习网络输出作为边界切换预测结果。
6.一种基于强化学习的人机融合自主性边界切换系统,其特征在于,包括:AI决策模块、人工决策模块、不确定性度量模块、被控对象以及边界切换模块,被控对象分别与AI决策模块和人工决策模块连接,不确定性度量模块与AI决策模块连接,AI决策模块和人工决策模块的输出均与边界切换模块连接,边界切换模块的输出分别与AI决策模块和人工决策模块的输入连接,其中:
AI决策模块根据被控对象当前的环境状态得到当前的环境状态对应的动作;
人工决策模块用于通过人工对被控对象当前的环境状态进行判断,得到判断结果;
不确定性度量模块用于对AI决策模块的输出值进行不确定性估计,得到当前的环境状态对应的动作的不确定度;
边界切换模块用于利用深度强化学习网络对AI决策模块、不确定性度量模块和人工决策模块的输出结果进行处理,预测边界切换结果。
7.如权利要求6所述的基于强化学习的人机融合自主性边界切换系统,其特征在于,在所述被控对象为视觉数据时,所述AI决策模块采用卷积神经网络序列;在所述被控对象为序列数据时,所述AI决策模块采用循环神经网络序列。
8.如权利要求6所述的基于强化学习的人机融合自主性边界切换系统,其特征在于,所述AI决策模块、不确定性度量模块和人工决策模块的输出结果构成决策信息
Figure FDA0002516651270000031
其中st表示环境状态,at表示环境状态st对应的动作,xt表示动作at的不确定度,ht表示人工对于状态st的判断。
9.如权利要求7所述的基于强化学习的人机融合自主性边界切换系统,其特征在于,所述不确定性度量模块包括训练单元、预测单元和不确定度估算单元;
训练单元用于利用给定数据集训练参数为φ的贝叶斯神经网络;
不确定度估算单元用于利用蒙特卡洛积分获取预测分布的一阶矩和二阶矩,并根据一阶矩和二阶矩获得方差作为所述动作at的不确定度ct
预测单元用于利用训练得到的贝叶斯神经网络对环境状态st对应的动作的不确定性进行预测,得到预测分布。
10.如权利要求6~9任一项所述的基于强化学习的人机融合自主性边界切换系统,其特征在于,所述边界切换模块包括:获取单元、输出边界计算单元、时间差分计算单元、第一更新单元、第二更新单元和预测单元;
获取单元用于获取决策信息
Figure FDA0002516651270000032
作为深度强化学习网络的输入;
输出边界计算单元用于根据所述决策信息
Figure FDA0002516651270000033
计算演员网络的输出边界τt
时间差分计算单元用于根据演员网络的输出边界τt,计算奖赏值,并利用贝尔曼方程对奖赏值和演员网络的输出边界进行计算,得到时间差分δ;
第一更新单元用于利用公式
Figure FDA0002516651270000034
对评论家网络Qω进行更新,其中
Figure FDA0002516651270000041
表示当前时刻对应的值函数,αω表示评论家网络Qω的权值参数步长,ω表示评论家网络参数,I表示衰减系数,
Figure FDA0002516651270000042
表示值函数
Figure FDA0002516651270000043
的梯度;
第二更新单元用于利用公式
Figure FDA0002516651270000044
对演员网络πθ进行更新,其中
Figure FDA0002516651270000045
表示当前时刻对应的值函数,αθ表示演员网络πθ的权值参数步长,θ表示演员网络参数,I表示衰减系数,
Figure FDA0002516651270000046
表示值函数
Figure FDA0002516651270000047
的梯度;
预测单元用于控制输出边界计算单元、时间差分计算单元、第一更新单元以及第二更新单元循环动作直至深度强化学习网络收敛时,将深度强化学习网络输出作为边界切换预测结果。
CN202010478808.6A 2020-05-29 2020-05-29 一种基于强化学习的人机融合自主性边界切换方法及系统 Pending CN111753982A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010478808.6A CN111753982A (zh) 2020-05-29 2020-05-29 一种基于强化学习的人机融合自主性边界切换方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010478808.6A CN111753982A (zh) 2020-05-29 2020-05-29 一种基于强化学习的人机融合自主性边界切换方法及系统

Publications (1)

Publication Number Publication Date
CN111753982A true CN111753982A (zh) 2020-10-09

Family

ID=72674338

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010478808.6A Pending CN111753982A (zh) 2020-05-29 2020-05-29 一种基于强化学习的人机融合自主性边界切换方法及系统

Country Status (1)

Country Link
CN (1) CN111753982A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112580801A (zh) * 2020-12-09 2021-03-30 广州优策科技有限公司 一种强化学习训练方法及基于强化学习的决策方法
CN112861440A (zh) * 2021-02-27 2021-05-28 哈尔滨工业大学(威海) 一种面向各类应用的软件机器人系统及其工作方法
CN117697769A (zh) * 2024-02-06 2024-03-15 成都威世通智能科技有限公司 一种基于深度学习的机器人控制系统和方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112580801A (zh) * 2020-12-09 2021-03-30 广州优策科技有限公司 一种强化学习训练方法及基于强化学习的决策方法
CN112580801B (zh) * 2020-12-09 2021-10-15 广州优策科技有限公司 一种强化学习训练方法及基于强化学习的决策方法
CN112861440A (zh) * 2021-02-27 2021-05-28 哈尔滨工业大学(威海) 一种面向各类应用的软件机器人系统及其工作方法
CN117697769A (zh) * 2024-02-06 2024-03-15 成都威世通智能科技有限公司 一种基于深度学习的机器人控制系统和方法
CN117697769B (zh) * 2024-02-06 2024-04-30 成都威世通智能科技有限公司 一种基于深度学习的机器人控制系统和方法

Similar Documents

Publication Publication Date Title
Singla et al. Memory-based deep reinforcement learning for obstacle avoidance in UAV with limited environment knowledge
CN111753982A (zh) 一种基于强化学习的人机融合自主性边界切换方法及系统
CN111123963B (zh) 基于强化学习的未知环境自主导航系统及方法
US20220164673A1 (en) Unsupervised control using learned rewards
JP6550678B2 (ja) 行動決定装置、未来予測モデル学習装置、ネットワーク学習装置、方法、及びプログラム
CN111667513A (zh) 一种基于ddpg迁移学习的无人机机动目标跟踪方法
Chu et al. Fault reconstruction of thruster for autonomous underwater vehicle based on terminal sliding mode observer
Wu et al. Deep reinforcement learning on autonomous driving policy with auxiliary critic network
JP2009176283A (ja) 物体特性のロバストな推定を用いる適応型運転者支援システム
CN113807460B (zh) 智能体动作的确定方法和装置、电子设备和介质
Budiharto et al. Indoor navigation using adaptive neuro fuzzy controller for servant robot
CN111783994A (zh) 强化学习的训练方法和装置
Zhou et al. Hybrid hierarchical reinforcement learning for online guidance and navigation with partial observability
CN115488896A (zh) 一种基于残余动态学习的机械臂未知外力识别与估计方法
Qing-Lai et al. Data-based optimal control for discrete-time zero-sum games of 2-D systems using adaptive critic designs
Li et al. Replay overshooting: Learning stochastic latent dynamics with the extended kalman filter
Lechner et al. Neuronal circuit policies
Zheng et al. An rnn-based learnable extended kalman filter design and application
CN116038716B (zh) 机器人的控制方法和机器人的控制模型的训练方法
Yu et al. Robot hand-eye cooperation based on improved inverse reinforcement learning
Cai et al. Implementation of the Human‐Like Lane Changing Driver Model Based on Bi‐LSTM
CN116736729B (zh) 一种抗感知误差的视距内空战机动策略生成方法
Ma et al. Automatic driving system using identification of switched systems with unknown switch points
CN116909136B (zh) 基于确定学习的2-dof直升机滑模控制方法及系统
Howard et al. Towards evolved time to contact neurocontrollers for quadcopters

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination