CN110119844B - 引入情绪调控机制的机器人运动决策方法、系统、装置 - Google Patents

引入情绪调控机制的机器人运动决策方法、系统、装置 Download PDF

Info

Publication number
CN110119844B
CN110119844B CN201910378476.1A CN201910378476A CN110119844B CN 110119844 B CN110119844 B CN 110119844B CN 201910378476 A CN201910378476 A CN 201910378476A CN 110119844 B CN110119844 B CN 110119844B
Authority
CN
China
Prior art keywords
state
model
value
decision
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910378476.1A
Other languages
English (en)
Other versions
CN110119844A (zh
Inventor
黄销
吴伟
乔红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201910378476.1A priority Critical patent/CN110119844B/zh
Publication of CN110119844A publication Critical patent/CN110119844A/zh
Application granted granted Critical
Publication of CN110119844B publication Critical patent/CN110119844B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/061Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using biological neurons, e.g. biological neurons connected to an integrated circuit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0637Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Strategic Management (AREA)
  • Molecular Biology (AREA)
  • Economics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computational Linguistics (AREA)
  • Marketing (AREA)
  • Educational Administration (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Neurology (AREA)
  • Microelectronics & Electronic Packaging (AREA)
  • Feedback Control In General (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明属于智能机器人领域,具体涉及一种引入情绪调控机制的机器人运动决策方法、系统、装置,旨在解决机器人决策速度与学习效率的问题。本系统方法包括利用环境感知模型,根据当前动作变量和状态值生成下一时刻的预测状态值;基于动作变量、状态值、即时奖励,更新状态‑动作值函数网络;基于环境感知模型获取预测轨迹,计算预测轨迹局部最优解,并进行微分动态规划,获取基于模型的最优决策;根据当前状态和策略,最小化状态‑动作值函数,获取无模型决策;基于状态预测误差、奖励预测误差及平均奖励值,通过情绪加工可计算模型生成情绪响应信号,根据信号的阈值选择路径决策。本发明在保证学习效率同时逐步提高决策速度。

Description

引入情绪调控机制的机器人运动决策方法、系统、装置
技术领域
本发明属于智能机器人领域,具体涉及一种引入情绪调控机制的机器人运动决策方法、系统、装置。
背景技术
当前机器人发展的一个巨大的挑战是:如何学会推理出环境潜在的动力学变化,以及学会如何有效地学习一种新的知识或技能。目前,科学家广泛借鉴人脑的工作机制,建立一系列脑启发的计算模型,试图实现类人智能。
决策过程是大脑中一种高级认知加工过程,大量的神经科学数据表明人类大脑系统中存在两种显著不同的决策系统:一种是可陈述的基于模型的决策系统,该系统主要用于完成一系列目标导向的行为;另一种是反射式的无模型决策系统,该系统则主要驱动一系列习惯性行为的产生。基于模型推理通常需要对外部环境进行建模,根据当前状态不断地预测未来可能的结果,进而以一种动态规划的形式找到一组最优的执行策略。这一过程通常来说拥有很高的学习效率和决策精度,但需要长时间计算,调度各方面的工作记忆来推断出一个可靠的结果;与之相反,无模型推理是通过与环境不断的交互,根据反馈的强化信号对大脑的神经网络进行修正,最终形成一种从状态到动作的直接映射,表现为习惯性行为。这一过程通常需要与环境进行大量交互,学习效率相对较低,但是决策速度快,对快速反应有着重要作用。然而,这两个并行工作的系统在大脑中如何产生一致性行为仍未可知。最近,大量神经科学研究表明,情绪是这两个决策仲裁过程中的一种重要的影响因素。
许多决策计算模型被纳入到强化学习框架当中,其中,行动-评价算法框架是最为流行的计算框架之一。基于模型的方法一般具有很高的采样有效性,如PILCO就是一种高效的基于模型的策略搜索方法,该方法将模型的不确定性整合到机器人的长期规划当中,极大提高了机器人的数据利用效率。但是学习模型采用的是高斯回归方法,解决高维决策问题时,计算复杂度非常高,严重影响决策速度。采用无模型方法进行学习,一般需要与环境进行大量交互,数据利用率很低。对此,许多学者探索如何将基于模型的学习算法同无模型的学习方法进行融合。将基于模型与无模型过程融合的最经典框架是Dyna,该框架将仿真模型产生的数据也加入到经验库中,对无模型网络进行训练,能够有效加快无模型算法的训练过程。但若仿真模型不太准确,势必会影响最后得到的最优。
将情绪调控决策的神经机制引入到机器人决策算法当中,在任务学习周期中,对基于模型和无模型决策过程进行动态分配,一方面更接近于大脑的决策过程,另一方面能够有效平衡学习效率和决策速度的关系。具体而言,在任务学习早期,由于经验知识匮乏,对环境状态预测以及奖励预测误差很大,会导致更多负性情绪产生(如压力、焦虑或不自信),这会进一步驱动机器人采用更多基于模型推理的决策,决策速度慢,但学习效率高。随着训练次数增加,状态以及奖励预测误差都会有所降低,这会导致更多中性或正性情绪产生,促进机器人更多采用无模型决策方案,逐渐形成习惯性动作,提高决策速度。
发明内容
为了解决现有技术中的上述问题,即为了解决基于模型决策与无模型决策之间的调度过程,平衡决策速度与学习效率之间的问题,本发明第一方面,提出了一种引入情绪调控机制的机器人运动决策方法,该方法包括:
步骤S10,获取机器人t时刻动作变量ut及状态值xt,利用环境感知模型生成机器人t+1时刻的预测状态值xt+1
步骤S20,获取t时刻即时奖励值rt,将动作变量ut、状态值xt、即时奖励值rt添加到经验库当中,利用经验库中批采样的数据更新状态-动作值函数网络Q(x,u);
步骤S30,基于环境感知预测模型获取t到t+H时间段内的预测轨迹,在t+H时刻策略网络输出策略πθ的约束下计算所述预测轨迹在末端状态的状态-动作值函数Q(xt+H,u)的局部最优解,对所述的局部最优解进行微分动态规划求解,获取基于模型的最优决策;
步骤S40,根据t时刻的状态xt和策略神经网络输出策略πθ,最小化t时刻状态-动作值函数Q(xt,u),获取无模型决策;
步骤S50,基于状态预测误差、奖励预测误差以及平均奖励值,通过情绪加工可计算模型生成情绪响应信号,根据所述情绪响应信号的阈值选择路径决策;
其中,
所述的环境感知模型基于概率神经元网络构建,输入样本是当前状态-动作,输出样本是下一步状态变化;
所述的状态-动作值函数网络基于感知神经网络构建,用于根据状态-动作-奖励信息获取全局输出策略;
所述情绪加工可计算模型基于生物神经元动态模型构建,用于基于状态预测误差、奖励预测误差以及平均奖励值计算情绪响应信号;所述状态预测误差基于t时刻状态xt与t时刻预测状态x′t+1获取,所述奖励预测误差基于t时刻奖励值rt、t时刻的状态-动作值函数Qt和t+1时刻的状态-动作值函数Qt+1获取,所述平均奖励值为截止t时刻的累积奖励值。
在一些优选的实施方式中,所述环境感知预测模型由N个结构相同的概率神经网络构成,其训练过程中,通过最小化每个网络输出与目标之间的负对数似然来进行所述环境感知模型的优化。
在一些优选的实施方式中,所述状态-动作值函数网络在训练过程中,采用多层感知器神经网络来拟合状态-动作值函数Qπ(x,u),该函数为状态X和策略π下,未来长期的折扣回报之和,该函数需满足以下公式的更新原则:
Qπ(xt,ut)=r(xt,π(xt))+γQπ(xt+1,π(xt+1))
其中,r为t时刻从环境中获得的即时奖励,γ为值函数更新的折扣系数。
在一些优选的实施方式中,步骤S30“基于环境感知预测模型获取t到t+H时间段内的预测轨迹,在t+H时刻策略网络输出策略πθ的约束下计算所述预测轨迹在末端状态的状态-动作值函数Q(xt+H,u)的局部最优解,对所述的局部最优解进行微分动态规划求解,获取基于模型的最优决策”,其方法为:
采用无模型策略网络以及所述环境学习模型,初始化规划时间为H,利用环境学习模型预测下一步状态值x′t+1递推生成状态转移轨迹;
基于无模型策略的引导,优化全局预测状态的状态-动作值函数Q(xt+H,u),求得局部最优值作为微分动态算法的终端约束值;
基于终端约束值,采用传统微分动态算法优化求得最优动作序列作为最优决策。
在一些优选的实施方式中,步骤S30“基于环境感知预测模型获取t到t+H时间段内的预测轨迹,在t+H时刻策略网络输出策略πθ的约束下计算所述预测轨迹在末端状态的状态-动作值函数Q(xt+H,u)的局部最优解,对所述的局部最优解进行微分动态规划求解,获取基于模型的最优决策”,其方法为:
将人工设定的终端奖励约束rf作为终端值函数,采用传统微分动态算法优化求得次优动作序列;
基于模型策略的引导,优化预设目标函数,得到基于模型的最优决策。
在一些优选的实施方式中,步骤S40“根据t时刻的状态xt和策略神经网络输出策略πθ,最小化t时刻状态-动作值函数Q(xt,u),获取无模型决策”,其方法为:
基于当前状态,利用策略神经网络获取动作路径决策;其中所述策略神经网络采用多层感知器网络构建,并根据t时刻反馈的奖励,迭代学习实现最小化当前状态-动作值函数Q(xt,u),进而求得所对应的无模型决策。
在一些优选的实施方式中,步骤S50中所述情绪加工可计算模型为神经动力学模型,该模型中每个神经元的膜电位服从生物神经元动态模型,并采用预设的动力学方程模拟突触之间神经递质的传递过程。
在一些优选的实施方式中,步骤S50中所述的设定阈值为0,所述情绪响应信号大于等于设定阈值时选择基于模型的最优决策,否则选择无模型决策。
本发明的第二方面,提出了一种引入情绪调控机制的机器人运动决策系统,该系统包括预测状态值模块、值函数学习模块、模型决策模块、无模型决策模块、情绪响应模块;
所述的预测状态值模块,配置为获取机器人t时刻动作变量ut及状态值xt,利用环境感知模型生成机器人t+1时刻的预测状态值x′t+1
所述的值函数学习模块,配置为获取t时刻即时奖励值rt,将动作变量ut、状态值xt、即时奖励值rt添加到经验库当中,利用经验库中批采样的数据更新状态-动作值函数网络Q(x,u);
所述的基于模型决策模块,配置为基于环境感知预测模型获取t到t+H时间段内的预测轨迹,在t+H时刻策略网络输出策略πθ的约束下计算所述预测轨迹在末端状态的状态-动作值函数Q(xt+H,u)的局部最优解,对所述的局部最优解进行微分动态规划求解,获取基于模型的最优决策;
所述的无模型决策模块,配置为根据t时刻的状态xt和策略神经网络输出策略πθ,最小化t时刻状态-动作值函数Q(xt,u),获取无模型决策;
所述的情绪响应模块,配置为基于状态预测误差、奖励预测误差以及平均奖励值,通过情绪加工可计算模型生成情绪响应信号,根据所述情绪响应信号的阈值选择不同决策模式。
本发明的第三方面,提出了一种存储装置,其中存储有多条程序,所述程序应用由处理器加载并执行以实现上述的引入情绪调控机制的机器人运动决策方法。
本发明的第四方面,提出了一种处理设置,包括处理器、存储装置;处理器,适用于执行各条程序;存储装置,适用于存储多条程序;所述程序适用于由处理器加载并执行以实现上述的引入情绪调控机制的机器人运动决策方法。
本发明的有益效果:
本发明在保证机器人学习效率的前提下,逐步提高决策速度。本发明启发于大脑情绪对两个决策过程的调控机制,通过切换导向策略实现基于模型决策与无模型决策的动态分配,一方面更接近于大脑的决策,另一方面能够有效平衡基于模型和无模型两通路的决策过程。
附图说明
通过阅读参照以下附图所做的对非限制性实施例所做的详细描述,本申请的其他特征、目的和优点将会变得更明显。
图1是本发明一种实施例的引入情绪调控机制的机器人运动决策方法的流程示意图;
图2是本发明一种实施例的概率神经元集群网络结构的示例图;
图3是本发明一种实施例的情绪加工的神经网络结构的示例图;
图4本发明一种实施例的引入情绪调控机制的机器人运动决策系统的框架示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本发明的引入情绪调控机制的机器人运动决策方法,如图1所示,包括以下步骤:
步骤S10,获取机器人t时刻动作变量ut及状态值xt,利用环境感知模型生成机器人t+1时刻的预测状态值x′t+1
步骤S20,获取t时刻即时奖励值rt,将动作变量ut、状态值xt、即时奖励值rt添加到经验库当中,利用经验库中批采样的数据更新状态-动作值函数网络Q(x,u);
步骤S30,基于环境感知预测模型获取t到t+H时间段内的预测轨迹,在t+H时刻策略网络输出策略πθ的约束下计算所述预测轨迹在末端状态的状态-动作值函数Q(xt+H,u)的局部最优解,对所述的局部最优解进行微分动态规划求解,获取基于模型的最优决策;
步骤S40,根据t时刻的状态xt和策略神经网络输出策略πθ,最小化t时刻状态-动作值函数Q(xt,u),获取无模型决策;
步骤S50,基于状态预测误差、奖励预测误差以及平均奖励值,通过情绪加工可计算模型生成情绪响应信号,根据所述情绪响应信号的阈值选择路径决策;
其中,
所述的环境感知模型基于概率神经元网络构建,输入样本是当前状态-动作,输出样本是下一步状态变化;
所述的状态-动作值函数网络基于感知神经网络构建,用于根据状态-动作-奖励信息获取全局输出策略;
所述情绪加工可计算模型基于生物神经元动态模型构建,用于基于状态预测误差、奖励预测误差以及平均奖励值计算情绪响应信号;所述状态预测误差基于t时刻状态xt与t时刻预测状态x′t+1获取,所述奖励预测误差基于t时刻奖励值rt、t时刻的状态-动作值函数Qt和t+1时刻的状态-动作值函数Qt+1获取,所述平均奖励值为截止t时刻的累积奖励值。
为了更清晰地对本发明引入情绪调控机制的机器人运动决策方法进行说明,下面结合附图1对本发明方法一种实施例中各步骤进行展开详述。
步骤S10,获取机器人t时刻动作变量ut及状态值xt,利用环境感知模型生成机器人t+1时刻的预测状态值x′t+1
本实施例中,分析获取t时刻的动作变量数据ut,建立各关节的坐标系,进行坐标运算和位置表示,基于所构建的机器人环境感知模型,判断机器人当前的状态和动作利用环境感知模型根据机器人的动作和状态生成机器人t+1时刻的预测状态值x′t+1。动作变量一般包括关节t时刻的角度、角速度、末端点位置及期望力矩。
本实施例中,利用概率神经元集群网络结构,根据状态-动作的历史消息映射未来状态的变化,建立机器人环境感知模型。模型的目标是根据当前的状态和动作来预测下一步的状态变化,是由多个前向神经网络集成来估计模型学习的不确定性,能够有效克服高斯过程回归中昂贵的计算成本。如图2所示,图2示例性地给出了概率神经元集群网络结构,步骤如下:
步骤S101,捕捉模型的偶然不确定性。具体而言,假设所述模型由N个结构相同的概率神经网络构成,第n个网络被参数化为φn,每个神经网络能够编码一个高斯分布来捕捉模型的偶然不确定性,如公式(1)所示:
Figure BDA0002052514720000091
其中,
Figure BDA0002052514720000092
代表概率神经网络函数,
Figure BDA0002052514720000093
代表预测状态的协方差矩阵,
Figure BDA0002052514720000094
代表预测状态的均值,
Figure BDA0002052514720000095
代表高斯分布。
步骤S102,优化偶然不确定性。偶然不确定性是一种随机噪声,例如系统观测噪声或过程噪声,这种噪声往往源于系统的内部不确定性。在训练过程中,我们通过最小化每个网络输出与目标之间的负对数似然来进行优化,如公式(2)所示:
Figure BDA0002052514720000101
其中,
Figure BDA0002052514720000102
代表优化的目标函数,y代表的是下一个状态xt+1
Figure BDA0002052514720000103
代表预测状态协方差矩阵行列式的对数,
Figure BDA0002052514720000104
代表预测状态协方差矩阵的逆,T代表转置。
步骤S103,计算模型学习中的主观认知不确定性。单个子神经网络能够成功建模模型的偶然不确定性,但是不能够计算出模型学习中的主观认知不确定性。本发明根据当前状态分布,采样产生M个粒子,统计这些粒子的输出结果来评估每个子网络的认知不确定性。进一步,本发明统计不同子网络的预测情况,生成对下一步预测的状态分布。假设该分布也是高斯分布,其方差为
Figure BDA0002052514720000105
均值为
Figure BDA0002052514720000106
那么二者的计算过程如公式(3)、(4)所示:
Figure BDA0002052514720000107
Figure BDA0002052514720000108
Figure BDA0002052514720000109
其中,
Figure BDA00020525147200001010
代表第m个粒子的动作输出信号,
Figure BDA00020525147200001011
代表第m个粒子的状态预测信号,
Figure BDA00020525147200001012
代表第m个粒子的状态输入信号,
Figure BDA00020525147200001013
代表代表概率神经网络求得的最终均值,
Figure BDA00020525147200001014
代表方差函数,
Figure BDA00020525147200001015
代表均值函数,
Figure BDA00020525147200001016
代表概率神经网络求得的最终方差。
下一个状态的预测值能够通过采样当前的概率分布而获得,如式(5)所示:
Figure BDA00020525147200001017
其中,xt+1代表下一个状态的预测值,
Figure BDA00020525147200001018
是表示函数的符号。
步骤S20,获取t时刻即时奖励值rt,将动作变量ut、状态值xt、即时奖励值rt添加到经验库当中,利用经验库中批采样的数据更新状态-动作值函数网络Q(x,u)。
本实施例中,采用多层感知器建立值函数学习网络,运用贝尔曼原则对该网络进行训练,使得该网络能够根据当前的策略和状态变化来预测未来奖励的变化。值函数学习网络的训练可以通过两种方式进行更新,一种为该值函数可根据实际状态-动作-奖励数据集进行更新;另一种为,采用步骤S1的学习模型产生预测数据,根据预测数据对值函数进行更新有助于加速值函数收敛。
(1)基于实际实验数据集训练
本实例中,采用多层感知神经网络来拟合状态-动作值函数Qπ(x,u),它代表在当前状态x和策略π下,未来长期的折扣回报之和,如公式(6)所示:
Figure BDA0002052514720000111
其中,
Figure BDA0002052514720000112
是期望求取算子,p代表概率,γ代表折扣系数,r代表当前状态下的即时奖励值,χ代表状态所服从的分布,
Figure BDA0002052514720000113
代表期望概率,
Figure BDA0002052514720000114
代表服从分布χ的状态所对应的函数求取期望。
其中状态x全部取自于实际收集的数据库中,该状态-动作值函数满足公式(7)所示的Bellman更新原则:
Qπ(xt,ut)=r(xt,π(xt))+γQπ(xt+1,π(xt+1)) (7)
本发明中为了估计这个最优的值函数,假设值函数学习网络参数为
Figure BDA0002052514720000115
在训练过程中采用梯度下降法最小化上述Bellman误差平方,如式(8)所示:
Figure BDA0002052514720000116
其中,
Figure BDA0002052514720000121
代表对
Figure BDA0002052514720000122
进行求导,α代表学习率,x′为下一个状态值,目标值
Figure BDA0002052514720000123
能够通过目标值函数学习网络
Figure BDA0002052514720000124
来求得,
Figure BDA0002052514720000125
为期望策略,u′代表下一动作值,
Figure BDA0002052514720000126
代表目标值函数学习网络,
Figure BDA0002052514720000127
代表目标值函数网络的参数,目标网络参数
Figure BDA0002052514720000128
可通过原始网络参数进行滑动平均而求得,即
Figure BDA0002052514720000129
τ代表网络参数平滑系数,该方法能够提高值函数学习的稳定性。
(2)基于预测数据集训练
从经验数据库随机采样初始状态-动作-奖励组T0,采用步骤S10中的环境学习模型来预测未来H步的状态-动作-奖励变化,形成轨迹T0:H-1。依次选取轨迹的第k步作为当前状态,计算该状态下值函数的目标值如公式(9)所示:
Figure BDA00020525147200001210
其中,n代表预测期望奖励值的第n步,
Figure BDA00020525147200001211
代表终端状态预测值,
Figure BDA00020525147200001212
代表终端动作输出预测值,
Figure BDA00020525147200001213
代表第n步状态预测值,
Figure BDA00020525147200001214
代表第n步动作预测值。
优化式(10),更新值函数学习网络的参数,参数更新完成后,仿真所产生的数据被清除,不加入到全局经验库。
Figure BDA00020525147200001215
其中,
Figure BDA00020525147200001216
代表对服从分布ν的状态所对应的函数求取期望,v代表预测状态的概率分布,
Figure BDA00020525147200001217
代表状态预测值,
Figure BDA00020525147200001218
代表动作预测值。
步骤S30,基于环境感知预测模型获取t到t+H时间段内的预测轨迹,在t+H时刻策略网络输出策略πθ的约束下计算所述预测轨迹在末端状态的状态-动作值函数Q(xt+H,u)的局部最优解,对所述的局部最优解进行微分动态规划求解,获取基于模型的最优决策。
本实施例中,基于模型的最优决策方案有两种方法:一、根据目标点的位置,利用微分动态规划将时间片进行离散化,建立中间目标,优化值函数学习网络得到当前的最优路径;二、在无模型策略的引导下先计算微分动态规划的终端约束,设置规划时间,微分动态规划过程,将初始值输出作为当前的最优路径。
1、在无模型策略导向下进行H步基于模型决策
步骤S31-1,初始化一个时长为H的状态转移轨迹。即对于H域内的任意时刻k,选择的动作为:uk=πθ(xk),预测的下一步状态为:
Figure BDA0002052514720000131
依此递推,生成状态-动作转移轨迹T0:H
步骤S31-2,计算终端约束值。在第H步,在无模型策略πθ(u|xH)的引导下,优化下面目标函数,如式(11)、(12)、(13)、(14)所示:
Figure BDA0002052514720000132
Figure BDA0002052514720000133
Figure BDA0002052514720000134
Figure BDA0002052514720000135
其中,KL代表相对熵,
Figure BDA0002052514720000136
代表当前所要优化的策略,πθ代表策略网络输出的策略,∈代表新策略与旧策略的相近程度,H(·)函数为熵函数。
通过拉格朗日乘子法能够求得该优化问题的闭环解,如式(15)所示:
Figure BDA0002052514720000137
其中,∝代表正比于,η*和ω*分别是相对熵KL和熵约束的最优对偶变量,这两个对偶变量的值能够通过优化以下对偶函数求得,如公式(16)所示:
Figure BDA0002052514720000141
Figure BDA0002052514720000142
其中,η代表相对熵KL所对应的对偶变量,ω代表熵约束项所对应的对偶变量,exp()代表自然常数e为底的指数函数,u代表无模型网络的输出动作,du代表对u积分。
假设Q(xH,u)能够在任一点u0处进行局部二阶泰勒级数展开为公式(17)所示:
Figure BDA0002052514720000143
Figure BDA0002052514720000144
其中,
Figure BDA0002052514720000145
是值函数学习网络的梯度,
Figure BDA0002052514720000146
是值函数学习网络的Hessian矩阵,
Figure BDA0002052514720000147
代表高阶无穷小量,
Figure BDA0002052514720000148
代表对u的二阶导数。
假设优化所得到的贪婪策略服从高斯分布
Figure BDA0002052514720000149
经过推导,该策略如公式(18)、(19)所示:
Figure BDA00020525147200001410
Figure BDA00020525147200001411
其中,
Figure BDA00020525147200001412
代表贪婪策略的协方差矩阵。
其中该策略中求解各参数如公式(20)、(21)、(22)所示:
Figure BDA00020525147200001413
Figure BDA00020525147200001414
G0(xH)=g0(xH)-H0(xH)u0 (22)
其中,F,L和G0是中间变量,没有实际意义,
Figure BDA00020525147200001415
代表协方差矩阵的逆,μθ代表均值,二者都是θ的函数。
对偶变量η*和ω*可通过求解公式(23)优化方程:
Figure BDA0002052514720000151
其中,
Figure BDA0002052514720000152
代表求解对偶变量的函数,const代表常数。
进而最终求得在末端状态XH处的局部最优策略
Figure BDA0002052514720000153
计算终端值如公式(24)、(25)、(26)所示:
Figure BDA0002052514720000154
Figure BDA0002052514720000155
Figure BDA0002052514720000156
其中,V代表状态值函数,Vx代表状态值函数对x的一阶导数,Vxx代表状态值函数对x的二阶导数。
S31-3,基于终端值,采用传统微分动态算法优化求得最优动作序列,优化目标如式(27)所示:
Figure BDA0002052514720000157
算法分为前向传播和反向传播两个过程,反向过程主要通过计算值函数的微分信息,求得控制量更新的参数值。具体形式如公式(28)、(29)、(30)、(31)、(32)所示:
Figure BDA0002052514720000158
Figure BDA0002052514720000159
Figure BDA00020525147200001510
Figure BDA00020525147200001511
Figure BDA00020525147200001512
其中,
Figure BDA00020525147200001513
代表状态-动作值函数对u的一阶导数,
Figure BDA00020525147200001514
代表状态动作值函数对u的二阶导数,
Figure BDA00020525147200001515
代表状态动作值函数先对u,后对x求偏导数,
Figure BDA00020525147200001516
代表状态-动作值函数对x的一阶导数,
Figure BDA00020525147200001517
代表状态动作值函数对x的二阶导数,
Figure BDA00020525147200001518
代表t时刻的奖励函数对x的一阶导数,
Figure BDA00020525147200001519
代表t时刻的奖励函数对x的二阶导数,
Figure BDA00020525147200001520
代表t时刻的奖励函数先对u再对x求偏导,
Figure BDA0002052514720000161
代表t时刻的环境预测模型对x的一阶导数,
Figure BDA0002052514720000162
代表t时刻的环境预测模型对u的一阶导数。
局部控制策略更新值
Figure BDA0002052514720000163
能够通过式(33)进行更新:
Figure BDA0002052514720000164
其中,
Figure BDA0002052514720000165
代表t时刻状态值的增量,
Figure BDA0002052514720000166
代表t时刻关节变量的增量。
状态值函数则用公式(34)、(35)、(36)进行更新:
Figure BDA0002052514720000167
Figure BDA0002052514720000168
Figure BDA0002052514720000169
在前向传播过程中,采用最新的I和L对上一步优化序列进行更新,更新形式如式(37)、(38)、(39)所示:
Figure BDA00020525147200001610
Figure BDA00020525147200001611
Figure BDA00020525147200001612
其中,λ代表动作更新系数。
求解优化获得最优轨迹
Figure BDA00020525147200001613
选择第一个动作
Figure BDA00020525147200001614
作为在无模型策略导向下进行H步基于模型决策的输出。
2、在基于模型策略导向下优化决策
与“1、在无模型策略导向下进行H步基于模型决策”不同,该方法先基于人工设定的终端约束搜索一个基于模型的最优动作序列,再在该序列的引导下优化全局值函数,得到可执行策略。
步骤S32-1,基于人工设定的终端奖励约束γf,采用传统微分动态算法优化求得最优动作序列,优化目标如式(40)所示:
Figure BDA0002052514720000171
令V(xH)=rf(xH),
Figure BDA0002052514720000172
其中,γf(XH)代表终端奖励值,
Figure BDA0002052514720000173
代表奖励函数的对x的导数在终端的值,则详细优化过程如步骤S31-3所述,得到在当前状态下局部最优策略
Figure BDA0002052514720000174
步骤S32-2,与步骤S31-2类似,在基于模型策略
Figure BDA0002052514720000175
的引导下,优化下面目标函数:
假设
Figure BDA0002052514720000176
其中,
Figure BDA0002052514720000177
代表基于模型的决策策略,则优化过程与步骤S31-2相同,能够求得输出策略
Figure BDA0002052514720000178
步骤S40,根据t时刻的状态xt和策略神经网络输出策略πθ,最小化t时刻状态-动作值函数Q(xt,u),获取无模型决策。
本实例中,基于当前状态,利用策略神经网络获取动作路径决策;其中所述策略神经网络采用多层感知器网络构建,并根据当前时刻反馈的奖励,迭代学习实现最小化当前状态-动作值函数Q(xt,u),进而求得所对应的动作输出。
采用多层感知网络构建本发明的策略神经网络,主要目的在于根据环境所不断反馈的奖励,训练网络根据当前状态直接计算动作,进行快速决策。假设策略网络的参数为θ,策略网络输出的是确定性策略u=πθ(x),那么参数可通过式(41)进行更新:
Figure BDA0002052514720000179
采用了评价函数的一阶信息对权重进行更新,使得经过策略网络产生的策略最大化当前的评价函数。
步骤S50,基于状态预测误差、奖励预测误差以及平均奖励值,通过情绪加工可计算模型生成情绪响应信号,根据所述情绪响应信号的阈值选择不同的决策方式。
本实施例中,图3示例性给出了情绪加工的神经网络结构,该模型神经元的连接关系是启发于杏仁核对外部刺激的情绪化加工神经环路,主要包含四个区域:外侧杏仁核(LA)、基底杏仁核(BA)、中央杏仁核(CA)以及插入性细胞集群(ITC),同时杏仁核还与前额叶皮层的边缘下区皮层(IL)存在密切的交互关系,每一部分在情绪加工都扮演着不同的角色。每个神经元的膜电位服从生物神经元动态模型Shunting Model,即每个神经元的神经动力学满足公式(42):
Figure BDA0002052514720000181
其中,-A代表神经元激活衰减率,-D代表神经元活动的下界,B代表活动的上界,S代表输入的刺激信号,S+代表兴奋性输入信号,S-代表抑制性输入信号,I和J代表兴奋与抑制通路的基电位,dt代表时间变化量,
Figure BDA0002052514720000182
代表神经元激活状态的变化量。同时本发明还用到另一动力学方程来模拟突触之间神经递质的传递过程,如公式(43)所示:
Figure BDA0002052514720000183
该方程表示ωi以固定速率H激活到最大值K,Lf(xkk是其中一个反馈抑制项,
Figure BDA0002052514720000184
代表突触电位变化量。基于这两种模型,本发明中以SPE通路的神经元为例,其神经动力学方程如公式(44)、(45)、(46)、(47)、(48)、(49)、(50)、(51)、(52)、(53)所示:
Figure BDA0002052514720000185
Figure BDA0002052514720000186
Figure BDA0002052514720000187
Figure BDA0002052514720000188
Figure BDA0002052514720000189
Figure BDA00020525147200001810
Figure BDA0002052514720000191
Figure BDA0002052514720000192
Figure BDA0002052514720000193
Figure BDA0002052514720000194
其中,
Figure BDA0002052514720000195
代表LA神经元激活变化微分量,
Figure BDA0002052514720000196
代表BA神经元激活变化微分量,
Figure BDA0002052514720000197
代表通路0中LA神经元激活量,
Figure BDA0002052514720000198
代表通路0中BA神经元激活量,
Figure BDA0002052514720000199
代表通路0中ITC神经元激活变化微分量,
Figure BDA00020525147200001910
代表通路0中ITC神经元激活量,
Figure BDA00020525147200001911
代表通路1中LA神经元激活量,xg代表输出神经元的激活量,
Figure BDA00020525147200001912
代表通路1中BA神经元激活量,
Figure BDA00020525147200001913
代表通路1中ITC神经元激活变化微分量,
Figure BDA00020525147200001914
代表通路0中ITC神经元激活量,
Figure BDA00020525147200001915
代表通路1中IL神经元激活量,
Figure BDA00020525147200001916
代表通路2中IL神经元激活量,
Figure BDA00020525147200001917
代表输出神经元的激活变化量微分,
Figure BDA00020525147200001918
代表SPE通道中Ge神经元激活变化微分量,
Figure BDA00020525147200001919
代表SPE通道中Ge神经元激活变化微分量,
Figure BDA00020525147200001920
代表RPE通道中Ge神经元激活量,
Figure BDA00020525147200001921
代表SPE通道中Ge神经元激活变化微分量,
Figure BDA00020525147200001922
代表通道0中LA突触激活变化微分量,wBA代表BA突触激活量。
该网络包含三个输入变量分别是状态预测误差(SPE)、奖励预测误差(RPE)以及平均累积奖励(AVR)。其中状态预测误差衡量的是步骤S10中机器人环境感知模型所产生的下一步状态预测信息与当前实际观测到的状态预测信息进行比较。假设下一步的状态服从高斯分布
Figure BDA00020525147200001923
而预测的状态分布为
Figure BDA00020525147200001924
采用二者相关熵来衡量,如公式(54)所示:
Figure BDA00020525147200001925
其中,
Figure BDA00020525147200001926
代表预测状态的均值,Nx代表状态的维度。
并采用sigmoid型函数对其激活,将值约束在(0,1)之间,形式如公式(55)所示:
Figure BDA0002052514720000201
其中,σ(SPE)代表采用sigmoid函数激活SPE信号,α代表尺度因子,β为平移系数。
相似地,奖励预测误差衡量的是当前接收到的奖励值与上一步预测的奖励值之间的差别,本发明采用评价函数的损失来定义,如公式(56)所示:
Figure BDA0002052514720000202
其中,Q′代表目标状态-动作值函数,X′代表下一步状态,u′代表下一步的动作。
同样,经过sigmoid型函数激活,形式如式(57)所示:
Figure BDA0002052514720000203
而平均累计奖励是用每次尝试过后所得到的累积奖励值来更新,本发明采用tanh型函数对该值进行激活,将原始活动奖励信号分为兴奋性的和抑制性的,具体如下公式(58)、(59)所示:
Figure BDA0002052514720000204
Figure BDA0002052514720000205
其中,ρ代表累积平均奖励平滑系数,
Figure BDA0002052514720000206
代表累积奖励。
根据上述输入信号,情绪加工网络会产生相应的情绪性响应xg,本发明一个实施例中当xg≥0时,仲裁结果是采用基于模型的决策通路,否则的话采用无模型决策通路进行决策。
基于上述的仲裁结果执行导向策略规划的路径。
本发明第二实施例的一种引入情绪调控机制的机器人运动决策系统,如图4所示,包括:预测状态值模块100、值函数学习模块200、模型决策模块300、无模型决策模块400、情绪响应模块500;
预测状态值模块100,配置为获取机器人t时刻动作变量ut及状态值xt,利用环境感知模型生成机器人t+1时刻的预测状态值x′t+1
值函数学习模块200,配置为获取t时刻即时奖励值rt,将动作变量ut、状态值xt、即时奖励值rt添加到经验库当中,利用经验库中批采样的数据更新状态-动作值函数网络Q(x,u);
模型决策模块300,配置为基于环境感知预测模型获取t到t+H时间段内的预测轨迹,在t+H时刻策略网络输出策略πθ的约束下计算所述预测轨迹在末端状态的状态-动作值函数Q(xt+H,u)的局部最优解,对所述的局部最优解进行微分动态规划求解,获取基于模型的最优决策;
无模型决策模块400,配置为根据t时刻的状态xt和策略神经网络输出策略πθ,最小化t时刻状态-动作值函数Q(xt,u),获取无模型决策;
情绪响应模块500,配置为基于状态预测误差、奖励预测误差以及平均奖励值,通过情绪加工可计算模型生成情绪响应信号,根据所述情绪响应信号的阈值选择不同的决策方式。
所述技术领域的技术人员可以清楚的了解到,为描述的方便和简洁,上述描述的系统的具体的工作过程及有关说明,可以参考签署方法实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例提供的引入情绪调控机制的机器人运动决策系统,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。
本发明第三实施例的一种存储装置,其中存储有多条程序,所述程序适用于由处理器加载并实现上述的引入情绪调控机制的机器人运动决策方法。
本发明第四实施例的一种处理装置,包括处理器、存储装置;处理器,适于执行各条程序;存储装置,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的引入情绪调控机制的机器人运动决策方法。
所述技术领域的技术人员可以清楚的了解到,未描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考签署方法实例中的对应过程,在此不再赘述。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的模块、方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
术语“第一”、“第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (11)

1.一种引入情绪调控机制的机器人运动决策方法,其特征在于,该方法包括:
步骤S10,获取机器人t时刻动作变量ut及状态值xt,利用环境感知模型生成机器人t+1时刻的预测状态值x′t+1
步骤S20,获取t时刻即时奖励值rt,将动作变量ut、状态值xt、即时奖励值rt添加到经验库当中,利用经验库中批采样的数据更新状态-动作值函数网络Q(x,u);
步骤S30,基于环境感知预测模型获取t到t+H时间段内的预测轨迹,在t+H时刻策略网络输出策略πθ的约束下计算所述预测轨迹在末端状态的状态-动作值函数Q(xt+H,u)的局部最优解,对所述的局部最优解进行微分动态规划求解,获取基于模型的最优决策;
步骤S40,根据t时刻的状态xt和策略神经网络输出策略πθ,最小化t时刻状态-动作值函数Q(xt,u),获取无模型决策;
步骤S50,基于状态预测误差、奖励预测误差以及平均奖励值,通过情绪加工可计算模型生成情绪响应信号,根据所述情绪响应信号的阈值选择路径决策;
其中,
所述的环境感知模型基于概率神经元网络构建,用于基于当前状态-动作信息预测下一时刻状态变化;
所述的状态-动作值函数网络基于感知神经网络构建,用于根据状态-动作-奖励信息获取全局输出策略;
所述情绪加工可计算模型基于生物神经元动态模型构建,用于基于状态预测误差、奖励预测误差以及平均奖励值计算情绪响应信号;所述状态预测误差基于t时刻状态xt与t时刻预测状态x′t+1获取,所述奖励预测误差基于t时刻奖励值rt、t时刻的状态-动作值函数Qt和t+1时刻的状态-动作值函数Qt+1获取,所述平均奖励值为截止t时刻的累积奖励值。
2.根据权利要求1所述的引入情绪调控机制的机器人运动决策方法,其特征在于,所述环境感知模型由N个结构相同的概率神经网络构成,其训练过程中,通过最小化每个网络输出与目标之间的负对数似然来进行所述环境感知模型的优化。
3.根据权利要求1所述的引入情绪调控机制的机器人运动决策方法,其特征在于,所述状态-动作值函数网络在训练过程中,采用多层感知器神经网络来拟合状态-动作值函数Qπ(x,u),该函数为状态x和策略π下,未来长期的折扣回报之和,该函数需满足以下公式的更新原则:
Qπ(xt,ut)=r(xt,π(xt))+γQπ(xt+1,π(xt+1))
其中,r为t时刻所获得的即时奖励值,γ为折扣系数。
4.根据权利要求1所述的引入情绪调控机制的机器人运动决策方法,其特征在于,步骤S30“基于环境感知预测模型获取t到t+H时间段内的预测轨迹,在t+H时刻策略网络输出策略πθ的约束下计算所述预测轨迹在末端状态的状态-动作值函数Q(xt+H,u)的局部最优解,对所述的局部最优解进行微分动态规划求解,获取基于模型的最优决策”,其方法为:
采用无模型策略网络以及所述环境感知模型,初始化规划时间为H,利用环境感知模型下一步预测状态值x′t+1递推生成状态转移轨迹;
基于无模型策略的引导,优化全局预测状态的状态-动作值函数Q(xt+H,u),求得局部最优值作为微分动态算法的终端约束值;
基于终端约束值,采用传统微分动态算法优化求得最优动作序列作为最优决策。
5.根据权利要求1所述的引入情绪调控机制的机器人运动决策方法,其特征在于,步骤S30“基于环境感知预测模型获取t到t+H时间段内的预测轨迹,在t+H时刻策略网络输出策略πθ的约束下计算所述预测轨迹在末端状态的状态-动作值函数Q(xt+H,u)的局部最优解,对所述的局部最优解进行微分动态规划求解,获取基于模型的最优决策”,其方法为:
将人工设定的终端奖励约束rf作为终端值函数,采用传统微分动态算法优化求得次优动作序列;
基于模型策略的引导,优化预设目标函数,得到基于模型的最优决策。
6.根据权利要求1所述的引入情绪调控机制的机器人运动决策方法,其特征在于,步骤S40“根据t时刻的状态xt和策略神经网络输出策略πθ,最小化t时刻状态-动作值函数Q(xt,u),获取无模型决策”,其方法为:
基于当前状态,利用策略神经网络获取动作路径决策;其中所述策略神经网络采用多层感知器网络构建,并根据t时刻反馈的奖励,迭代学习实现最小化当前状态-动作值函数Q(xt,u),进而求得所对应的无模型决策。
7.根据权利要求1所述的引入情绪调控机制的机器人运动决策方法,其特征在于,步骤S50中所述情绪加工可计算模型为神经动力学模型,该模型中每个神经元的膜电位服从生物神经元动态模型,并采用预设的动力学方程模拟突触之间神经递质的传递过程。
8.根据权利要求1所述的引入情绪调控机制的机器人运动决策方法,其特征在于,步骤S50中所述情绪响应信号大于等于阈值时选择基于模型的最优决策,否则选择无模型决策;所述阈值为0。
9.一种引入情绪调控机制的机器人运动决策系统,其特征在于,该系统包括预测状态值模块、值函数学习模块、基于模型决策模块、无模型决策模块、情绪响应模块;
所述的预测状态值模块,配置为获取机器人t时刻动作变量ut及状态值xt,利用环境感知模型生成机器人t+1时刻的预测状态值x′t+1
所述的值函数学习模块,配置为获取t时刻即时奖励值rt,将动作变量ut、状态值xt、即时奖励值rt添加到经验库当中,利用经验库中批采样的数据更新状态-动作值函数网络Q(x,u);
所述的基于模型决策模块,配置为基于环境感知预测模型获取t到t+H时间段内的预测轨迹,在t+H时刻策略网络输出策略πθ的约束下计算所述预测轨迹在末端状态的状态-动作值函数Q(xt+H,u)的局部最优解,对所述的局部最优解进行微分动态规划求解,获取基于模型的最优决策;
所述的无模型决策模块,配置为根据t时刻的状态xt和策略神经网络输出策略πθ,最小化t时刻状态-动作值函数Q(xt,u),获取无模型决策;
所述的情绪响应模块,配置为基于状态预测误差、奖励预测误差以及平均奖励值,通过情绪加工可计算模型生成情绪响应信号,根据所述情绪响应信号的阈值选择路径决策;
所述的环境感知模型基于概率神经元网络构建,用于基于当前状态-动作信息预测下一时刻状态变化;
所述的状态-动作值函数网络基于感知神经网络构建,用于根据状态-动作-奖励信息获取全局输出策略;
所述情绪加工可计算模型基于生物神经元动态模型构建,用于基于状态预测误差、奖励预测误差以及平均奖励值计算情绪响应信号;所述状态预测误差基于t时刻状态xt与t时刻预测状态x′t+1获取,所述奖励预测误差基于t时刻奖励值rt、t时刻的状态-动作值函数Qt和t+1时刻的状态-动作值函数Qt+1获取,所述平均奖励值为截止t时刻的累积奖励值。
10.一种存储装置,其中存储有多条程序,其特征在于,所述程序应用由处理器加载并执行以实现权利要求1-8任一项所述的引入情绪调控机制的机器人运动决策方法。
11.一种处理设置,包括处理器、存储装置;处理器,适用于执行各条程序;存储装置,适用于存储多条程序;其特征在于,所述程序适用于由处理器加载并执行以实现权利要求1-8任一项所述的引入情绪调控机制的机器人运动决策方法。
CN201910378476.1A 2019-05-08 2019-05-08 引入情绪调控机制的机器人运动决策方法、系统、装置 Active CN110119844B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910378476.1A CN110119844B (zh) 2019-05-08 2019-05-08 引入情绪调控机制的机器人运动决策方法、系统、装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910378476.1A CN110119844B (zh) 2019-05-08 2019-05-08 引入情绪调控机制的机器人运动决策方法、系统、装置

Publications (2)

Publication Number Publication Date
CN110119844A CN110119844A (zh) 2019-08-13
CN110119844B true CN110119844B (zh) 2021-02-12

Family

ID=67521892

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910378476.1A Active CN110119844B (zh) 2019-05-08 2019-05-08 引入情绪调控机制的机器人运动决策方法、系统、装置

Country Status (1)

Country Link
CN (1) CN110119844B (zh)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110648049B (zh) * 2019-08-21 2022-06-03 北京大学 一种基于多智能体的资源分配方法与系统
CN110826604A (zh) * 2019-10-24 2020-02-21 西南交通大学 一种基于深度学习的物料分拣方法
CN110727272B (zh) * 2019-11-11 2023-04-18 广州赛特智能科技有限公司 一种多台机器人的路径规划调度系统及方法
CN111027705A (zh) * 2019-11-14 2020-04-17 上海大学 基于随机微分方程的连续性强化学习模型构造系统及方法
CN110879595A (zh) * 2019-11-29 2020-03-13 江苏徐工工程机械研究院有限公司 一种基于深度强化学习的无人矿卡循迹控制系统及方法
CN111510339B (zh) * 2020-03-09 2022-02-22 中国信息通信研究院 一种工业互联网数据监测方法和装置
CN111432015B (zh) * 2020-03-31 2022-07-19 中国人民解放军国防科技大学 一种面向动态噪声环境的全覆盖任务分配方法
CN112215346B (zh) * 2020-10-20 2021-11-02 陈永聪 一种实现类人通用人工智能机器的方法
CN111531543B (zh) * 2020-05-12 2021-10-08 中国科学院自动化研究所 基于生物启发式神经网络的机器人自适应阻抗控制方法
CN111857054B (zh) * 2020-07-15 2021-10-08 清华大学 一种基于神经网络的数控系统运动轨迹控制方法
CN112101556B (zh) * 2020-08-25 2021-08-10 清华大学 识别与去除环境观测量中冗余信息的方法及装置
CN112216127B (zh) * 2020-09-27 2022-05-03 航天科工广信智能技术有限公司 一种基于近端策略优化的小型路网交通信号优化方法
CN113211441B (zh) * 2020-11-30 2022-09-09 湖南太观科技有限公司 神经网络训练和机器人控制方法及装置
CN112580801B (zh) * 2020-12-09 2021-10-15 广州优策科技有限公司 一种强化学习训练方法及基于强化学习的决策方法
CN113781190A (zh) * 2021-01-13 2021-12-10 北京沃东天骏信息技术有限公司 账单数据的处理方法、系统、计算机系统和介质
CN113012718B (zh) * 2021-03-17 2023-06-23 华南理工大学 基于多条路径积分的语音情感识别方法、系统、设备及介质
CN113128705B (zh) * 2021-03-24 2024-02-09 北京科技大学顺德研究生院 一种智能体最优策略获取方法及装置
CN113395708B (zh) * 2021-07-13 2023-01-31 东南大学 基于全局环境预测的多自主体集中式区域覆盖方法与系统
CN114167856B (zh) * 2021-11-05 2023-07-18 杭州电子科技大学 一种基于人工情感的服务机器人局部路径规划方法
CN114084450B (zh) * 2022-01-04 2022-12-20 合肥工业大学 外骨骼机器人生产优化与助力控制方法
CN114735010B (zh) * 2022-05-17 2022-12-13 中南大学 基于情绪识别的智能车辆行驶控制方法、系统及存储介质
CN116091894B (zh) * 2023-03-03 2023-07-14 小米汽车科技有限公司 模型训练方法、车辆控制方法、装置、设备、车辆及介质
CN116483983B (zh) * 2023-06-25 2023-08-29 启智元慧(杭州)科技有限公司 一种虚拟人物情绪变化量的生成方法及相关设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104541306A (zh) * 2013-08-02 2015-04-22 奥克兰单一服务有限公司 神经行为动画系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104541306A (zh) * 2013-08-02 2015-04-22 奥克兰单一服务有限公司 神经行为动画系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"基于仿人机器人的人机交互与合作研究--表情交互过程中的情感决策与联想记忆";王毅;《中国博士学位论文全文数据库 信息科技辑》;20150615(第6期);第I140-9页 *
"基于深度强化学习的未知环境下机器人路径规划的研究";卜祥津;《中国优秀硕士学位论文全文数据库 信息科技辑》;20190115(第1期);第I140-872页 *

Also Published As

Publication number Publication date
CN110119844A (zh) 2019-08-13

Similar Documents

Publication Publication Date Title
CN110119844B (zh) 引入情绪调控机制的机器人运动决策方法、系统、装置
Lin et al. An efficient deep reinforcement learning model for urban traffic control
Du et al. Model-based reinforcement learning for semi-markov decision processes with neural odes
Choudhury et al. On the utility of model learning in hri
Yesil et al. Fuzzy cognitive maps learning using artificial bee colony optimization
CN109840595B (zh) 一种基于群体学习行为特征的知识追踪方法
Cao et al. Weak human preference supervision for deep reinforcement learning
Ewald Automatic algorithm selection for complex simulation problems
CN113408621B (zh) 面向机器人技能学习的快速模仿学习方法、系统、设备
CN109925718A (zh) 一种分发游戏微端地图的系统及方法
Woodford et al. Concurrent controller and simulator neural network development for a differentially-steered robot in evolutionary robotics
Na et al. A novel heuristic artificial neural network model for urban computing
He et al. Influence-augmented online planning for complex environments
Rounds et al. An evolutionary framework for replicating neurophysiological data with spiking neural networks
CN113139644B (zh) 一种基于深度蒙特卡洛树搜索的信源导航方法及装置
Caamaño et al. Introducing synaptic delays in the NEAT algorithm to improve modelling in cognitive robotics
Casas Deep reinforcement learning for urban traffic light control
Dockhorn et al. Balancing Exploration and Exploitation in Forward Model Learning
Kumar et al. A Novel Algorithm for Optimal Trajectory Generation Using Q Learning
CN114872040B (zh) 基于小脑预测与修正的肌肉骨骼机器人控制方法及装置
Elliott et al. Using supervised training signals of observable state dynamics to speed-up and improve reinforcement learning
Weng A general purpose brain model for developmental robots: The spatial brain for any temporal lengths
Ogiso et al. Co-learning system for humans and machines using a weighted majority-based method
Hu et al. Research on Online Reinforcement Learning Method Based on Experience-Replay
McKee Reinforcement learning strategies support generalization of learned hierarchical knowledge

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant