CN110119844B - 引入情绪调控机制的机器人运动决策方法、系统、装置 - Google Patents
引入情绪调控机制的机器人运动决策方法、系统、装置 Download PDFInfo
- Publication number
- CN110119844B CN110119844B CN201910378476.1A CN201910378476A CN110119844B CN 110119844 B CN110119844 B CN 110119844B CN 201910378476 A CN201910378476 A CN 201910378476A CN 110119844 B CN110119844 B CN 110119844B
- Authority
- CN
- China
- Prior art keywords
- state
- model
- value
- decision
- action
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 81
- 230000033001 locomotion Effects 0.000 title claims abstract description 33
- 230000007246 mechanism Effects 0.000 title claims abstract description 27
- 230000010482 emotional regulation Effects 0.000 title claims abstract description 17
- 230000006870 function Effects 0.000 claims abstract description 122
- 230000008447 perception Effects 0.000 claims abstract description 35
- 230000009471 action Effects 0.000 claims abstract description 31
- 230000008451 emotion Effects 0.000 claims abstract description 31
- 230000006397 emotional response Effects 0.000 claims abstract description 28
- 238000012545 processing Methods 0.000 claims abstract description 23
- 238000013528 artificial neural network Methods 0.000 claims description 37
- 210000002569 neuron Anatomy 0.000 claims description 35
- 230000008859 change Effects 0.000 claims description 19
- 239000000126 substance Substances 0.000 claims description 17
- 238000004422 calculation algorithm Methods 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 11
- 230000007613 environmental effect Effects 0.000 claims description 5
- 230000007704 transition Effects 0.000 claims description 4
- 230000005540 biological transmission Effects 0.000 claims description 3
- 230000007774 longterm Effects 0.000 claims description 3
- 239000012528 membrane Substances 0.000 claims description 3
- 239000002858 neurotransmitter agent Substances 0.000 claims description 3
- 210000000225 synapse Anatomy 0.000 claims description 3
- 238000005094 computer simulation Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 description 34
- 230000004913 activation Effects 0.000 description 21
- 230000037361 pathway Effects 0.000 description 11
- 230000000875 corresponding effect Effects 0.000 description 10
- 210000004556 brain Anatomy 0.000 description 9
- 238000005457 optimization Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 7
- 230000009977 dual effect Effects 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 6
- 239000002245 particle Substances 0.000 description 5
- 210000004727 amygdala Anatomy 0.000 description 4
- 230000006399 behavior Effects 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 230000001149 cognitive effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000002964 excitative effect Effects 0.000 description 3
- 230000002650 habitual effect Effects 0.000 description 3
- 230000002401 inhibitory effect Effects 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 230000000946 synaptic effect Effects 0.000 description 3
- 206010048669 Terminal state Diseases 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 2
- 238000009795 derivation Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000002996 emotional effect Effects 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 210000004205 output neuron Anatomy 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 235000011437 Amygdalus communis Nutrition 0.000 description 1
- 208000019901 Anxiety disease Diseases 0.000 description 1
- 241001316028 Euphaedusa tau Species 0.000 description 1
- 241000220304 Prunus dulcis Species 0.000 description 1
- 208000003443 Unconsciousness Diseases 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 235000020224 almond Nutrition 0.000 description 1
- 230000036506 anxiety Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007230 neural mechanism Effects 0.000 description 1
- 230000008555 neuronal activation Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 210000002442 prefrontal cortex Anatomy 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000008844 regulatory mechanism Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000638 stimulation Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000003936 working memory Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/061—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using biological neurons, e.g. biological neurons connected to an integrated circuit
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0637—Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Human Resources & Organizations (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Strategic Management (AREA)
- Molecular Biology (AREA)
- Economics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Entrepreneurship & Innovation (AREA)
- Computational Linguistics (AREA)
- Marketing (AREA)
- Educational Administration (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- Neurology (AREA)
- Microelectronics & Electronic Packaging (AREA)
- Feedback Control In General (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于智能机器人领域,具体涉及一种引入情绪调控机制的机器人运动决策方法、系统、装置,旨在解决机器人决策速度与学习效率的问题。本系统方法包括利用环境感知模型,根据当前动作变量和状态值生成下一时刻的预测状态值;基于动作变量、状态值、即时奖励,更新状态‑动作值函数网络;基于环境感知模型获取预测轨迹,计算预测轨迹局部最优解,并进行微分动态规划,获取基于模型的最优决策;根据当前状态和策略,最小化状态‑动作值函数,获取无模型决策;基于状态预测误差、奖励预测误差及平均奖励值,通过情绪加工可计算模型生成情绪响应信号,根据信号的阈值选择路径决策。本发明在保证学习效率同时逐步提高决策速度。
Description
技术领域
本发明属于智能机器人领域,具体涉及一种引入情绪调控机制的机器人运动决策方法、系统、装置。
背景技术
当前机器人发展的一个巨大的挑战是:如何学会推理出环境潜在的动力学变化,以及学会如何有效地学习一种新的知识或技能。目前,科学家广泛借鉴人脑的工作机制,建立一系列脑启发的计算模型,试图实现类人智能。
决策过程是大脑中一种高级认知加工过程,大量的神经科学数据表明人类大脑系统中存在两种显著不同的决策系统:一种是可陈述的基于模型的决策系统,该系统主要用于完成一系列目标导向的行为;另一种是反射式的无模型决策系统,该系统则主要驱动一系列习惯性行为的产生。基于模型推理通常需要对外部环境进行建模,根据当前状态不断地预测未来可能的结果,进而以一种动态规划的形式找到一组最优的执行策略。这一过程通常来说拥有很高的学习效率和决策精度,但需要长时间计算,调度各方面的工作记忆来推断出一个可靠的结果;与之相反,无模型推理是通过与环境不断的交互,根据反馈的强化信号对大脑的神经网络进行修正,最终形成一种从状态到动作的直接映射,表现为习惯性行为。这一过程通常需要与环境进行大量交互,学习效率相对较低,但是决策速度快,对快速反应有着重要作用。然而,这两个并行工作的系统在大脑中如何产生一致性行为仍未可知。最近,大量神经科学研究表明,情绪是这两个决策仲裁过程中的一种重要的影响因素。
许多决策计算模型被纳入到强化学习框架当中,其中,行动-评价算法框架是最为流行的计算框架之一。基于模型的方法一般具有很高的采样有效性,如PILCO就是一种高效的基于模型的策略搜索方法,该方法将模型的不确定性整合到机器人的长期规划当中,极大提高了机器人的数据利用效率。但是学习模型采用的是高斯回归方法,解决高维决策问题时,计算复杂度非常高,严重影响决策速度。采用无模型方法进行学习,一般需要与环境进行大量交互,数据利用率很低。对此,许多学者探索如何将基于模型的学习算法同无模型的学习方法进行融合。将基于模型与无模型过程融合的最经典框架是Dyna,该框架将仿真模型产生的数据也加入到经验库中,对无模型网络进行训练,能够有效加快无模型算法的训练过程。但若仿真模型不太准确,势必会影响最后得到的最优。
将情绪调控决策的神经机制引入到机器人决策算法当中,在任务学习周期中,对基于模型和无模型决策过程进行动态分配,一方面更接近于大脑的决策过程,另一方面能够有效平衡学习效率和决策速度的关系。具体而言,在任务学习早期,由于经验知识匮乏,对环境状态预测以及奖励预测误差很大,会导致更多负性情绪产生(如压力、焦虑或不自信),这会进一步驱动机器人采用更多基于模型推理的决策,决策速度慢,但学习效率高。随着训练次数增加,状态以及奖励预测误差都会有所降低,这会导致更多中性或正性情绪产生,促进机器人更多采用无模型决策方案,逐渐形成习惯性动作,提高决策速度。
发明内容
为了解决现有技术中的上述问题,即为了解决基于模型决策与无模型决策之间的调度过程,平衡决策速度与学习效率之间的问题,本发明第一方面,提出了一种引入情绪调控机制的机器人运动决策方法,该方法包括:
步骤S10,获取机器人t时刻动作变量ut及状态值xt,利用环境感知模型生成机器人t+1时刻的预测状态值xt′+1;
步骤S20,获取t时刻即时奖励值rt,将动作变量ut、状态值xt、即时奖励值rt添加到经验库当中,利用经验库中批采样的数据更新状态-动作值函数网络Q(x,u);
步骤S30,基于环境感知预测模型获取t到t+H时间段内的预测轨迹,在t+H时刻策略网络输出策略πθ的约束下计算所述预测轨迹在末端状态的状态-动作值函数Q(xt+H,u)的局部最优解,对所述的局部最优解进行微分动态规划求解,获取基于模型的最优决策;
步骤S40,根据t时刻的状态xt和策略神经网络输出策略πθ,最小化t时刻状态-动作值函数Q(xt,u),获取无模型决策;
步骤S50,基于状态预测误差、奖励预测误差以及平均奖励值,通过情绪加工可计算模型生成情绪响应信号,根据所述情绪响应信号的阈值选择路径决策;
其中,
所述的环境感知模型基于概率神经元网络构建,输入样本是当前状态-动作,输出样本是下一步状态变化;
所述的状态-动作值函数网络基于感知神经网络构建,用于根据状态-动作-奖励信息获取全局输出策略;
所述情绪加工可计算模型基于生物神经元动态模型构建,用于基于状态预测误差、奖励预测误差以及平均奖励值计算情绪响应信号;所述状态预测误差基于t时刻状态xt与t时刻预测状态x′t+1获取,所述奖励预测误差基于t时刻奖励值rt、t时刻的状态-动作值函数Qt和t+1时刻的状态-动作值函数Qt+1获取,所述平均奖励值为截止t时刻的累积奖励值。
在一些优选的实施方式中,所述环境感知预测模型由N个结构相同的概率神经网络构成,其训练过程中,通过最小化每个网络输出与目标之间的负对数似然来进行所述环境感知模型的优化。
在一些优选的实施方式中,所述状态-动作值函数网络在训练过程中,采用多层感知器神经网络来拟合状态-动作值函数Qπ(x,u),该函数为状态X和策略π下,未来长期的折扣回报之和,该函数需满足以下公式的更新原则:
Qπ(xt,ut)=r(xt,π(xt))+γQπ(xt+1,π(xt+1))
其中,r为t时刻从环境中获得的即时奖励,γ为值函数更新的折扣系数。
在一些优选的实施方式中,步骤S30“基于环境感知预测模型获取t到t+H时间段内的预测轨迹,在t+H时刻策略网络输出策略πθ的约束下计算所述预测轨迹在末端状态的状态-动作值函数Q(xt+H,u)的局部最优解,对所述的局部最优解进行微分动态规划求解,获取基于模型的最优决策”,其方法为:
采用无模型策略网络以及所述环境学习模型,初始化规划时间为H,利用环境学习模型预测下一步状态值x′t+1递推生成状态转移轨迹;
基于无模型策略的引导,优化全局预测状态的状态-动作值函数Q(xt+H,u),求得局部最优值作为微分动态算法的终端约束值;
基于终端约束值,采用传统微分动态算法优化求得最优动作序列作为最优决策。
在一些优选的实施方式中,步骤S30“基于环境感知预测模型获取t到t+H时间段内的预测轨迹,在t+H时刻策略网络输出策略πθ的约束下计算所述预测轨迹在末端状态的状态-动作值函数Q(xt+H,u)的局部最优解,对所述的局部最优解进行微分动态规划求解,获取基于模型的最优决策”,其方法为:
将人工设定的终端奖励约束rf作为终端值函数,采用传统微分动态算法优化求得次优动作序列;
基于模型策略的引导,优化预设目标函数,得到基于模型的最优决策。
在一些优选的实施方式中,步骤S40“根据t时刻的状态xt和策略神经网络输出策略πθ,最小化t时刻状态-动作值函数Q(xt,u),获取无模型决策”,其方法为:
基于当前状态,利用策略神经网络获取动作路径决策;其中所述策略神经网络采用多层感知器网络构建,并根据t时刻反馈的奖励,迭代学习实现最小化当前状态-动作值函数Q(xt,u),进而求得所对应的无模型决策。
在一些优选的实施方式中,步骤S50中所述情绪加工可计算模型为神经动力学模型,该模型中每个神经元的膜电位服从生物神经元动态模型,并采用预设的动力学方程模拟突触之间神经递质的传递过程。
在一些优选的实施方式中,步骤S50中所述的设定阈值为0,所述情绪响应信号大于等于设定阈值时选择基于模型的最优决策,否则选择无模型决策。
本发明的第二方面,提出了一种引入情绪调控机制的机器人运动决策系统,该系统包括预测状态值模块、值函数学习模块、模型决策模块、无模型决策模块、情绪响应模块;
所述的预测状态值模块,配置为获取机器人t时刻动作变量ut及状态值xt,利用环境感知模型生成机器人t+1时刻的预测状态值x′t+1;
所述的值函数学习模块,配置为获取t时刻即时奖励值rt,将动作变量ut、状态值xt、即时奖励值rt添加到经验库当中,利用经验库中批采样的数据更新状态-动作值函数网络Q(x,u);
所述的基于模型决策模块,配置为基于环境感知预测模型获取t到t+H时间段内的预测轨迹,在t+H时刻策略网络输出策略πθ的约束下计算所述预测轨迹在末端状态的状态-动作值函数Q(xt+H,u)的局部最优解,对所述的局部最优解进行微分动态规划求解,获取基于模型的最优决策;
所述的无模型决策模块,配置为根据t时刻的状态xt和策略神经网络输出策略πθ,最小化t时刻状态-动作值函数Q(xt,u),获取无模型决策;
所述的情绪响应模块,配置为基于状态预测误差、奖励预测误差以及平均奖励值,通过情绪加工可计算模型生成情绪响应信号,根据所述情绪响应信号的阈值选择不同决策模式。
本发明的第三方面,提出了一种存储装置,其中存储有多条程序,所述程序应用由处理器加载并执行以实现上述的引入情绪调控机制的机器人运动决策方法。
本发明的第四方面,提出了一种处理设置,包括处理器、存储装置;处理器,适用于执行各条程序;存储装置,适用于存储多条程序;所述程序适用于由处理器加载并执行以实现上述的引入情绪调控机制的机器人运动决策方法。
本发明的有益效果:
本发明在保证机器人学习效率的前提下,逐步提高决策速度。本发明启发于大脑情绪对两个决策过程的调控机制,通过切换导向策略实现基于模型决策与无模型决策的动态分配,一方面更接近于大脑的决策,另一方面能够有效平衡基于模型和无模型两通路的决策过程。
附图说明
通过阅读参照以下附图所做的对非限制性实施例所做的详细描述,本申请的其他特征、目的和优点将会变得更明显。
图1是本发明一种实施例的引入情绪调控机制的机器人运动决策方法的流程示意图;
图2是本发明一种实施例的概率神经元集群网络结构的示例图;
图3是本发明一种实施例的情绪加工的神经网络结构的示例图;
图4本发明一种实施例的引入情绪调控机制的机器人运动决策系统的框架示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本发明的引入情绪调控机制的机器人运动决策方法,如图1所示,包括以下步骤:
步骤S10,获取机器人t时刻动作变量ut及状态值xt,利用环境感知模型生成机器人t+1时刻的预测状态值x′t+1;
步骤S20,获取t时刻即时奖励值rt,将动作变量ut、状态值xt、即时奖励值rt添加到经验库当中,利用经验库中批采样的数据更新状态-动作值函数网络Q(x,u);
步骤S30,基于环境感知预测模型获取t到t+H时间段内的预测轨迹,在t+H时刻策略网络输出策略πθ的约束下计算所述预测轨迹在末端状态的状态-动作值函数Q(xt+H,u)的局部最优解,对所述的局部最优解进行微分动态规划求解,获取基于模型的最优决策;
步骤S40,根据t时刻的状态xt和策略神经网络输出策略πθ,最小化t时刻状态-动作值函数Q(xt,u),获取无模型决策;
步骤S50,基于状态预测误差、奖励预测误差以及平均奖励值,通过情绪加工可计算模型生成情绪响应信号,根据所述情绪响应信号的阈值选择路径决策;
其中,
所述的环境感知模型基于概率神经元网络构建,输入样本是当前状态-动作,输出样本是下一步状态变化;
所述的状态-动作值函数网络基于感知神经网络构建,用于根据状态-动作-奖励信息获取全局输出策略;
所述情绪加工可计算模型基于生物神经元动态模型构建,用于基于状态预测误差、奖励预测误差以及平均奖励值计算情绪响应信号;所述状态预测误差基于t时刻状态xt与t时刻预测状态x′t+1获取,所述奖励预测误差基于t时刻奖励值rt、t时刻的状态-动作值函数Qt和t+1时刻的状态-动作值函数Qt+1获取,所述平均奖励值为截止t时刻的累积奖励值。
为了更清晰地对本发明引入情绪调控机制的机器人运动决策方法进行说明,下面结合附图1对本发明方法一种实施例中各步骤进行展开详述。
步骤S10,获取机器人t时刻动作变量ut及状态值xt,利用环境感知模型生成机器人t+1时刻的预测状态值x′t+1。
本实施例中,分析获取t时刻的动作变量数据ut,建立各关节的坐标系,进行坐标运算和位置表示,基于所构建的机器人环境感知模型,判断机器人当前的状态和动作利用环境感知模型根据机器人的动作和状态生成机器人t+1时刻的预测状态值x′t+1。动作变量一般包括关节t时刻的角度、角速度、末端点位置及期望力矩。
本实施例中,利用概率神经元集群网络结构,根据状态-动作的历史消息映射未来状态的变化,建立机器人环境感知模型。模型的目标是根据当前的状态和动作来预测下一步的状态变化,是由多个前向神经网络集成来估计模型学习的不确定性,能够有效克服高斯过程回归中昂贵的计算成本。如图2所示,图2示例性地给出了概率神经元集群网络结构,步骤如下:
步骤S101,捕捉模型的偶然不确定性。具体而言,假设所述模型由N个结构相同的概率神经网络构成,第n个网络被参数化为φn,每个神经网络能够编码一个高斯分布来捕捉模型的偶然不确定性,如公式(1)所示:
步骤S102,优化偶然不确定性。偶然不确定性是一种随机噪声,例如系统观测噪声或过程噪声,这种噪声往往源于系统的内部不确定性。在训练过程中,我们通过最小化每个网络输出与目标之间的负对数似然来进行优化,如公式(2)所示:
步骤S103,计算模型学习中的主观认知不确定性。单个子神经网络能够成功建模模型的偶然不确定性,但是不能够计算出模型学习中的主观认知不确定性。本发明根据当前状态分布,采样产生M个粒子,统计这些粒子的输出结果来评估每个子网络的认知不确定性。进一步,本发明统计不同子网络的预测情况,生成对下一步预测的状态分布。假设该分布也是高斯分布,其方差为均值为那么二者的计算过程如公式(3)、(4)所示:
下一个状态的预测值能够通过采样当前的概率分布而获得,如式(5)所示:
步骤S20,获取t时刻即时奖励值rt,将动作变量ut、状态值xt、即时奖励值rt添加到经验库当中,利用经验库中批采样的数据更新状态-动作值函数网络Q(x,u)。
本实施例中,采用多层感知器建立值函数学习网络,运用贝尔曼原则对该网络进行训练,使得该网络能够根据当前的策略和状态变化来预测未来奖励的变化。值函数学习网络的训练可以通过两种方式进行更新,一种为该值函数可根据实际状态-动作-奖励数据集进行更新;另一种为,采用步骤S1的学习模型产生预测数据,根据预测数据对值函数进行更新有助于加速值函数收敛。
(1)基于实际实验数据集训练
本实例中,采用多层感知神经网络来拟合状态-动作值函数Qπ(x,u),它代表在当前状态x和策略π下,未来长期的折扣回报之和,如公式(6)所示:
其中状态x全部取自于实际收集的数据库中,该状态-动作值函数满足公式(7)所示的Bellman更新原则:
Qπ(xt,ut)=r(xt,π(xt))+γQπ(xt+1,π(xt+1)) (7)
其中,代表对进行求导,α代表学习率,x′为下一个状态值,目标值能够通过目标值函数学习网络来求得,为期望策略,u′代表下一动作值,代表目标值函数学习网络,代表目标值函数网络的参数,目标网络参数可通过原始网络参数进行滑动平均而求得,即τ代表网络参数平滑系数,该方法能够提高值函数学习的稳定性。
(2)基于预测数据集训练
从经验数据库随机采样初始状态-动作-奖励组T0,采用步骤S10中的环境学习模型来预测未来H步的状态-动作-奖励变化,形成轨迹T0:H-1。依次选取轨迹的第k步作为当前状态,计算该状态下值函数的目标值如公式(9)所示:
优化式(10),更新值函数学习网络的参数,参数更新完成后,仿真所产生的数据被清除,不加入到全局经验库。
步骤S30,基于环境感知预测模型获取t到t+H时间段内的预测轨迹,在t+H时刻策略网络输出策略πθ的约束下计算所述预测轨迹在末端状态的状态-动作值函数Q(xt+H,u)的局部最优解,对所述的局部最优解进行微分动态规划求解,获取基于模型的最优决策。
本实施例中,基于模型的最优决策方案有两种方法:一、根据目标点的位置,利用微分动态规划将时间片进行离散化,建立中间目标,优化值函数学习网络得到当前的最优路径;二、在无模型策略的引导下先计算微分动态规划的终端约束,设置规划时间,微分动态规划过程,将初始值输出作为当前的最优路径。
1、在无模型策略导向下进行H步基于模型决策
步骤S31-2,计算终端约束值。在第H步,在无模型策略πθ(u|xH)的引导下,优化下面目标函数,如式(11)、(12)、(13)、(14)所示:
通过拉格朗日乘子法能够求得该优化问题的闭环解,如式(15)所示:
其中,∝代表正比于,η*和ω*分别是相对熵KL和熵约束的最优对偶变量,这两个对偶变量的值能够通过优化以下对偶函数求得,如公式(16)所示:
其中,η代表相对熵KL所对应的对偶变量,ω代表熵约束项所对应的对偶变量,exp()代表自然常数e为底的指数函数,u代表无模型网络的输出动作,du代表对u积分。
假设Q(xH,u)能够在任一点u0处进行局部二阶泰勒级数展开为公式(17)所示:
其中该策略中求解各参数如公式(20)、(21)、(22)所示:
G0(xH)=g0(xH)-H0(xH)u0 (22)
对偶变量η*和ω*可通过求解公式(23)优化方程:
其中,V代表状态值函数,Vx代表状态值函数对x的一阶导数,Vxx代表状态值函数对x的二阶导数。
S31-3,基于终端值,采用传统微分动态算法优化求得最优动作序列,优化目标如式(27)所示:
算法分为前向传播和反向传播两个过程,反向过程主要通过计算值函数的微分信息,求得控制量更新的参数值。具体形式如公式(28)、(29)、(30)、(31)、(32)所示:
其中,代表状态-动作值函数对u的一阶导数,代表状态动作值函数对u的二阶导数,代表状态动作值函数先对u,后对x求偏导数,代表状态-动作值函数对x的一阶导数,代表状态动作值函数对x的二阶导数,代表t时刻的奖励函数对x的一阶导数,代表t时刻的奖励函数对x的二阶导数,代表t时刻的奖励函数先对u再对x求偏导,代表t时刻的环境预测模型对x的一阶导数,代表t时刻的环境预测模型对u的一阶导数。
状态值函数则用公式(34)、(35)、(36)进行更新:
在前向传播过程中,采用最新的I和L对上一步优化序列进行更新,更新形式如式(37)、(38)、(39)所示:
其中,λ代表动作更新系数。
2、在基于模型策略导向下优化决策
与“1、在无模型策略导向下进行H步基于模型决策”不同,该方法先基于人工设定的终端约束搜索一个基于模型的最优动作序列,再在该序列的引导下优化全局值函数,得到可执行策略。
步骤S32-1,基于人工设定的终端奖励约束γf,采用传统微分动态算法优化求得最优动作序列,优化目标如式(40)所示:
步骤S40,根据t时刻的状态xt和策略神经网络输出策略πθ,最小化t时刻状态-动作值函数Q(xt,u),获取无模型决策。
本实例中,基于当前状态,利用策略神经网络获取动作路径决策;其中所述策略神经网络采用多层感知器网络构建,并根据当前时刻反馈的奖励,迭代学习实现最小化当前状态-动作值函数Q(xt,u),进而求得所对应的动作输出。
采用多层感知网络构建本发明的策略神经网络,主要目的在于根据环境所不断反馈的奖励,训练网络根据当前状态直接计算动作,进行快速决策。假设策略网络的参数为θ,策略网络输出的是确定性策略u=πθ(x),那么参数可通过式(41)进行更新:
采用了评价函数的一阶信息对权重进行更新,使得经过策略网络产生的策略最大化当前的评价函数。
步骤S50,基于状态预测误差、奖励预测误差以及平均奖励值,通过情绪加工可计算模型生成情绪响应信号,根据所述情绪响应信号的阈值选择不同的决策方式。
本实施例中,图3示例性给出了情绪加工的神经网络结构,该模型神经元的连接关系是启发于杏仁核对外部刺激的情绪化加工神经环路,主要包含四个区域:外侧杏仁核(LA)、基底杏仁核(BA)、中央杏仁核(CA)以及插入性细胞集群(ITC),同时杏仁核还与前额叶皮层的边缘下区皮层(IL)存在密切的交互关系,每一部分在情绪加工都扮演着不同的角色。每个神经元的膜电位服从生物神经元动态模型Shunting Model,即每个神经元的神经动力学满足公式(42):
其中,-A代表神经元激活衰减率,-D代表神经元活动的下界,B代表活动的上界,S代表输入的刺激信号,S+代表兴奋性输入信号,S-代表抑制性输入信号,I和J代表兴奋与抑制通路的基电位,dt代表时间变化量,代表神经元激活状态的变化量。同时本发明还用到另一动力学方程来模拟突触之间神经递质的传递过程,如公式(43)所示:
该方程表示ωi以固定速率H激活到最大值K,Lf(xk)ωk是其中一个反馈抑制项,代表突触电位变化量。基于这两种模型,本发明中以SPE通路的神经元为例,其神经动力学方程如公式(44)、(45)、(46)、(47)、(48)、(49)、(50)、(51)、(52)、(53)所示:
其中,代表LA神经元激活变化微分量,代表BA神经元激活变化微分量,代表通路0中LA神经元激活量,代表通路0中BA神经元激活量,代表通路0中ITC神经元激活变化微分量,代表通路0中ITC神经元激活量,代表通路1中LA神经元激活量,xg代表输出神经元的激活量,代表通路1中BA神经元激活量,代表通路1中ITC神经元激活变化微分量,代表通路0中ITC神经元激活量,代表通路1中IL神经元激活量,代表通路2中IL神经元激活量,代表输出神经元的激活变化量微分,代表SPE通道中Ge神经元激活变化微分量,代表SPE通道中Ge神经元激活变化微分量,代表RPE通道中Ge神经元激活量,代表SPE通道中Ge神经元激活变化微分量,代表通道0中LA突触激活变化微分量,wBA代表BA突触激活量。
该网络包含三个输入变量分别是状态预测误差(SPE)、奖励预测误差(RPE)以及平均累积奖励(AVR)。其中状态预测误差衡量的是步骤S10中机器人环境感知模型所产生的下一步状态预测信息与当前实际观测到的状态预测信息进行比较。假设下一步的状态服从高斯分布而预测的状态分布为采用二者相关熵来衡量,如公式(54)所示:
并采用sigmoid型函数对其激活,将值约束在(0,1)之间,形式如公式(55)所示:
其中,σ(SPE)代表采用sigmoid函数激活SPE信号,α代表尺度因子,β为平移系数。
相似地,奖励预测误差衡量的是当前接收到的奖励值与上一步预测的奖励值之间的差别,本发明采用评价函数的损失来定义,如公式(56)所示:
其中,Q′代表目标状态-动作值函数,X′代表下一步状态,u′代表下一步的动作。
同样,经过sigmoid型函数激活,形式如式(57)所示:
而平均累计奖励是用每次尝试过后所得到的累积奖励值来更新,本发明采用tanh型函数对该值进行激活,将原始活动奖励信号分为兴奋性的和抑制性的,具体如下公式(58)、(59)所示:
根据上述输入信号,情绪加工网络会产生相应的情绪性响应xg,本发明一个实施例中当xg≥0时,仲裁结果是采用基于模型的决策通路,否则的话采用无模型决策通路进行决策。
基于上述的仲裁结果执行导向策略规划的路径。
本发明第二实施例的一种引入情绪调控机制的机器人运动决策系统,如图4所示,包括:预测状态值模块100、值函数学习模块200、模型决策模块300、无模型决策模块400、情绪响应模块500;
预测状态值模块100,配置为获取机器人t时刻动作变量ut及状态值xt,利用环境感知模型生成机器人t+1时刻的预测状态值x′t+1;
值函数学习模块200,配置为获取t时刻即时奖励值rt,将动作变量ut、状态值xt、即时奖励值rt添加到经验库当中,利用经验库中批采样的数据更新状态-动作值函数网络Q(x,u);
模型决策模块300,配置为基于环境感知预测模型获取t到t+H时间段内的预测轨迹,在t+H时刻策略网络输出策略πθ的约束下计算所述预测轨迹在末端状态的状态-动作值函数Q(xt+H,u)的局部最优解,对所述的局部最优解进行微分动态规划求解,获取基于模型的最优决策;
无模型决策模块400,配置为根据t时刻的状态xt和策略神经网络输出策略πθ,最小化t时刻状态-动作值函数Q(xt,u),获取无模型决策;
情绪响应模块500,配置为基于状态预测误差、奖励预测误差以及平均奖励值,通过情绪加工可计算模型生成情绪响应信号,根据所述情绪响应信号的阈值选择不同的决策方式。
所述技术领域的技术人员可以清楚的了解到,为描述的方便和简洁,上述描述的系统的具体的工作过程及有关说明,可以参考签署方法实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例提供的引入情绪调控机制的机器人运动决策系统,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。
本发明第三实施例的一种存储装置,其中存储有多条程序,所述程序适用于由处理器加载并实现上述的引入情绪调控机制的机器人运动决策方法。
本发明第四实施例的一种处理装置,包括处理器、存储装置;处理器,适于执行各条程序;存储装置,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的引入情绪调控机制的机器人运动决策方法。
所述技术领域的技术人员可以清楚的了解到,未描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考签署方法实例中的对应过程,在此不再赘述。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的模块、方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
术语“第一”、“第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
Claims (11)
1.一种引入情绪调控机制的机器人运动决策方法,其特征在于,该方法包括:
步骤S10,获取机器人t时刻动作变量ut及状态值xt,利用环境感知模型生成机器人t+1时刻的预测状态值x′t+1;
步骤S20,获取t时刻即时奖励值rt,将动作变量ut、状态值xt、即时奖励值rt添加到经验库当中,利用经验库中批采样的数据更新状态-动作值函数网络Q(x,u);
步骤S30,基于环境感知预测模型获取t到t+H时间段内的预测轨迹,在t+H时刻策略网络输出策略πθ的约束下计算所述预测轨迹在末端状态的状态-动作值函数Q(xt+H,u)的局部最优解,对所述的局部最优解进行微分动态规划求解,获取基于模型的最优决策;
步骤S40,根据t时刻的状态xt和策略神经网络输出策略πθ,最小化t时刻状态-动作值函数Q(xt,u),获取无模型决策;
步骤S50,基于状态预测误差、奖励预测误差以及平均奖励值,通过情绪加工可计算模型生成情绪响应信号,根据所述情绪响应信号的阈值选择路径决策;
其中,
所述的环境感知模型基于概率神经元网络构建,用于基于当前状态-动作信息预测下一时刻状态变化;
所述的状态-动作值函数网络基于感知神经网络构建,用于根据状态-动作-奖励信息获取全局输出策略;
所述情绪加工可计算模型基于生物神经元动态模型构建,用于基于状态预测误差、奖励预测误差以及平均奖励值计算情绪响应信号;所述状态预测误差基于t时刻状态xt与t时刻预测状态x′t+1获取,所述奖励预测误差基于t时刻奖励值rt、t时刻的状态-动作值函数Qt和t+1时刻的状态-动作值函数Qt+1获取,所述平均奖励值为截止t时刻的累积奖励值。
2.根据权利要求1所述的引入情绪调控机制的机器人运动决策方法,其特征在于,所述环境感知模型由N个结构相同的概率神经网络构成,其训练过程中,通过最小化每个网络输出与目标之间的负对数似然来进行所述环境感知模型的优化。
3.根据权利要求1所述的引入情绪调控机制的机器人运动决策方法,其特征在于,所述状态-动作值函数网络在训练过程中,采用多层感知器神经网络来拟合状态-动作值函数Qπ(x,u),该函数为状态x和策略π下,未来长期的折扣回报之和,该函数需满足以下公式的更新原则:
Qπ(xt,ut)=r(xt,π(xt))+γQπ(xt+1,π(xt+1))
其中,r为t时刻所获得的即时奖励值,γ为折扣系数。
4.根据权利要求1所述的引入情绪调控机制的机器人运动决策方法,其特征在于,步骤S30“基于环境感知预测模型获取t到t+H时间段内的预测轨迹,在t+H时刻策略网络输出策略πθ的约束下计算所述预测轨迹在末端状态的状态-动作值函数Q(xt+H,u)的局部最优解,对所述的局部最优解进行微分动态规划求解,获取基于模型的最优决策”,其方法为:
采用无模型策略网络以及所述环境感知模型,初始化规划时间为H,利用环境感知模型下一步预测状态值x′t+1递推生成状态转移轨迹;
基于无模型策略的引导,优化全局预测状态的状态-动作值函数Q(xt+H,u),求得局部最优值作为微分动态算法的终端约束值;
基于终端约束值,采用传统微分动态算法优化求得最优动作序列作为最优决策。
5.根据权利要求1所述的引入情绪调控机制的机器人运动决策方法,其特征在于,步骤S30“基于环境感知预测模型获取t到t+H时间段内的预测轨迹,在t+H时刻策略网络输出策略πθ的约束下计算所述预测轨迹在末端状态的状态-动作值函数Q(xt+H,u)的局部最优解,对所述的局部最优解进行微分动态规划求解,获取基于模型的最优决策”,其方法为:
将人工设定的终端奖励约束rf作为终端值函数,采用传统微分动态算法优化求得次优动作序列;
基于模型策略的引导,优化预设目标函数,得到基于模型的最优决策。
6.根据权利要求1所述的引入情绪调控机制的机器人运动决策方法,其特征在于,步骤S40“根据t时刻的状态xt和策略神经网络输出策略πθ,最小化t时刻状态-动作值函数Q(xt,u),获取无模型决策”,其方法为:
基于当前状态,利用策略神经网络获取动作路径决策;其中所述策略神经网络采用多层感知器网络构建,并根据t时刻反馈的奖励,迭代学习实现最小化当前状态-动作值函数Q(xt,u),进而求得所对应的无模型决策。
7.根据权利要求1所述的引入情绪调控机制的机器人运动决策方法,其特征在于,步骤S50中所述情绪加工可计算模型为神经动力学模型,该模型中每个神经元的膜电位服从生物神经元动态模型,并采用预设的动力学方程模拟突触之间神经递质的传递过程。
8.根据权利要求1所述的引入情绪调控机制的机器人运动决策方法,其特征在于,步骤S50中所述情绪响应信号大于等于阈值时选择基于模型的最优决策,否则选择无模型决策;所述阈值为0。
9.一种引入情绪调控机制的机器人运动决策系统,其特征在于,该系统包括预测状态值模块、值函数学习模块、基于模型决策模块、无模型决策模块、情绪响应模块;
所述的预测状态值模块,配置为获取机器人t时刻动作变量ut及状态值xt,利用环境感知模型生成机器人t+1时刻的预测状态值x′t+1;
所述的值函数学习模块,配置为获取t时刻即时奖励值rt,将动作变量ut、状态值xt、即时奖励值rt添加到经验库当中,利用经验库中批采样的数据更新状态-动作值函数网络Q(x,u);
所述的基于模型决策模块,配置为基于环境感知预测模型获取t到t+H时间段内的预测轨迹,在t+H时刻策略网络输出策略πθ的约束下计算所述预测轨迹在末端状态的状态-动作值函数Q(xt+H,u)的局部最优解,对所述的局部最优解进行微分动态规划求解,获取基于模型的最优决策;
所述的无模型决策模块,配置为根据t时刻的状态xt和策略神经网络输出策略πθ,最小化t时刻状态-动作值函数Q(xt,u),获取无模型决策;
所述的情绪响应模块,配置为基于状态预测误差、奖励预测误差以及平均奖励值,通过情绪加工可计算模型生成情绪响应信号,根据所述情绪响应信号的阈值选择路径决策;
所述的环境感知模型基于概率神经元网络构建,用于基于当前状态-动作信息预测下一时刻状态变化;
所述的状态-动作值函数网络基于感知神经网络构建,用于根据状态-动作-奖励信息获取全局输出策略;
所述情绪加工可计算模型基于生物神经元动态模型构建,用于基于状态预测误差、奖励预测误差以及平均奖励值计算情绪响应信号;所述状态预测误差基于t时刻状态xt与t时刻预测状态x′t+1获取,所述奖励预测误差基于t时刻奖励值rt、t时刻的状态-动作值函数Qt和t+1时刻的状态-动作值函数Qt+1获取,所述平均奖励值为截止t时刻的累积奖励值。
10.一种存储装置,其中存储有多条程序,其特征在于,所述程序应用由处理器加载并执行以实现权利要求1-8任一项所述的引入情绪调控机制的机器人运动决策方法。
11.一种处理设置,包括处理器、存储装置;处理器,适用于执行各条程序;存储装置,适用于存储多条程序;其特征在于,所述程序适用于由处理器加载并执行以实现权利要求1-8任一项所述的引入情绪调控机制的机器人运动决策方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910378476.1A CN110119844B (zh) | 2019-05-08 | 2019-05-08 | 引入情绪调控机制的机器人运动决策方法、系统、装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910378476.1A CN110119844B (zh) | 2019-05-08 | 2019-05-08 | 引入情绪调控机制的机器人运动决策方法、系统、装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110119844A CN110119844A (zh) | 2019-08-13 |
CN110119844B true CN110119844B (zh) | 2021-02-12 |
Family
ID=67521892
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910378476.1A Active CN110119844B (zh) | 2019-05-08 | 2019-05-08 | 引入情绪调控机制的机器人运动决策方法、系统、装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110119844B (zh) |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110648049B (zh) * | 2019-08-21 | 2022-06-03 | 北京大学 | 一种基于多智能体的资源分配方法与系统 |
CN110826604A (zh) * | 2019-10-24 | 2020-02-21 | 西南交通大学 | 一种基于深度学习的物料分拣方法 |
CN110727272B (zh) * | 2019-11-11 | 2023-04-18 | 广州赛特智能科技有限公司 | 一种多台机器人的路径规划调度系统及方法 |
CN111027705A (zh) * | 2019-11-14 | 2020-04-17 | 上海大学 | 基于随机微分方程的连续性强化学习模型构造系统及方法 |
CN110879595A (zh) * | 2019-11-29 | 2020-03-13 | 江苏徐工工程机械研究院有限公司 | 一种基于深度强化学习的无人矿卡循迹控制系统及方法 |
CN111510339B (zh) * | 2020-03-09 | 2022-02-22 | 中国信息通信研究院 | 一种工业互联网数据监测方法和装置 |
CN111432015B (zh) * | 2020-03-31 | 2022-07-19 | 中国人民解放军国防科技大学 | 一种面向动态噪声环境的全覆盖任务分配方法 |
CN112215346B (zh) * | 2020-10-20 | 2021-11-02 | 陈永聪 | 一种实现类人通用人工智能机器的方法 |
CN111531543B (zh) * | 2020-05-12 | 2021-10-08 | 中国科学院自动化研究所 | 基于生物启发式神经网络的机器人自适应阻抗控制方法 |
CN111857054B (zh) * | 2020-07-15 | 2021-10-08 | 清华大学 | 一种基于神经网络的数控系统运动轨迹控制方法 |
CN112101556B (zh) * | 2020-08-25 | 2021-08-10 | 清华大学 | 识别与去除环境观测量中冗余信息的方法及装置 |
CN112216127B (zh) * | 2020-09-27 | 2022-05-03 | 航天科工广信智能技术有限公司 | 一种基于近端策略优化的小型路网交通信号优化方法 |
CN113211441B (zh) * | 2020-11-30 | 2022-09-09 | 湖南太观科技有限公司 | 神经网络训练和机器人控制方法及装置 |
CN112580801B (zh) * | 2020-12-09 | 2021-10-15 | 广州优策科技有限公司 | 一种强化学习训练方法及基于强化学习的决策方法 |
CN113781190A (zh) * | 2021-01-13 | 2021-12-10 | 北京沃东天骏信息技术有限公司 | 账单数据的处理方法、系统、计算机系统和介质 |
CN113012718B (zh) * | 2021-03-17 | 2023-06-23 | 华南理工大学 | 基于多条路径积分的语音情感识别方法、系统、设备及介质 |
CN113128705B (zh) * | 2021-03-24 | 2024-02-09 | 北京科技大学顺德研究生院 | 一种智能体最优策略获取方法及装置 |
CN113395708B (zh) * | 2021-07-13 | 2023-01-31 | 东南大学 | 基于全局环境预测的多自主体集中式区域覆盖方法与系统 |
CN114167856B (zh) * | 2021-11-05 | 2023-07-18 | 杭州电子科技大学 | 一种基于人工情感的服务机器人局部路径规划方法 |
CN114084450B (zh) * | 2022-01-04 | 2022-12-20 | 合肥工业大学 | 外骨骼机器人生产优化与助力控制方法 |
CN114735010B (zh) * | 2022-05-17 | 2022-12-13 | 中南大学 | 基于情绪识别的智能车辆行驶控制方法、系统及存储介质 |
CN116091894B (zh) * | 2023-03-03 | 2023-07-14 | 小米汽车科技有限公司 | 模型训练方法、车辆控制方法、装置、设备、车辆及介质 |
CN116483983B (zh) * | 2023-06-25 | 2023-08-29 | 启智元慧(杭州)科技有限公司 | 一种虚拟人物情绪变化量的生成方法及相关设备 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104541306A (zh) * | 2013-08-02 | 2015-04-22 | 奥克兰单一服务有限公司 | 神经行为动画系统 |
-
2019
- 2019-05-08 CN CN201910378476.1A patent/CN110119844B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104541306A (zh) * | 2013-08-02 | 2015-04-22 | 奥克兰单一服务有限公司 | 神经行为动画系统 |
Non-Patent Citations (2)
Title |
---|
"基于仿人机器人的人机交互与合作研究--表情交互过程中的情感决策与联想记忆";王毅;《中国博士学位论文全文数据库 信息科技辑》;20150615(第6期);第I140-9页 * |
"基于深度强化学习的未知环境下机器人路径规划的研究";卜祥津;《中国优秀硕士学位论文全文数据库 信息科技辑》;20190115(第1期);第I140-872页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110119844A (zh) | 2019-08-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110119844B (zh) | 引入情绪调控机制的机器人运动决策方法、系统、装置 | |
Lin et al. | An efficient deep reinforcement learning model for urban traffic control | |
Du et al. | Model-based reinforcement learning for semi-markov decision processes with neural odes | |
Choudhury et al. | On the utility of model learning in hri | |
Yesil et al. | Fuzzy cognitive maps learning using artificial bee colony optimization | |
CN109840595B (zh) | 一种基于群体学习行为特征的知识追踪方法 | |
Cao et al. | Weak human preference supervision for deep reinforcement learning | |
Ewald | Automatic algorithm selection for complex simulation problems | |
CN113408621B (zh) | 面向机器人技能学习的快速模仿学习方法、系统、设备 | |
CN109925718A (zh) | 一种分发游戏微端地图的系统及方法 | |
Woodford et al. | Concurrent controller and simulator neural network development for a differentially-steered robot in evolutionary robotics | |
Na et al. | A novel heuristic artificial neural network model for urban computing | |
He et al. | Influence-augmented online planning for complex environments | |
Rounds et al. | An evolutionary framework for replicating neurophysiological data with spiking neural networks | |
CN113139644B (zh) | 一种基于深度蒙特卡洛树搜索的信源导航方法及装置 | |
Caamaño et al. | Introducing synaptic delays in the NEAT algorithm to improve modelling in cognitive robotics | |
Casas | Deep reinforcement learning for urban traffic light control | |
Dockhorn et al. | Balancing Exploration and Exploitation in Forward Model Learning | |
Kumar et al. | A Novel Algorithm for Optimal Trajectory Generation Using Q Learning | |
CN114872040B (zh) | 基于小脑预测与修正的肌肉骨骼机器人控制方法及装置 | |
Elliott et al. | Using supervised training signals of observable state dynamics to speed-up and improve reinforcement learning | |
Weng | A general purpose brain model for developmental robots: The spatial brain for any temporal lengths | |
Ogiso et al. | Co-learning system for humans and machines using a weighted majority-based method | |
Hu et al. | Research on Online Reinforcement Learning Method Based on Experience-Replay | |
McKee | Reinforcement learning strategies support generalization of learned hierarchical knowledge |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |