CN102200787B - 机器人行为多层次集成学习方法及系统 - Google Patents
机器人行为多层次集成学习方法及系统 Download PDFInfo
- Publication number
- CN102200787B CN102200787B CN 201110096582 CN201110096582A CN102200787B CN 102200787 B CN102200787 B CN 102200787B CN 201110096582 CN201110096582 CN 201110096582 CN 201110096582 A CN201110096582 A CN 201110096582A CN 102200787 B CN102200787 B CN 102200787B
- Authority
- CN
- China
- Prior art keywords
- robot
- learning
- module
- level integrated
- behavior
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Manipulator (AREA)
- Feedback Control In General (AREA)
Abstract
本发明公开了一种机器人行为多层次集成学习方法及系统,涉及机器人行为控制技术,包括数据采样模块,用于输入机器人的信息数据;非监督学习模块,获取用于表达机器人运行环境的实时变化的环境模式特征向量;监督学习模块,以环境模式特征向量为输入信号,实时在线地把环境模式特征向量映射为机器人所需行为的动作命令;激励学习模块,对机器人行为控制器参数进行实时在线优化精确整定,使控制器达到可靠和稳定的工作状态;命令输出模块,本发明提出的方法及系统可用于不同类型的机器人、具备学习新的机器人行为的能力和优化现有机器人行为以适应运行环境的动态变化,从而提高机器人的智能与自主控制能力、增强学习系统的普适性和简化控制器的设计。
Description
技术领域
本发明涉及机器人行为控制技术,特别涉及一种集多种模式为一体的机器人行为学习系统及方法。
背景技术
机器人行为控制器的设计已经有许多工程技术方法,如传统AI中基于符号推理、模糊逻辑、和控制论中成熟的线性控制方法。然而这些方法或者需要确定的环境模型来实现“感知-规划-动作”,或者需要对控制器的参数整定和系统稳定性等进行复杂的设计和分析。因此,一旦机器人及其相应的运行环境有任何改变,原来的规划策略就过时了,设计者就得对控制器进行重新设计,从而增加了系统设计的成本和周期。
近年来也出现了一些基于神经网络的,集成两种以上学习模式的机器人行为学习系统。例如,基于动态神经元结构的“非监督-激励”学习系统用于机器人避障行为控制器参数的精确整定、基于自组织和多层感知网络的“非监督-监督”学习系统用于机器人定点停泊行为的学习、以及基于反馈神经网络“非监督-监督”学习系统用于机器人行为的自发育学习。但是,这些学习系统或因为激励学习的训练时间长而未在实际的机器人上实现, 或只是进行离线学习而没有集成“激励学习”这一重要的学习模式。因此不能满足在动态变化环境下机器人行为的自适应学习。
因此急需一种可用于不同类型的机器人、具备学习新的机器人行为的能力和优化现有机器人行为以适应运行环境的动态变化,从而提高机器人的智能与自主控制能力、增强学习系统的普适性、和简化控制器的设计的一种机器人行为学习系统及方法。
发明内容
有鉴于此,为了解决上述问题,本发明提出一种可用于不同类型的机器人、具备学习新的机器人行为的能力和优化现有机器人行为以适应运行环境的动态变化,从而提高机器人的智能与自主控制能力、增强学习系统的普适性、和简化控制器的设计的一种机器人行为学习系统及方法。
本发明的目的之一是提出一种机器人行为多层次集成学习方法;本发明的目的之二是提出一种针对含有装置。
本发明的目的之一是通过以下技术方案来实现的:
本发明提供的机器人行为多层次集成学习方法,包括以下步骤:
S1:输入机器人与环境交互感知信息数据和当前时刻运动动作的状态信息数据;
S2:根据机器人与环境交互感知信息的变化,获取用于表达机器人运行环境的实时变化的环境模式特征向量;
S3:以环境模式特征向量为输入信号,实时在线地把环境模式特征向量映射为机器人所需行为的动作命令,获得机器人行为控制器;
S4:以环境模式特征向量为输入信号,对机器人行为控制器参数进行实时在线优化精确整定,使控制器达到可靠和稳定的工作状态;
S5:输出机器人行为运动动作命令。
进一步,所述步骤S1中的所述交互感知信息数据和当前时刻运动动作的状态信息数据的输入采用耦合数据对协同输入模式;
进一步,所述步骤S2中采用自组织聚类获取环境模式特征向量,根据机器人与环境交互感知信息的变化在线生长出新的神经元以表达运行环境的实时变化;
进一步,所述步骤S2中通过单调线性可分机理在线提取信息数据空间获得所述环境模式特征向量;所述步骤S2中还包括状态转移的自动检测和辩识,用于确定机器人状态转移的前后置条件和概率,得到机器人当前动作状态的数据信息;
进一步,所述步骤S3步骤中采用顺序局部增量式神经网络算法进行机器人行为控制信息处理;同时采用滑动窗数据缓存记忆包存储神经网络学习误差和时间遗忘因子,所述缓存记忆包的大小随神经网络学习误差和时间遗忘因子的减小呈负指数衰减,直到趋于一个预先设定的最小阀值;
进一步,所述步骤S4中利用Q-学习算法把先验知识在线嵌入,同时还设置有激励信号发生器,所述激励信号发生器用于对控制器参数进行实时在线的精确整定,使控制器达到可靠和稳定的工作状态。
本发明的目的之二是通过以下技术方案来实现的:
本发明提供的机器人行为多层次集成学习系统,包括
数据采样模块,用于输入机器人与环境交互感知信息数据和当前时刻运动动作的状态信息数据;所述信息数据的输入采用耦合数据对协同输入模式;
非监督学习模块,根据机器人与环境交互感知信息的变化,获取用于表达机器人运行环境的实时变化的环境模式特征向量;
监督学习模块,以环境模式特征向量为输入信号,实时在线地把环境模式特征向量映射为机器人所需行为的动作命令,获得机器人行为控制器;
激励学习模块,以环境模式特征向量为输入信号,对机器人行为控制器参数进行实时在线优化精确整定,使控制器达到可靠和稳定的工作状态;
命令输出模块,用于输出机器人行为运动动作命令。
进一步,所述非监督学习模块,包括状态转移的自动检测和辩识模块,用于确定状态转移的前后置条件和概率,实现状态转移的自动检测和辩识;
进一步,所述监督学习模块,包括
神经元时间遗忘因子的自动调节模块,采用滑动窗数据缓存记忆包,缓存记忆包的大小将随神经网络学习误差和时间遗忘因子的减小呈负指数衰减,直到趋于一个预先设定的最小阀值;
神经网络学习率动态调节模块,将随神经元的自生长和自消减而变化的学习率设置为学习误差的函数,同时为其设定一个上下界区间;
神经网络权值和径向基函数参数精确辨识模块,采用基于扩展卡尔曼法对神经网络权值和径向基函数参数精确辨识;
进一步,所述激励学习模块,包括
先验知识在线嵌入模块,在机器人行为学习中把先验知识在线嵌入到激励学习模块中;
激励信号发生器,将不同的行为设置不同的激励函数,把所需行为的感知-动作状态和最终的目标状态对应的激励值传递给普适激励函数。
本发明的优点在于:本发明利用机器人自主学习中环境感知的自组织特征、“感知-动作”高维非线性映射模型的自构造规律和非监督-监督-激励学习三种学习模式的自动组合与自动切换机理;通过这一具有集成学习模式的行为学习系统可用于不同类型的机器人、具备学习新的机器人行为的能力和优化现有机器人行为以适应运行环境的动态变化,从而提高机器人的智能与自主控制能力、增强学习系统的普适性和简化控制器的设计。
本发明的其它优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其它优点可以通过下面的说明书,权利要求书,以及附图中所特别指出的结构来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步的详细描述,其中:
图1为本发明提供的层次学习系统示意图;
图2为本发明的三种学习模式的层次学习结构示意图;
图3为本发明的三种学习模式的层次学习系统结构组成示意图。
具体实施方式
以下将结合附图,对本发明的优选实施例进行详细的描述;应当理解,优选实施例仅为了说明本发明,而不是为了限制本发明的保护范围。
图1为本发明提供的层次学习系统示意图;图2为本发明的三种学习模式的层次学习结构示意图,如图所示:本发明提供的机器人行为多层次集成学习方法,包括以下步骤:
S1:输入机器人与环境交互感知信息数据和当前时刻运动动作的状态信息数据;
S2:根据机器人与环境交互感知信息的变化,获取用于表达机器人运行环境的实时变化的环境模式特征向量;
S3:以环境模式特征向量为输入信号,实时在线地把环境模式特征向量映射为机器人所需行为的动作命令,获得机器人行为控制器;
S4:以环境模式特征向量为输入信号,对机器人行为控制器参数进行实时在线优化精确整定,使控制器达到可靠和稳定的工作状态;
S5:输出机器人行为运动动作命令。
作为上述实施例的进一步改进,所述步骤S1中的所述交互感知信息数据和当前时刻运动动作的状态信息数据的输入采用耦合数据对协同输入模式。
作为上述实施例的进一步改进,所述步骤S2中采用自组织聚类获取环境模式特征向量,根据机器人与环境交互感知信息的变化在线生长出新的神经元以表达运行环境的实时变化。
作为上述实施例的进一步改进,所述步骤S2中通过单调线性可分机理在线提取信息数据空间获得所述环境模式特征向量;所述步骤S2中还包括状态转移的自动检测和辩识,用于确定机器人状态转移的前后置条件和概率,得到机器人当前动作状态的数据信息。
作为上述实施例的进一步改进,所述步骤S3步骤中采用顺序局部增量式神经网络算法进行机器人行为控制信息处理;同时采用滑动窗数据缓存记忆包存储神经网络学习误差和时间遗忘因子,所述缓存记忆包的大小随神经网络学习误差和时间遗忘因子的减小呈负指数衰减,直到趋于一个预先设定的最小阀值。
作为上述实施例的进一步改进,所述步骤S4中利用Q-学习算法把先验知识在线嵌入,同时还设置有激励信号发生器,所述激励信号发生器用于对控制器参数进行实时在线的精确整定,使控制器达到可靠和稳定的工作状态。
图3为本发明的三种学习模式的层次学习系统结构组成示意图,本发明提供的机器人行为多层次集成学习系统,包括
数据采样模块1,用于输入机器人与环境交互感知信息数据和当前时刻运动动作的状态信息数据;所述信息数据的输入采用耦合数据对协同输入模式;
非监督学习模块2,根据机器人与环境交互感知信息的变化,获取用于表达机器人运行环境的实时变化的环境模式特征向量;
监督学习模块3,以环境模式特征向量为输入信号,实时在线地把环境模式特征向量映射为机器人所需行为的动作命令,获得机器人行为控制器;
激励学习模块4,以环境模式特征向量为输入信号,对机器人行为控制器参数进行实时在线优化精确整定,使控制器达到可靠和稳定的工作状态;
命令输出模块5,用于输出机器人行为运动动作命令。
作为上述实施例的进一步改进,所述非监督学习模块2,包括状态转移的自动检测和辩识模块,用于确定状态转移的前后置条件和概率,实现状态转移的自动检测和辩识。
作为上述实施例的进一步改进,所述监督学习模块3,包括
神经元时间遗忘因子的自动调节模块,采用滑动窗数据缓存记忆包,缓存记忆包的大小将随神经网络学习误差和时间遗忘因子的减小呈负指数衰减,直到趋于一个预先设定的最小阀值;
神经网络学习率动态调节模块,将随神经元的自生长和自消减而变化的学习率设置为学习误差的函数,同时为其设定一个上下界区间;
神经网络权值和径向基函数参数精确辨识模块,采用基于扩展卡尔曼法对神经网络权值和径向基函数参数精确辨识。
作为上述实施例的进一步改进,所述激励学习模块4,包括
先验知识在线嵌入模块,在机器人行为学习中把先验知识在线嵌入到激励学习模块中;
激励信号发生器,将不同的行为设置不同的激励函数,把所需行为的感知-动作状态和最终的目标状态对应的激励值传递给普适激励函数。
以上所述仅为本发明的优选实施例,并不用于限制本发明,显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1. 机器人行为多层次集成学习方法,其特征在于:包括以下步骤:
S1:输入机器人与环境交互感知信息数据和当前时刻运动动作的状态信息数据;
S2:根据机器人与环境交互感知信息的变化,获取用于表达机器人运行环境的实时变化的环境模式特征向量;
S3:以环境模式特征向量为输入信号,实时在线地把环境模式特征向量映射为机器人所需行为的动作命令,形成机器人行为控制器算法;
S4:以环境模式特征向量为输入信号,对机器人行为控制器参数进行实时在线优化精确整定,使控制器达到可靠和稳定的工作状态;
S5:输出机器人行为运动动作命令。
2. 根据权利要求1所述的机器人行为多层次集成学习方法 ,其特征在于:所述步骤S1中的所述交互感知信息数据和当前时刻运动动作的状态信息数据的输入采用耦合数据对协同输入模式。
3. 根据权利要求1所述的机器人行为多层次集成学习方法 ,其特征在于:所述步骤S2中采用自组织聚类获取环境模式特征向量,根据机器人与环境交互感知信息的变化在线生长出新的神经元以表达运行环境的实时变化。
4. 根据权利要求1所述的机器人行为多层次集成学习方法 ,其特征在于:所述步骤S2中通过单调线性可分机理在线提取信息数据空间获得所述环境模式特征向量;所述步骤S2中还包括状态转移的自动检测和辩识,用于确定机器人状态转移的前后置条件和概率,得到机器人当前动作状态的数据信息。
5. 根据权利要求1所述的机器人行为多层次集成学习方法 ,其特征在于:所述步骤S3步骤中采用顺序局部增量式神经网络算法进行机器人行为控制信息处理;同时采用滑动窗数据缓存记忆包存储神经网络学习误差和时间遗忘因子,所述缓存记忆包的大小随神经网络学习误差和时间遗忘因子的减小呈负指数衰减,直到趋于一个预先设定的最小阀值。
6. 根据权利要求1所述的机器人行为多层次集成学习方法 ,其特征在于:所述步骤S4中利用Q-学习算法把先验知识在线嵌入,通过设置的激励信号发生器对控制器参数进行实时在线的精确整定,使控制器达到可靠和稳定的工作状态。
7. 机器人行为多层次集成学习系统,其特征在于:包括
数据采样模块,用于输入机器人与环境交互感知信息数据和当前时刻运动动作的状态信息数据;所述信息数据的输入采用耦合数据对协同输入模式;
非监督学习模块,根据机器人与环境交互感知信息的变化,获取用于表达机器人运行环境的实时变化的环境模式特征向量;
监督学习模块,以环境模式特征向量为输入信号,实时在线地把环境模式特征向量映射为机器人所需行为的动作命令,形成机器人行为控制器算法;
激励学习模块,以环境模式特征向量为输入信号,对机器人行为控制器参数进行实时在线优化精确整定,使控制器达到可靠和稳定的工作状态;
命令输出模块,用于输出机器人行为运动动作命令。
8. 根据权利要求7所述的机器人行为多层次集成学习系统,其特征在于:所述非监督学习模块,包括状态转移的自动检测和辩识模块,用于确定状态转移的前后置条件和概率,实现状态转移的自动检测和辩识。
9. 根据权利要求8所述的机器人行为多层次集成学习系统,其特征在于:所述监督学习模块,包括
神经元时间遗忘因子的自动调节模块,采用滑动窗数据缓存记忆包,缓存记忆包的大小将随神经网络学习误差和时间遗忘因子的减小呈负指数衰减,直到趋于一个预先设定的最小阀值;
神经网络学习率动态调节模块,将随神经元的自生长和自消减而变化的学习率设置为学习误差的函数,同时为其设定一个上下界区间;
神经网络权值和径向基函数参数精确辨识模块,采用基于扩展卡尔曼法对神经网络权值和径向基函数参数精确辨识。
10. 根据权利要求9所述的机器人行为多层次集成学习系统,其特征在于:所述激励学习模块,包括
先验知识在线嵌入模块,在机器人行为学习中把先验知识在线嵌入到激励学习模块中;
激励信号发生器,将不同的行为设置不同的激励函数,把所需行为的感知-动作状态和最终的目标状态对应的激励值传递给普适激励函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201110096582 CN102200787B (zh) | 2011-04-18 | 2011-04-18 | 机器人行为多层次集成学习方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201110096582 CN102200787B (zh) | 2011-04-18 | 2011-04-18 | 机器人行为多层次集成学习方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102200787A CN102200787A (zh) | 2011-09-28 |
CN102200787B true CN102200787B (zh) | 2013-04-17 |
Family
ID=44661531
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 201110096582 Expired - Fee Related CN102200787B (zh) | 2011-04-18 | 2011-04-18 | 机器人行为多层次集成学习方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102200787B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103886367B (zh) * | 2014-03-18 | 2016-08-17 | 北京工业大学 | 一种仿生智能控制方法 |
EP3079106B1 (en) * | 2015-04-06 | 2022-06-08 | DeepMind Technologies Limited | Selecting reinforcement learning actions using goals and observations |
CN105700526B (zh) * | 2016-01-13 | 2018-07-27 | 华北理工大学 | 具有自主学习能力的在线序列极限学习机方法 |
CN107229965B (zh) * | 2016-03-25 | 2021-10-22 | 陕西微阅信息技术有限公司 | 智能机器人的拟人系统和模拟遗忘效果的方法 |
CN108345939B (zh) * | 2017-01-25 | 2022-05-24 | 微软技术许可有限责任公司 | 基于定点运算的神经网络 |
CN106874874A (zh) * | 2017-02-16 | 2017-06-20 | 南方科技大学 | 一种运动状态的识别方法及装置 |
CN107292344B (zh) * | 2017-06-26 | 2020-09-18 | 苏州大学 | 一种基于环境交互的机器人实时控制方法 |
CN107808004B (zh) * | 2017-11-15 | 2021-02-26 | 北京百度网讯科技有限公司 | 模型训练方法和系统、服务器、存储介质 |
CN109760050A (zh) * | 2019-01-12 | 2019-05-17 | 鲁班嫡系机器人(深圳)有限公司 | 机器人行为训练方法、装置、系统、存储介质及设备 |
CN113110442B (zh) * | 2021-04-09 | 2024-01-16 | 深圳阿米嘎嘎科技有限公司 | 四足机器人多重技能运动控制方法、系统及介质 |
CN116766214A (zh) * | 2022-03-07 | 2023-09-19 | 广东博智林机器人有限公司 | 一种抹光机器人的运动控制方法、系统及抹光机器人 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005300692A (ja) * | 2004-04-07 | 2005-10-27 | Sony Corp | ロボットの行動制御システム及び行動制御方法、並びにロボット装置 |
CN101241561A (zh) * | 2007-02-08 | 2008-08-13 | 三星电子株式会社 | 表现软件机器人的行为的设备和方法 |
CN101276434A (zh) * | 2007-02-07 | 2008-10-01 | 三星电子株式会社 | 在软件机器人中学习行为的方法和设备 |
CN101650568A (zh) * | 2009-09-04 | 2010-02-17 | 湖南大学 | 未知环境下移动机器人导航安全的方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5330138B2 (ja) * | 2008-11-04 | 2013-10-30 | 本田技研工業株式会社 | 強化学習システム |
-
2011
- 2011-04-18 CN CN 201110096582 patent/CN102200787B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005300692A (ja) * | 2004-04-07 | 2005-10-27 | Sony Corp | ロボットの行動制御システム及び行動制御方法、並びにロボット装置 |
CN101276434A (zh) * | 2007-02-07 | 2008-10-01 | 三星电子株式会社 | 在软件机器人中学习行为的方法和设备 |
CN101241561A (zh) * | 2007-02-08 | 2008-08-13 | 三星电子株式会社 | 表现软件机器人的行为的设备和方法 |
CN101650568A (zh) * | 2009-09-04 | 2010-02-17 | 湖南大学 | 未知环境下移动机器人导航安全的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN102200787A (zh) | 2011-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102200787B (zh) | 机器人行为多层次集成学习方法及系统 | |
CN112286751B (zh) | 一种基于边云协同的高端装备故障智能诊断系统及方法 | |
KR102043143B1 (ko) | 인공신경망을 이용한 agv 주행제어 방법 및 장치 | |
CN110481536B (zh) | 一种应用于混合动力汽车的控制方法及设备 | |
KR102043142B1 (ko) | Agv 주행제어를 위한 인공신경망 학습 방법 및 장치 | |
KR20190098106A (ko) | 배치 정규화 레이어 트레이닝 방법 | |
EP2065842A1 (en) | Adaptive driver assistance system with robust estimation of object properties | |
US20190317455A1 (en) | Methods and apparatus to generate acceptability criteria for autonomous systems plans | |
Zhang et al. | Recurrent neural network‐based model predictive control for multiple unmanned quadrotor formation flight | |
Papadopoulos et al. | Towards open and expandable cognitive AI architectures for large-scale multi-agent human-robot collaborative learning | |
CN115617217B (zh) | 一种车辆状态的显示方法、装置、设备及可读存储介质 | |
CN112200319A (zh) | 一种实现无人车导航避障的规则推理方法及系统 | |
von Birgelen et al. | Using self-organizing maps to learn hybrid timed automata in absence of discrete events | |
CN116080688B (zh) | 一种类脑启发的智能驾驶视觉辅助方法、装置及存储介质 | |
CN117574776A (zh) | 一种面向任务规划的模型自学习优化方法 | |
CN113743603A (zh) | 控制方法、装置、存储介质及电子设备 | |
CN108228285A (zh) | 一种端到端的多模态人机交互指令识别方法 | |
Bakker et al. | Reinforcement learning in partially observable mobile robot domains using unsupervised event extraction | |
US20220324115A1 (en) | Systems, devices, and methods for developing robot autonomy | |
Paletta et al. | Perception and developmental learning of affordances in autonomous robots | |
US20220261630A1 (en) | Leveraging dynamical priors for symbolic mappings in safe reinforcement learning | |
Jin et al. | A multi-objective multi-agent framework for traffic light control | |
Chang et al. | Overview of some intelligent control structures and dedicated algorithms | |
CN107391450A (zh) | 一种基于gpb算法的运维多模态决策系统原型 | |
Porta et al. | Reinforcement learning for agents with many sensors and actuators acting in categorizable environments |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20130417 Termination date: 20140418 |