CN102200787B

CN102200787B - 机器人行为多层次集成学习方法及系统

Info

Publication number: CN102200787B
Application number: CN 201110096582
Authority: CN
Inventors: 李军; 王斌; 任江洪; 黄毅卿
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2011-04-18
Filing date: 2011-04-18
Publication date: 2013-04-17
Anticipated expiration: 2031-04-18
Also published as: CN102200787A

Abstract

本发明公开了一种机器人行为多层次集成学习方法及系统，涉及机器人行为控制技术，包括数据采样模块，用于输入机器人的信息数据；非监督学习模块，获取用于表达机器人运行环境的实时变化的环境模式特征向量；监督学习模块，以环境模式特征向量为输入信号，实时在线地把环境模式特征向量映射为机器人所需行为的动作命令；激励学习模块，对机器人行为控制器参数进行实时在线优化精确整定，使控制器达到可靠和稳定的工作状态；命令输出模块，本发明提出的方法及系统可用于不同类型的机器人、具备学习新的机器人行为的能力和优化现有机器人行为以适应运行环境的动态变化，从而提高机器人的智能与自主控制能力、增强学习系统的普适性和简化控制器的设计。

Description

机器人行为多层次集成学习方法及系统

技术领域

本发明涉及机器人行为控制技术，特别涉及一种集多种模式为一体的机器人行为学习系统及方法。

背景技术

机器人行为控制器的设计已经有许多工程技术方法，如传统AI中基于符号推理、模糊逻辑、和控制论中成熟的线性控制方法。然而这些方法或者需要确定的环境模型来实现“感知－规划－动作”，或者需要对控制器的参数整定和系统稳定性等进行复杂的设计和分析。因此，一旦机器人及其相应的运行环境有任何改变，原来的规划策略就过时了，设计者就得对控制器进行重新设计,从而增加了系统设计的成本和周期。

近年来也出现了一些基于神经网络的，集成两种以上学习模式的机器人行为学习系统。例如，基于动态神经元结构的“非监督－激励”学习系统用于机器人避障行为控制器参数的精确整定、基于自组织和多层感知网络的“非监督－监督”学习系统用于机器人定点停泊行为的学习、以及基于反馈神经网络“非监督－监督”学习系统用于机器人行为的自发育学习。但是，这些学习系统或因为激励学习的训练时间长而未在实际的机器人上实现, 或只是进行离线学习而没有集成“激励学习”这一重要的学习模式。因此不能满足在动态变化环境下机器人行为的自适应学习。

因此急需一种可用于不同类型的机器人、具备学习新的机器人行为的能力和优化现有机器人行为以适应运行环境的动态变化，从而提高机器人的智能与自主控制能力、增强学习系统的普适性、和简化控制器的设计的一种机器人行为学习系统及方法。

发明内容

有鉴于此，为了解决上述问题，本发明提出一种可用于不同类型的机器人、具备学习新的机器人行为的能力和优化现有机器人行为以适应运行环境的动态变化，从而提高机器人的智能与自主控制能力、增强学习系统的普适性、和简化控制器的设计的一种机器人行为学习系统及方法。

本发明的目的之一是提出一种机器人行为多层次集成学习方法；本发明的目的之二是提出一种针对含有装置。

本发明的目的之一是通过以下技术方案来实现的：

本发明提供的机器人行为多层次集成学习方法，包括以下步骤：

S1：输入机器人与环境交互感知信息数据和当前时刻运动动作的状态信息数据；

S2：根据机器人与环境交互感知信息的变化，获取用于表达机器人运行环境的实时变化的环境模式特征向量；

S3：以环境模式特征向量为输入信号，实时在线地把环境模式特征向量映射为机器人所需行为的动作命令，获得机器人行为控制器；

S4：以环境模式特征向量为输入信号，对机器人行为控制器参数进行实时在线优化精确整定，使控制器达到可靠和稳定的工作状态；

S5：输出机器人行为运动动作命令。

进一步，所述步骤S1中的所述交互感知信息数据和当前时刻运动动作的状态信息数据的输入采用耦合数据对协同输入模式；

进一步，所述步骤S2中采用自组织聚类获取环境模式特征向量，根据机器人与环境交互感知信息的变化在线生长出新的神经元以表达运行环境的实时变化；

进一步，所述步骤S2中通过单调线性可分机理在线提取信息数据空间获得所述环境模式特征向量；所述步骤S2中还包括状态转移的自动检测和辩识，用于确定机器人状态转移的前后置条件和概率，得到机器人当前动作状态的数据信息；

进一步，所述步骤S3步骤中采用顺序局部增量式神经网络算法进行机器人行为控制信息处理；同时采用滑动窗数据缓存记忆包存储神经网络学习误差和时间遗忘因子，所述缓存记忆包的大小随神经网络学习误差和时间遗忘因子的减小呈负指数衰减，直到趋于一个预先设定的最小阀值；

进一步，所述步骤S4中利用Q-学习算法把先验知识在线嵌入，同时还设置有激励信号发生器，所述激励信号发生器用于对控制器参数进行实时在线的精确整定，使控制器达到可靠和稳定的工作状态。

本发明的目的之二是通过以下技术方案来实现的：

本发明提供的机器人行为多层次集成学习系统，包括

数据采样模块，用于输入机器人与环境交互感知信息数据和当前时刻运动动作的状态信息数据；所述信息数据的输入采用耦合数据对协同输入模式；

非监督学习模块，根据机器人与环境交互感知信息的变化，获取用于表达机器人运行环境的实时变化的环境模式特征向量；

监督学习模块，以环境模式特征向量为输入信号，实时在线地把环境模式特征向量映射为机器人所需行为的动作命令，获得机器人行为控制器；

激励学习模块，以环境模式特征向量为输入信号，对机器人行为控制器参数进行实时在线优化精确整定，使控制器达到可靠和稳定的工作状态；

命令输出模块，用于输出机器人行为运动动作命令。

进一步，所述非监督学习模块，包括状态转移的自动检测和辩识模块，用于确定状态转移的前后置条件和概率，实现状态转移的自动检测和辩识；

进一步，所述监督学习模块，包括

神经元时间遗忘因子的自动调节模块，采用滑动窗数据缓存记忆包，缓存记忆包的大小将随神经网络学习误差和时间遗忘因子的减小呈负指数衰减，直到趋于一个预先设定的最小阀值；

神经网络学习率动态调节模块，将随神经元的自生长和自消减而变化的学习率设置为学习误差的函数，同时为其设定一个上下界区间；

神经网络权值和径向基函数参数精确辨识模块，采用基于扩展卡尔曼法对神经网络权值和径向基函数参数精确辨识；

进一步，所述激励学习模块，包括

先验知识在线嵌入模块，在机器人行为学习中把先验知识在线嵌入到激励学习模块中；

激励信号发生器，将不同的行为设置不同的激励函数，把所需行为的感知-动作状态和最终的目标状态对应的激励值传递给普适激励函数。

本发明的优点在于：本发明利用机器人自主学习中环境感知的自组织特征、“感知－动作”高维非线性映射模型的自构造规律和非监督－监督－激励学习三种学习模式的自动组合与自动切换机理；通过这一具有集成学习模式的行为学习系统可用于不同类型的机器人、具备学习新的机器人行为的能力和优化现有机器人行为以适应运行环境的动态变化，从而提高机器人的智能与自主控制能力、增强学习系统的普适性和简化控制器的设计。

本发明的其它优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其它优点可以通过下面的说明书，权利要求书，以及附图中所特别指出的结构来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步的详细描述，其中：

图1为本发明提供的层次学习系统示意图；

图2为本发明的三种学习模式的层次学习结构示意图；

图3为本发明的三种学习模式的层次学习系统结构组成示意图。

具体实施方式

以下将结合附图，对本发明的优选实施例进行详细的描述；应当理解，优选实施例仅为了说明本发明，而不是为了限制本发明的保护范围。

图1为本发明提供的层次学习系统示意图；图2为本发明的三种学习模式的层次学习结构示意图，如图所示：本发明提供的机器人行为多层次集成学习方法，包括以下步骤：

S5：输出机器人行为运动动作命令。

作为上述实施例的进一步改进，所述步骤S1中的所述交互感知信息数据和当前时刻运动动作的状态信息数据的输入采用耦合数据对协同输入模式。

作为上述实施例的进一步改进，所述步骤S2中采用自组织聚类获取环境模式特征向量，根据机器人与环境交互感知信息的变化在线生长出新的神经元以表达运行环境的实时变化。

作为上述实施例的进一步改进，所述步骤S2中通过单调线性可分机理在线提取信息数据空间获得所述环境模式特征向量；所述步骤S2中还包括状态转移的自动检测和辩识，用于确定机器人状态转移的前后置条件和概率，得到机器人当前动作状态的数据信息。

作为上述实施例的进一步改进，所述步骤S3步骤中采用顺序局部增量式神经网络算法进行机器人行为控制信息处理；同时采用滑动窗数据缓存记忆包存储神经网络学习误差和时间遗忘因子，所述缓存记忆包的大小随神经网络学习误差和时间遗忘因子的减小呈负指数衰减，直到趋于一个预先设定的最小阀值。

作为上述实施例的进一步改进，所述步骤S4中利用Q-学习算法把先验知识在线嵌入，同时还设置有激励信号发生器，所述激励信号发生器用于对控制器参数进行实时在线的精确整定，使控制器达到可靠和稳定的工作状态。

图3为本发明的三种学习模式的层次学习系统结构组成示意图，本发明提供的机器人行为多层次集成学习系统，包括

数据采样模块1，用于输入机器人与环境交互感知信息数据和当前时刻运动动作的状态信息数据；所述信息数据的输入采用耦合数据对协同输入模式；

非监督学习模块2，根据机器人与环境交互感知信息的变化，获取用于表达机器人运行环境的实时变化的环境模式特征向量；

监督学习模块3，以环境模式特征向量为输入信号，实时在线地把环境模式特征向量映射为机器人所需行为的动作命令，获得机器人行为控制器；

激励学习模块4，以环境模式特征向量为输入信号，对机器人行为控制器参数进行实时在线优化精确整定，使控制器达到可靠和稳定的工作状态；

命令输出模块5，用于输出机器人行为运动动作命令。

作为上述实施例的进一步改进，所述非监督学习模块2，包括状态转移的自动检测和辩识模块，用于确定状态转移的前后置条件和概率，实现状态转移的自动检测和辩识。

作为上述实施例的进一步改进，所述监督学习模块3，包括

神经网络权值和径向基函数参数精确辨识模块，采用基于扩展卡尔曼法对神经网络权值和径向基函数参数精确辨识。

作为上述实施例的进一步改进，所述激励学习模块4，包括

以上所述仅为本发明的优选实施例，并不用于限制本发明，显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1. 机器人行为多层次集成学习方法，其特征在于：包括以下步骤：

S3：以环境模式特征向量为输入信号，实时在线地把环境模式特征向量映射为机器人所需行为的动作命令，形成机器人行为控制器算法；

S5：输出机器人行为运动动作命令。

2. 根据权利要求1所述的机器人行为多层次集成学习方法，其特征在于：所述步骤S1中的所述交互感知信息数据和当前时刻运动动作的状态信息数据的输入采用耦合数据对协同输入模式。

3. 根据权利要求1所述的机器人行为多层次集成学习方法，其特征在于：所述步骤S2中采用自组织聚类获取环境模式特征向量，根据机器人与环境交互感知信息的变化在线生长出新的神经元以表达运行环境的实时变化。

4. 根据权利要求1所述的机器人行为多层次集成学习方法，其特征在于：所述步骤S2中通过单调线性可分机理在线提取信息数据空间获得所述环境模式特征向量；所述步骤S2中还包括状态转移的自动检测和辩识，用于确定机器人状态转移的前后置条件和概率，得到机器人当前动作状态的数据信息。

5. 根据权利要求1所述的机器人行为多层次集成学习方法，其特征在于：所述步骤S3步骤中采用顺序局部增量式神经网络算法进行机器人行为控制信息处理；同时采用滑动窗数据缓存记忆包存储神经网络学习误差和时间遗忘因子，所述缓存记忆包的大小随神经网络学习误差和时间遗忘因子的减小呈负指数衰减，直到趋于一个预先设定的最小阀值。

6. 根据权利要求1所述的机器人行为多层次集成学习方法，其特征在于：所述步骤S4中利用Q-学习算法把先验知识在线嵌入，通过设置的激励信号发生器对控制器参数进行实时在线的精确整定，使控制器达到可靠和稳定的工作状态。

7. 机器人行为多层次集成学习系统，其特征在于：包括

监督学习模块，以环境模式特征向量为输入信号，实时在线地把环境模式特征向量映射为机器人所需行为的动作命令，形成机器人行为控制器算法；

命令输出模块，用于输出机器人行为运动动作命令。

8. 根据权利要求7所述的机器人行为多层次集成学习系统，其特征在于：所述非监督学习模块，包括状态转移的自动检测和辩识模块，用于确定状态转移的前后置条件和概率，实现状态转移的自动检测和辩识。

9. 根据权利要求8所述的机器人行为多层次集成学习系统，其特征在于：所述监督学习模块，包括

10. 根据权利要求9所述的机器人行为多层次集成学习系统，其特征在于：所述激励学习模块，包括