CN103878772B

CN103878772B - 具有模仿学习机制的仿生轮式机器人系统及方法

Info

Publication number: CN103878772B
Application number: CN201410127609.5A
Authority: CN
Inventors: 于建均; 刘涛; 阮晓钢; 门玉森; 韩春晓; 徐骢驰; 于博
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2014-03-31
Filing date: 2014-03-31
Publication date: 2017-04-26
Anticipated expiration: 2034-03-31
Also published as: CN103878772A

Abstract

本发明涉及具有模仿学习机制的仿生轮式机器人系统及方法。所述系统包括示教机器人A和模仿机器人B。机器人系统工作时，首先由示教机器人A演示示教行为，然后，模仿机器人B观测并模仿机器人A的示教行为。本发明将一种由舵机和红外线传感器组装而成的旋转装置搭载在模仿机器人上，通过旋转检测的行为捕捉方法，采集离散示教观测点的动作信息，然后将这些信息应用模仿学习算法，指导模仿机器人模仿学习示教行为。大大降低了传感器的成本，同时克服了传统运用摄像技术采集示教行为后图像处理的繁琐过程，提高了机器人模仿学习的效率，减少了机器人学习的时间。

Description

具有模仿学习机制的仿生轮式机器人系统及方法

技术领域

本发明属于智能机器人领域，涉及一种具有模仿学习机制的仿生轮式机器人系统及方法。

背景技术

人或动物的诸多技能或行为是在其神经系统认知过程中渐进地形成和发展起来的，理解和模拟人或动物神经系统内在的认知机制，并将这种机制赋予机器或人工生命系统，是认知科学，以及人工智能和机器人学研究的重要课题。设计制造具有自主性、智能性和适应性的机器人系统，并将人和动物的认知能力赋予机器人等人工系统，使其更好地服务于人类，是仿生机器人的研究热点之一。

许多生物具有趋声的行为（如蟋蟀），趋热的行为（如田鼠），或趋光的行为（如金龟子）。生物的趋热趋光等行为虽然简单，然而这种低级的行为直接地与运动神经系统和运动神经认知相关，是运动神经认知发育的结果。具有趋热趋光等行为的生物为运动神经机器人提供了很好的原型。

自然界中，模仿是动物掌握运动技能最直接、最有效的学习方式。同时，模仿学习也是人类学习的一种重要手段和方式。而人类与动物是机器人的仿生原型，因此将模仿的机制应用于机器人是可行的。模仿学习使机器人通过观察示教者的行为来快速学习，具体来说是通过观测、学习、理解、再现智能的行为从而实现机器人的仿生特性，它包括机构模仿、动作模仿、机理控制模仿和认知模仿。这种在与环境的交流中学习新知识和解决问题的方法，使得模仿学习与传统的孤立的机器人学习方法相比，具有很多优势：（1）提高个体的适应性；（2）提高自主性；（3）减少学习次数和学习时间，提高学习效率；（4）简化学习过程；（5）提高人机交互能力；（6）减少程序编制复杂度。具有模仿学习能力的机器人更适合成为人类的助手和伙伴，无论操作者是否了解机器人的工作原理以及对机器人编程所使用的语言，它都能同人类协调地完成工作任务。因此，模仿学习无论在军事领域还是民事领域都具有广泛的应用前景。模仿学习不仅是行为科学和神经科学的研究重点，对于人工智能和机器学习而言也具有非常重要的研究意义。

目前，将模仿学习机制运用到智能机器人实体的实验并不多，且动作模仿居多。其中示教行为的观测采集大多数运用摄像技术，例如日本研究人员Hiroki Uchida将模仿学习机制运用到二连杆机器人上，通过摄像头采集示教动作来实现仿爬虫爬行动作的模仿，在模仿学习运用到实际机器人上取得一些突破。但这种机器人所用设备成本高，且摄像头采集图像后必须通用图像处理技术进一步处理数据，实时操作性差，模仿效果完成所耗时间长。

发明内容

针对现有技术中存在的动作模仿学习居多、使用摄像头采集图像后数据处理过程繁琐使机器人学习效率低等问题，本发明提出一种具有模仿学习机制的仿生轮式机器人系统及方法，通过机器人A示教，机器人B观测并模仿学习示教行为，大大降低了传感器成本，克服了采用摄像技术采集示教行为带来的图像处理繁琐的问题，提高了机器人模仿学习的效率。

本发明提出机器人，是一种仿生物体运动神经的认知机器人，主要包括机器人机械本体和控制系统。机器人机械本体采用轮式结构；机器人控制系统仿照生物体的大脑与小脑，完成信号数据处理、电机和舵机控制以及实现模仿学习算法等功能。

本发明采取以下技术方案：

具有模仿学习机制的仿生轮式机器人系统，包括示教机器人A和模仿机器人B。示教机器人A用作示教者，向模仿机器人B演示示教行为；模仿机器人B为被训练学习对象，通过观测和模仿学习独立完成机器人A的示教行为。其特征在于：

示教机器人A包括：机器人主体骨架101，固定在主体骨架两侧的驱动轮，即左轮102和右轮103，固定在主体骨架前侧的随动轮104，在机器人主体骨架上的STM32控制器105，固定在主体骨架上的左、右360度连续旋转的直流电机106、107，固定在机器人主体骨架前端的超声波传感器108，固定在主体骨架左前侧、左后侧、右前侧、右后侧的四个光敏传感器109、110、111、112，固定在主体骨架左前侧、左后侧、右前侧、右后侧的四个温度传感器113、114、115、116，固定在主体骨架下方两个电机之间的霍尔传感器117。四个光敏传感器109、110、111、112采集环境的亮度值，四个温度传感器113、114、115、116采集环境的温度值，超声波传感器108检测前方障碍物的距离，霍尔传感器117检测两个电机的转速。四个光敏传感器109、110、111、112、四个温度传感器113、114、115、116和超声波传感器108以及霍尔传感器117的输出端分别与STM32控制器105的输入端相连，STM32控制器105的输出端与直流电机106、107相连。

模仿机器人B包括：机器人主体骨架201，固定在主体骨架两侧的驱动轮，即左轮202和右轮203，固定在主体骨架前侧的随动轮204，在机器人主体骨架上的STM32控制器205，固定在主体骨架上的左、右360度连续旋转的直流电机206、207，还包括固定在机器人主体骨架前段的360度连续旋转伺服舵机208，搭载在舵机上的红外线传感器209，固定在机器人主体骨架前端的超声波传感器210，固定在主体骨架左前侧、左后侧、右前侧、右后侧的四个光敏传感器211、212、213、214，固定在主体骨架左前侧、左后侧、右前侧、右后侧的四个温度传感器215、216、217、218，固定在主体骨架下方两个电机之间的霍尔传感器219。红外线传感器209检测前方光源的距离，四个光敏传感器211、212、213、214采集环境的亮度值，四个温度传感器215、216、217、218采集环境的温度值，超声波传感器210检测前方障碍物的距离，霍尔传感器219检测两个电机206、207的转速。红外线传感器209、四个光敏传感器211、212、213、214、四个温度传感器215、216、217、218和超声波传感器210以及霍尔传感器219的输出端分别与STM32控制器205的输入端相连，STM32控制器205的输出端与转直流电机206、207以及伺服舵机208相连。

本发明所述机器人系统工作时，首先由示教机器人A演示示教行为，然后，模仿机器人B观测模仿机器人A的示教行为。

（1）示教机器人A演示示教行为

当机器人启动后，超声波传感器检测到光源热源的距离信号将发生改变，四个光敏传感器检测到各自方向的环境亮度信号，四个温度传感器检测到各自方向的环境温度信号，霍尔传感器检测左右两轮的转速。超声波测距传感器、四个光敏传感器、四个温度传感器以及霍尔传感器将信号通过IO口传给STM32控制器，STM32控制器将采集到的信号进行处理后，得出机器人所处的环境信息，进而通过控制算法处理输出控制电机转动的PWM波，驱动直流电机转动，并带动左、右轮运动，使机器人完成相应的动作。

（2）模仿机器人B观测示教行为

示教机器人A开始运动后，模仿机器人B进入观测阶段。机器人B通过旋转检测装置，运用旋转测距方法统计出示教机器人A与光源热源的距离变化的数据组S3。为了保证模仿学习效果的质量，示教机器人A的示教行为至少执行30次，即模仿机器人B的观测阶段需要观测示教行为至少30次以上，才可进入下一操作阶段。示教结束后，控制器分析30次示教观测获得的数据组S3的数据变化特征，经模仿学习算法总结归纳出示教行为，通过示教行为的控制量变化分析，向模仿机器人B下达相关指令。

（3）模仿机器人B模仿示教行为

观测阶段结束后，机器人B进入模仿阶段。该阶段将观测阶段所采集的数据进行处理，通过示教行为的理解算法，获知示教行为的目的。当模仿机器人B经示教行为理解算法后随机选取一个操作行为，得到相关指令便开始启动，STM32控制器将接收到的随机行为指令进行处理后，通过控制算法处理输出控制电机转动的PWM波，驱动直流电机转动，并带动左、右轮运动，使机器人完成相应的动作。动作一段时间后，超声波传感器、光敏传感器、温度传感器和霍尔传感器将各自检测到的信号传给STM32控制器，将这些数据进行处理后，应用模仿学习算法进行行为评价并作出相应控制信号调整，调整后再产生电机控制信号，循环运行，直至满足设定的模仿结束条件（以趋光运动为例，它的模仿结束条件是机器人与光源的距离小于5cm），便停止机器人动作。模仿机器人B的模仿学习过程完成，即整个机器人系统的模仿学习过程完成。

现有技术相比，本发明具有以下优点：

（1）本发明在已有的将动作模仿学习运用于机器人实体的技术基础上，将认知模仿学习运用于仿生机器人实体，使模仿学习机制与仿生机制相结合，从而使机器人不仅仅学习到基本动作，而且可以学习到趋光趋热等类似动物的认知本能。

（2）本发明将一种由舵机和红外线传感器组装而成的旋转装置搭载在模仿机器人上，通过旋转检测的行为捕捉方法，采集离散示教观测点的状态——动作信息，然后将这些信息应用模仿学习算法，指导模仿机器人模仿学习示教行为。运用这种观测并模仿学习示教行为的装置以及方法，大大降低了传感器的成本，同时克服了传统运用摄像技术采集示教行为后图像处理的繁琐过程，提高了机器人模仿学习的效率，减少了机器人学习的时间；

（3）本发明所述系统的机器人是一类小型的桌面机器人，用作认知模型，模拟生物体基本的运动神经认知机制和认知行为。与传统的复杂的人形机器人相比，桌面机器人更为简单，易于实现，特别是社会性多机器人交互的实现。

附图说明

图1为示教机器人A的机械结构图；

图2为模仿机器人B的机械结构图；

图3为示教机器人A控制系统组成框图；

图4为模仿机器人B控制系统组成框图；

图5为本发明所涉及系统工作总流程图；

图6为机器人A演示示教行为的方法流程图；

图7为机器人B模仿示教行为的方法流程图；

图8为模仿机器人B行为捕捉流程图；

图9为示教机器人A的主体视图：（a）主体前视图，（b）上视图，（c）右视图；

图10为模仿机器人B的主体视图：（a）主体前视图，（b）上视图，（c）右视图。

图中：101-机器人主体骨架，102-左轮，103右轮，104-随动轮，105-STM32控制器，106-左侧直流电机，107-右侧直流电机，108-超声波传感器，109-左前侧光敏传感器，110-左后侧光敏传感器，111-右前侧光敏传感器，112-右后侧光敏传感器，113-左前侧温度传感器，114-左后侧温度传感器，115-右前侧温度传感器，116-右后侧温度传感器，117-霍尔传感器；201-机器人主体骨架，202--左轮，203右轮，204-随动轮，205-STM32控制器，206-左侧直流电机，207-右侧直流电机，208-360度连续旋转伺服舵机，209-红外线传感器，210-超声波传感器，211-左前侧光敏传感器，212-左后侧光敏传感器，213-右前侧光敏传感器，214-右后侧光敏传感器，215-左前侧温度传感器，216-左后侧温度传感器，217-右前侧温度传感器，218-右后侧温度传感器，219-霍尔传感器。

具体实施方式

下面结合附图对本发明作进一步说明。

图1和图2分别为示教机器人A与模仿机器人B的结构图。机器人A、B的机械结构大体相同，主要包括一个以平板与支架组成的机器人主体骨架，两个独立的左驱动轮与右驱动轮，一个随动轮。三个轮子都使用橡胶轮胎，增大在运动中与地面的摩擦力，便于做出多种转弯动作。

图3和图4分别为机器人A和B的控制系统组成框图。机器人A和B控制系统的组成基本相同，主要包括左、右直流电机，STM32控制器和电源模块，以及超声波传感器、光敏传感器、温度传感器、霍尔传感器。

STM32控制器安装在机器人主体骨架上，是控制系统的核心。STM32控制器的核心芯片采用的是意法半导体生产的STM32F103ZET6芯片，该控制器集成6路PWM，21路高速A/D转换通道，2路D/A转换通道，112个I/O端口，特别适用于电机控制和多传感器连接，完全满足模仿机器人系统的控制要求。

左、右直流电机固定在主体骨架上，采用的是直径25mm、6v180转金属直流减速电机，该电机的驱动采用以L298N双H桥直流电机驱动芯片为核心的驱动器，该驱动器由STM32控制器产生PWM波控制。

超声波测距传感器安装在机器人的前端，用于机器人到光源热源的距离。所选传感器的探测距离为2cm-450cm，精度可达0.3cm，采用IO出发测距，自动发送8个40kHz的方波；自动检测是否有信号返回；有信号返回，通过IO输出一高电平，高电平持续的时间就是超声波从发射到返回的时间。最终测试距离S=高电平时间×声速/2。

四个光敏传感器分别连接到机器人主体骨架的左前、左后、右前、右后四个位置，为机器人提供四个不同方向的亮度信息。光敏传感器采用的是厂商ROBOBASE设计开发的光敏电阻型光敏传感器。

四个温度传感器分别连接到机器人主体骨架的左前、左后、右前、右后四个位置，为机器人提供四个不同方向的温度信息。温度传感器采用DS18B20数字化温度传感器，温度传感器测量温度范围为-55℃～+125℃。在-10℃～+85℃范围内，精度为±0.5℃。

霍尔传感器，连接到两个电机之间，包含磁性检测元件，可同时检测两个电机的转动圈数，获得机器人的速度。

电源模块为控制系统提供直流电，采用输出电压为7.4V的锂电池，容量2600mAh，尺寸为13.6cm×4.3cm×1.2cm。配置一个电压转换器，将7.4V转换成5V和6V。

机器人B与机器人A不同的是，机器人B多了一个行为捕捉器，主要由：固定在机器人主体骨架前段的360度连续旋转伺服舵机和搭载在舵机上的红外线传感器组成。红外线传感器在舵机带动下进行360度旋转，探测360°范围内的物体，可以观察全局的示教行为，提供示教机器人A与光源的距离。

舵机采用生产商PARALLAX公司生产的360度连续旋转直流舵机，由5V直流供电，配合齿轮减速装置，最大转速为60rpm，扭矩为3.40kg*cm，支持PWM波控制。

红外线传感器采用日本SHARP红外线测距传感GP2Y0A02YK0F，模拟信号输出。采用三角测量方法，被测物体的材质、环境温度以及测量时间不会影响传感器的测量精度。传感器输出电压值对应探测距离，测距范围为20～150cm。

本发明所述机器人系统工作的总流程图如图5所示。首先由示教机器人A演示示教行为，然后，模仿机器人B观测模仿机器人A的示教行为。所述机器人系统模仿学习的方法包括以下步骤：

步骤1，示教机器人A执行示教行为。

通过计算机串口向示教机器人A的STM32控制器105传送示教指令，机器人A运用它的多种传感器工作以及电机驱动，完成相应命令的动作行为，并在命令中设定示教行为终止信号。示教机器人A执行示教行为的流程图如图6所示，具体包括以下步骤：

步骤1.1，初始化示教机器人A。

配置STM32控制器105寄存器状态，初始化全局和局部变量，初始化传感器和左右直流电机的控制量。

步骤1.2，选择机器人的示教任务，并读取预存于机器人内部的示教指令，四个光敏传感器109、110、111、112采集各自方向的环境亮度信号，四个温度传感器113、114、115、116采集各自方向的环境温度信号，霍尔传感器117采集左右直流电机106、107的转速。

步骤1.3，STM32控制器105将传感器采集的亮度和温度数据运用均值算法进行处理，并将亮度和温度进行融合得到环境的亮温度值M。

（1）采用均值算法进行亮度和温度数据处理。

每个传感器每1ms采集一个数据，每10个值进行一次数据处理；将每个传感器所占用的10ms采样时间串联，由于时间很短，忽略由于时间差异带来的误差；取每个传感器10ms采集的10个数值的算术平均值，作为这个传感器的取值；取每一侧两个传感器取值的算术平均值，作为这一侧的取值；取全部四个传感器取值的算术平均值，作为当前环境的取值。

（2）将采集到的亮度与温度数据进行融合。

采用权重定量统计法对亮度与温度数据进行融合，机器人左前、左后、右前、右后的亮温度值M的计算公式如下：

M=亮度×亮度权重值+温度×温度权重值。

步骤1.4，采用模糊控制算法对步骤1.3得到的数据进行处理，输出PWM波至左、右两个直流电机106、107，完成相应动作，直至满足示教结束条件。

示教机器人A趋光趋热行为的模糊控制算法包括以下内容：

（1）机器人到光源热源的距离大于20cm

1）若机器人处于“极暗极冷环境”，即0%M_max≤M≤25%M_max时，则停止三个时间单位；

2）若机器人处于“亮、热环境”，即25%M_max≤M≤75%M_max时，则根据左、右两侧环境亮温度的大小行慢速进。

若右边亮温度M小于左边亮温度M，则左转两个时间单位（30度），直行一个时间单位；

若右边亮温度M大于左边亮温度M，则右转两个时间单位（30度），直行一个时间单位；

若右边亮温度M等于左边亮温度M，则直行一个时间单位。

3）若机器人处于“极亮极热环境”，即75%M_max≤M≤100%M_max，则根据左、右两侧环境亮度快速行进。

若右边亮温度M小于左边亮温度M，则左转两个时间单位（30度），直行两个时间单位；

若右边亮温度M大于左边亮温度M，则右转两个时间单位（30度），直行两个时间单位；

若右边亮温度M等于左边亮温度M，则直行两个时间单位。

（2）示教机器人A到光源热源的距离大于5cm且小于20cm

若机器人处于“极亮极热环境”，则以慢速行进，根据左、右两侧环境亮温度行进。

若右边亮温度M小于左边亮温度M，则左转一个时间单位（15度），直行一个时间单位；

若右边亮温度M大于左边亮温度M，则右转一个时间单位（15度），直行一个时间单位；

若右边亮温度M等于左边亮温度M，则直行一个时间单位。

（3）示教机器人A到光源热源的距离小于5cm

机器人处于到达光源热源状态，停止运动。

步骤2，模仿机器人B观测示教机器人A的示教行为。

在示教机器人A开始工作的同时，模仿机器人B控制系统的行为捕捉装置开始工作，机器人B观测机器人A示教行为的流程图如图7所示，具体包括以下步骤：

步骤2.1，初始化模仿机器人B。

步骤2.2，模仿机器人B进行行为捕捉。

行为捕捉的流程图如图8所示，包括以下步骤：

（1）初始化舵机208的位置，将红外线传感器209的红外LED对准光源的位置，设机器人B与光源所在的直线为L1，测量机器人B与光源的直线距离S₁，并设定舵机208旋转角速度W。

（2）设定控制器205内部计时器Timer的初始值为0，舵机208开始顺时针旋转。

（3）当红外线传感器209检测到机器人A时，设此时红外线传感器209与示教机器人A所在的直线为L2，测量红外线传感器209到示教机器人A的直线距离S₂，同时得到此时的Timer所计的时间t，此时L1与L2的夹角θ=360-W×t。

（4）计算示教机器人A与光源的直线距离，计算公式如下：

（5）如果S₃小于5cm，结束测距，导出数据组S₃；否则，转步骤（3）。

（6）完成一次捕捉后，转步骤1，随机改变示教机器人A的初始位置，重复执行捕捉行为，直至完成30次示教、捕捉任务。

步骤2.3，将导出的30次示教行为采集的数据组S₃，应用示教行为理解算法进行数据处理，得到模仿函数I(s,a)、示教函数T(s,a)和模仿机器人B到光源的距离函数R(s,a)等数据，其中s代表机器人状态，a代表机器人动作。

步骤3，模仿机器人B模仿示教机器人A的示教行为。

步骤3.1，初始化I(s,a)、T(s,a)定义动作集E（左转0～180度，右转0～180度，前行，后退），使模仿机器人B在动作集中随机选择并执行其中一个动作。

步骤3.2，观察t时刻的环境状态s_t；

模仿机器人B在动作集中选择一个动作策略，表示如下：

其中，a_t表示t时刻机器人的动作，π(s_t)表示在t时刻状态s下机器人B选择的一个动作策略，ε为调整权值。

运用模仿学习算法中的该动作策略，控制器205输出PWM波，驱动左右直流电机206、207，完成这个动作。

步骤3.3，执行所选动作后，运用四个光敏传感器211、212、213、214、四个温度传感器215、216、217、218和超声波传感器210以及霍尔传感器219采集此动作后的环境数据以及机器人本体数据来观察下一个状态并接收评价信号，即距离函数R(s,a)。

步骤3.4，更新模仿函数I(s,a)和示教函数T(s,a)，表示如下：

T(s,a)＝T(s_t+1,a_t+1)

其中，γ为折扣因子，0≤γ＜1；s_t+1为t+1时刻的环境状态，a_t+1为t+1时刻机器人的动作。

步骤3.5，如果满足设定的模仿结束条件，模仿结束，机器人B停止工作；否则，转到步骤3.2，直至满足该条件后模仿结束。

模仿结束条件一般设定为：机器人B与趋光趋热的对象光源或热源的距离小于5cm。

Claims

1.具有模仿学习机制的仿生轮式机器人系统模仿学习的方法，应用如下具有模仿学习机制的仿生轮式机器人系统，该系统包括示教机器人A和模仿机器人B；示教机器人A用作示教者，向模仿机器人B演示示教行为；模仿机器人B为被训练学习对象，通过观测和模仿学习独立完成机器人A的示教行为；

示教机器人A包括：机器人主体骨架(101)，固定在主体骨架两侧的驱动轮，即左轮(102)和右轮(103)，固定在主体骨架前侧的随动轮(104)，在机器人主体骨架上的STM32控制器(105)，固定在主体骨架上的左、右360度连续旋转的直流电机(106)、(107)，固定在机器人主体骨架前端的超声波传感器(108)，固定在主体骨架左前侧、左后侧、右前侧、右后侧的四个光敏传感器(109)、(110)、(111)、(112)，固定在主体骨架左前侧、左后侧、右前侧、右后侧的四个温度传感器(113)、(114)、(115)、(116)，固定在主体骨架下方两个电机之间的霍尔传感器(117)；四个光敏传感器(109)、(110)、(111)、(112)采集环境的亮度值，四个温度传感器(113)、(114)、(115)、(116)采集环境的温度值，超声波传感器(108)检测前方障碍物的距离，霍尔传感器(117)检测两个电机的转速；四个光敏传感器(109)、(110)、(111)、(112)、四个温度传感器(113)、(114)、(115)、(116)和超声波传感器(108)以及霍尔传感器(117)的输出端分别与STM32控制器(105)的输入端相连，STM32控制器(105)的输出端与直流电机(106)、(107)相连；

模仿机器人B包括：机器人主体骨架(201)，固定在主体骨架两侧的驱动轮，即左轮(202)和右轮(203)，固定在主体骨架前侧的随动轮(204)，在机器人主体骨架上的STM32控制器(205)，固定在主体骨架上的左、右360度连续旋转的直流电机(206)、(207)，还包括固定在机器人主体骨架前段的360度连续旋转伺服舵机(208)，搭载在舵机上的红外线传感器(209)，固定在机器人主体骨架前端的超声波传感器(210)，固定在主体骨架左前侧、左后侧、右前侧、右后侧的四个光敏传感器(211)、(212)、(213)、(214)，固定在主体骨架左前侧、左后侧、右前侧、右后侧的四个温度传感器(215)、(216)、(217)、(218)，固定在主体骨架下方两个电机之间的霍尔传感器(219)；红外线传感器(209)检测前方光源的距离，四个光敏传感器(211)、(212)、(213)、(214)采集环境的亮度值，四个温度传感器(215)、(216)、(217)、(218)采集环境的温度值，超声波传感器(210)检测前方障碍物的距离，霍尔传感器(219)检测两个电机(206)、(207)的转速；红外线传感器(209)、四个光敏传感器(211)、(212)、(213)、(214)、四个温度传感器(215)、(216)、(217)、(218)和超声波传感器(210)以及霍尔传感器(219)的输出端分别与STM32控制器(205)的输入端相连，STM32控制器(205)的输出端与转直流电机(206)、(207)以及伺服舵机(208)相连；

其特征在于，包括以下步骤：

步骤1，示教机器人A执行示教行为；

通过计算机串口向示教机器人A的STM32控制器(105)传送示教指令，机器人A运用它的多种传感器工作以及电机驱动，完成相应命令的动作行为，并在命令中设定示教行为终止信号；具体包括以下步骤：

步骤1.1，初始化示教机器人A；

配置STM32控制器(105)寄存器状态，初始化全局和局部变量，初始化传感器和左右直流电机的控制量；

步骤1.2，选择机器人的示教任务，并读取预存于机器人内部的示教指令，四个光敏传感器(109)、(110)、(111)、(112)采集各自方向的环境亮度信号，四个温度传感器(113)、(114)、(115)、(116)采集各自方向的环境温度信号，霍尔传感器(117)采集左右直流电机(106)、(107)的转速；

步骤1.3，STM32控制器(105)将传感器采集的亮度和温度数据运用均值算法进行处理，并将亮度和温度进行融合得到环境的亮温度值M；

步骤1.4，采用模糊控制算法对步骤1.3得到的数据进行处理，输出PWM波至左、右两个直流电机(106)、(107)，完成相应动作，直至满足示教结束条件；

步骤2，模仿机器人B观测示教机器人A的示教行为；

在示教机器人A开始工作的同时，模仿机器人B控制系统的行为捕捉装置开始工作，具体包括以下步骤：

步骤2.1，初始化模仿机器人B；

步骤2.2，模仿机器人B进行行为捕捉；

步骤2.3，将导出的30次示教行为采集的数据组S₃，应用示教行为理解算法进行数据处理，得到模仿函数I(s,a)、示教函数T(s,a)和模仿机器人B到光源的距离函数R(s,a)，其中s代表机器人状态，a代表机器人动作；

步骤3，模仿机器人B模仿示教机器人A的示教行为；

步骤3.1，初始化I(s,a)、T(s,a)定义动作集E{左转0～180度，右转0～180度，前行，后退}，使模仿机器人B在动作集中随机选择并执行其中一个动作；

步骤3.2，观察t时刻的环境状态s_t；

模仿机器人B在动作集中选择一个动作策略，表示如下：

π (s_{t}) = \arg \underset{a &Element; E}{m a x} [I (s_{t}, a_{t}) + ϵ T (s_{t}, a_{t})]

其中，a_t表示t时刻机器人的动作，π(s_t)表示在t时刻状态s下机器人B选择的一个动作策略，ε为调整权值；

运用模仿学习算法中的该动作策略，控制器(205)输出PWM波，驱动左右直流电机(206、207)，完成这个动作；

步骤3.3，执行所选动作后，运用四个光敏传感器(211)、(212)、(213)、(214)、四个温度传感器(215)、(216)、(217)、(218)和超声波传感器(210)以及霍尔传感器(219)采集此动作后的环境数据以及机器人本体数据来观察下一个状态并接收评价信号，即距离函数R(s,a)；

步骤3.4，更新模仿函数I(s,a)和示教函数T(s,a)，表示如下：

I (s, a) = I (s_{t}, a_{t}) + α {R (s_{t}, a_{t}) + γ \arg \underset{a &Element; E}{m a x} [I (s_{t + 1}, a_{t + 1}) - I (s_{t}, a_{t})]}

T(s,a)＝T(s_t+1,a_t+1)

其中，γ为折扣因子，0≤γ＜1；s_t+1为t+1时刻的环境状态，a_t+1为t+1时刻机器人的动作；

步骤3.5，如果满足设定的模仿结束条件，模仿结束，机器人B停止工作；否则，转到步骤3.2，直至满足该条件后模仿结束；

模仿结束条件设定为：机器人B与趋光趋热的对象光源热源的距离小于5cm。

2.根据权利要求1所述的方法，其特征在于，所述步骤1.3进行数据处理的方法包括以下步骤：

(1)采用均值算法进行亮度和温度数据处理

每个传感器每1ms采集一个数据，每10个值进行一次数据处理；将每个传感器所占用的10ms采样时间串联，由于时间很短，忽略由于时间差异带来的误差；取每个传感器10ms采集的10个数值的算术平均值，作为这个传感器的取值；取每一侧两个传感器取值的算术平均值，作为这一侧的取值；取全部四个传感器取值的算术平均值，作为当前环境的取值；

(2)将采集到的亮度与温度数据进行融合

M＝亮度×亮度权重值+温度×温度权重值。

3.根据权利要求1所述的方法，其特征在于，所述步骤1.4的模糊控制算法包括以下内容：

(1)机器人到光源热源的距离大于20cm

1)若机器人处于“极暗极冷环境”，即0％M_max≤M＜25％M_max时，则停止三个时间单位；

2)若机器人处于“亮、热环境”，即25％M_max≤M≤75％M_max时，则根据左、右两侧环境亮温度的大小行慢速进；

若右边亮温度M小于左边亮温度M，则左转两个时间单位，即30度，直行一个时间单位；

若右边亮温度M大于左边亮温度M，则右转两个时间单位，即30度，直行一个时间单位；

若右边亮温度M等于左边亮温度M，则直行一个时间单位；

3)若机器人处于“极亮极热环境”，即75％M_max＜M≤100％M_max，则根据左、右两侧环境亮度快速行进；

若右边亮温度M小于左边亮温度M，则左转两个时间单位，即30度，直行两个时间单位；

若右边亮温度M大于左边亮温度M，则右转两个时间单位，即30度，直行两个时间单位；

若右边亮温度M等于左边亮温度M，则直行两个时间单位；

(2)示教机器人A到光源热源的距离大于5cm且小于20cm

若机器人处于“极亮极热环境”，则以慢速行进，根据左、右两侧环境亮温度行进；

若右边亮温度M小于左边亮温度M，则左转一个时间单位，即15度，直行一个时间单位；

若右边亮温度M大于左边亮温度M，则右转一个时间单位，即15度，直行一个时间单位；

若右边亮温度M等于左边亮温度M，则直行一个时间单位；

(3)示教机器人A到光源热源的距离小于5cm

机器人处于到达光源热源状态，停止运动。

4.根据权利要求1所述的方法，其特征在于，所述步骤2.2的行为捕捉包括以下步骤：

(1)初始化舵机(208)的位置，将红外线传感器(209)的红外LED对准光源的位置，设机器人B与光源所在的直线为L1，测量机器人B与光源的直线距离S₁，并设定舵机(208)旋转角速度W；

(2)设定控制器(205)内部计时器Timer的初始值为0，舵机(208)开始顺时针旋转；

(3)当红外线传感器(209)检测到机器人A时，设此时红外线传感器(209)与示教机器人A所在的直线为L2，测量红外线传感器(209)到示教机器人A的直线距离S₂，同时得到此时的Timer所计的时间t，此时L1与L2的夹角θ＝360-W×t；

(4)计算示教机器人A与光源的直线距离，计算公式如下：

S_{3} = \sqrt{S_{1}^{2} + S_{2}^{2} - 2 S_{1} S_{2} c o s θ}

(5)如果S₃小于5cm，结束测距，导出数据组S₃；否则，转步骤(3)；

(6)完成一次捕捉后，转步骤1，随机改变示教机器人A的初始位置，重复执行捕捉行为，直至完成30次示教、捕捉任务。