CN112232350A

CN112232350A - 基于强化学习的水田机器人机械腿长度调整方法与系统

Info

Publication number: CN112232350A
Application number: CN202011164173.9A
Authority: CN
Inventors: 黄华盛; 唐宇; 骆少明; 杨阿庆; 郭琪伟; 庄鑫财; 朱兴; 李嘉豪; 杨捷鹏; 符伊晴; 赵晋飞; 张晓迪; 侯超钧; 庄家俊; 苗爱敏; 褚璇
Original assignee: Guangdong Polytechnic Normal University
Current assignee: Guangdong Polytechnic Normal University
Priority date: 2020-10-27
Filing date: 2020-10-27
Publication date: 2021-01-15
Anticipated expiration: 2040-10-27
Also published as: CN112232350B

Abstract

本发明公开了一种基于强化学习的水田机器人机械腿长度调整方法与系统，双足机器人根据作业规划行走在水田环境中，开启机器视觉采集图像；第一机械腿放下过程中，机器人机载芯片实时获取采集的图像并语义分割获得类别图像，根据类别图像判断水田表面在机械腿的掩盖位置；机器人将当前图像的类别图像减去上一帧图像的类别图像，作为当前时刻状态；调用强化学习模型，输入当前状态，获得每一种执行动作的分数值，取分值最高的动作为决策结果；根据决策结果，调整PWM电路占空比；第一机械腿停止下陷趋于稳定后，抬起第二机械腿，向前行走并放下第二机械腿，机器人调整第二机械腿长度。本发明可克服双足机器人在水田土壤环境下发生下陷的问题。

Description

基于强化学习的水田机器人机械腿长度调整方法与系统

技术领域

本发明涉及智慧农业的技术领域，尤其是指一种基于强化学习的水田机器人机械腿长度调整方法与系统。

背景技术

水田机器人能够代替人工在水田环境中开展农情监测与田间管理，是解决农村劳动力短缺、促进现代农业产业升级的重要技术手段。相比于履带式等机器人，双足式机器人所需空间更小、操作更加灵活且不容易损伤到农作物，是农业机器人在小田环境下实现传统农业精耕细作的重要方案。但是，双足式机器人腿部与地面接触面积较小，在非刚性的地面环境下，容易出现下陷的情况。特别是对于松软的水田土壤，这个问题尤为严重。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提出了一种基于强化学习的水田机器人机械腿长度调整方法与系统，能够避免双足机器人在水田环境下发生下陷，有效保证机器人在田间行走过程中的稳定性。

为实现上述目的，本发明所提供的技术方案如下：

基于强化学习的水田机器人机械腿长度调整方法，包括以下步骤：

S1、水田机器人根据作业规划行走在水田环境中，按照固定时间间隔驱动其顶部摄像头采集机械腿腿部的图像，即机器人开启机器视觉采集图像；其中，所述水田机器人为双足机器人，即带有两个机械腿，分别为第一机械腿和第二机械腿；所述机械腿分为上、下两部分，该两部分中间存在空隙并能够相互滑动，当机械腿的上部受力发生改变且产生滑动时，两部分中间间隙大小也随之发生改变，进而导致机械腿的长度发生变化；所述机械腿标注有预警位置和终止位置，预警位置位于机械腿下部中间、终止位置位于机械腿上部中间；若当前动作为机械腿放下且水田表面盖过预警位置时，所述机器人开始启动强化学习决策调整机械腿长度，当水田表面盖过终止位置时，任务失败进入终止状态；所述水田表面包括处于水田表面的水或土壤；

S2、在所述第一机械腿放下过程中，所述机器人的机载芯片通过有线连接的方式实时获取摄像头采集的图像，并基于语义分割网络进行像素级的识别，获得类别图像，根据类别图像判断水田表面在机械腿的掩盖位置；其中，所述语义分割网络识别的类别包括水田表面、机械腿上部和机械腿下部；

S3、所述机器人将当前时刻的类别图像减去上一时刻的类别图像，作为当前时刻状态，调用强化学习模型，输入当前时刻状态，获得每一种执行动作的分数值，取分值最高的动作作为决策结果；其中，所述机器人的执行动作包括将PWM电路的占空比提高0.1、将PWM电路的占空比提高0.05、保持PWM电路的占空比不变、将PWM电路的占空比降低0.05、将PWM电路的占空比提高0.1；

S4、所述机器人的机载芯片根据强化学习模型的决策结果，调整PWM电路的占空比，改变PWM电路的输出电压；其中，所述PWM电路的输出连接固定大小的负载导体，所述负载导体安装于机械腿的上部并置于磁场之中，负载导体在通电情况下受到向上的磁场力，由于PWM输出电压改变导致受到的磁场力改变，引起机械腿上部产生滑动，进而改变机械腿长度；

S5、在所述第一机械腿停止下陷且趋于稳定后，所述机器人停止图像采集与分析，抬起第二机械腿，向前行走并放下第二机械腿；在所述第二机械腿放下过程中，所述机器人重新开启机器视觉并采用上述第一机械腿的调整方式来调整第二机械腿长度，保证双足机器人的状态趋于稳定。

进一步，所述步骤S2包括以下步骤：

S201、在任务开始前，获取所需的语义分割网络，部署到机器人的机载芯片上；其中，获取所需的语义分割网络的步骤，包括：

S2011、基于应用场景，设计语义分割网络结构，包括编码器和解码器，编码器重复卷积和下采样操作，解码器重复卷积和上采样操作；最后一个卷积层输出特征图的数量设置为4，分别对应应用场景下的机械腿上部、机械腿下部、水田表面和特定类别；

S2012、采集水田机器人视角下的图像，对图像中的不同类别进行标记，形成语义分割网络的数据集；将所述数据集用于语义分割网络的训练，计算标记图像和网络输出的差异，反向调整语义分割网络的参数数值；

S202、在任务开始后，调用训练好的语义分割网络，对采集到的图像进行像素级分割，得到类别图像；

S203、基于类别图像，判断水田表面掩盖位置是否超过所述机械腿预警位置；如果掩盖位置在所述预警位置以下，则重复执行步骤S2；如果掩盖位置在所述预警位置以上，则跳转到步骤S3；其中，判断水田表面掩码位置的步骤，包括：

S2031、对类别图像进行二值化，将机械腿下部像素设置为1，其它像素设置为0；

S2032、对二值化图像进行连通域分析，将最大的连通域定义为机械腿下部，计算该连通域最小外接矩形，选择最小外接矩形较长一边的长度作为机械腿裸露部分长度；判断所述裸露部分长度是否超过机械腿下部的一半，如果裸露部分长度小于机械腿下部长度的一半，则水田表面已经超过预警位置。

进一步，所述步骤S3包括以下步骤：

S301、在任务开始前，获取机械腿长度调整决策的强化学习模型，将其部署到机器人机载芯片中；其中，获取机械腿长度调整决策的强化学习模型的步骤，包括：

S3011、基于应用场景，设计强化学习模型的网络结构；所述强化学习模型为一个卷积分类网络，包括卷积层、池化层和全连接层；最后一个全连接层的神经元数量设置为5，分别对应5种执行动作的分数，该5种执行动作包括将PWM电路的占空比提高0.1、将PWM电路的占空比提高0.05、保持PWM电路的占空比不变、将PWM电路的占空比降低0.05、将PWM电路的占空比提高0.1；

S3012、在水田环境下，采集训练数据并进行在线训练，每一条训练数据包括当前时刻状态、执行动作、下一时刻状态和奖励值；其中，在线训练过程包括：

步骤a：采集机械腿图像，进行语义分割获取类别图像；判断水田表面在机械腿上的掩盖位置，若掩盖位置在预警位置与终止位置之间，则为有效训练状态；若掩盖位置在终止位置以上或预警位置以下，则为无效训练状态；

步骤b：若当前为有效训练状态，将当前时刻类别图像减去上一时刻类别图像，获得当前时刻状态，训练过程采用决策模型与目标模型，两个模型是结构相同的强化学习模型且初始参数相同；将当前状态输入决策模型，获得不同动作的分数；

步骤c：决策方式有两种，分别是决策模型输出的最高分数对应的执行动作、随机选择的动作；按照随机策略，选择决策方式，获得决策的执行动作，按照所述执行动作调整PWM电路的占空比，调整机械腿长度；

步骤d：获取下一时刻类别图像，减去当前时刻类别图像，作为下一时刻的状态；由步骤b-d能够获取一条训练数据，其中奖励值恒等于1；所述训练数据放入经验回放池；

步骤e：从经验回放池中随机抽取一组数据(s^t,a^t,s^t+1,r^t)；其中，s^t代表当前时刻状态，a^t代表当前时刻的执行动作，s^t+1代表下一时刻状态，r^t代表当前时刻奖励；将该组数据中的当前状态s^t输入决策模型Q，获取数据中执行动作a^t对应的分数Q(s^t,a^t)；训练数据中的下一时刻状态输入目标模型Q′，获得目标模型最大的输出分数max(Q′(s^t+1))；若训练数据中下一时刻状态为无效训练状态，则目标模型的最大输出分数为1；根据下式计算决策模型的误差，按照反向传播调整决策模型的参数数值：

err＝(Q(s^t,a^t)-r^t-max(Q′(s^t+1)))²

其中，err代表训练误差；

步骤f：定期更新目标模型，更新时使得目标模型的参数数值等于决策模型；

步骤g：训练结束后，将所述决策模型部署至机器人机载芯片；

S302、在执行任务过程中，所述机器人将当前时刻类别图像减去上一时刻类别图像，获得当前时刻状态；将当前时刻状态输入所述决策模型，获得每一种动作的分数，取分值最高对应的动作作为执行动作。

进一步，所述步骤S4包括以下步骤：

S401、根据强化学习模型的决策结果，更新PWM电路的占空比，如下：

d_t+1＝d_t+Δt,s.t.0≤d_t+1≤1

其中，d_t+1和d_t为当前时刻和上一时刻的占空比，Δt为决策的执行动作的占空比更改量；

S402、机器人通过改变PWM电路占空比，改变PWM电路的输出电压；所述PWM电路的输出连接固定大小的负载导体，所述负载导体在磁场环境下由于通电受到向上的磁场力，若所述磁场力大于机械腿所受重力，机械腿上部受到向上的合力，机械腿上部向上移动，机械腿长度增加；反之长度减小。

基于强化学习的水田机器人机械腿长度调整系统，包括：

机械腿识别单元，用于对采集到的图像进行语义分割，得到像素级分类的类别图像；其中，进行语义分割采用的语义分割网络包括编码器和解码器，编码层重复卷积和下采样操作，解码层重复卷积和上采样操作；分类类别共有4个类别，包括机械腿上部、机械腿下部、水田表面和特定类别；

机械腿长度调整决策单元，用于获取机械腿长度调整动作；其中，所述机械腿长度调整决策单元采用的决策模型为强化学习模型；所述决策模型将当前时刻类别图像减去上一时刻类别图像，得到当前时刻状态；机器人将当前时刻状态输入决策模型，获得各种动作的分数，取分值最高的动作作为决策的执行动作；

机械腿长度调整执行单元，用于执行决策模型输出的动作，从而改变机械腿长度；所述机械腿长度调整执行单元为一个PWM电路，所述决策模型输出的执行动作为PWM电路占空比的改变量；所述PWM电路的输出连接固定大小的负载导体，所述负载导体安装于机械腿上部并置于磁场之中；所述负载导体在磁场环境下由于通电受到向上的磁场力；所述PWM电路输出电压改变造成通电电流改变，进而引起所受磁场力的改变；若所述磁场力大于机械腿所受重力，机械腿上部受到向上的合力，机械腿上部向上移动，机械腿长度增加；反之长度减小。

本发明与现有技术相比，具有如下优点与有益效果：

本发明通过单目视觉即可获取所需信息，基于强化学习获得调整动作，基于PWM电路执行调整动作。强化学习的调整动作为PWM电路的占空比改变量，PWM电路的输出决定所连接电路的电流大小及所受磁场力大小，进而实现机械腿长度的自适应控制。本发明的技术流程能够避免双足机器人在水田土壤环境下发生下陷，可以保证机器人在水田环境下的姿态稳定，进而为后续的田间行走、农情监测及精准施药等动作垫定基础。

附图说明

图1为本发明方法的流程示意图。

图2为本发明系统的架构图。

图3为机械腿长度调整执行单元的结构示意图。

具体实施方式

下面结合具体实施例对本发明作进一步说明。

参见图1所示，本实施例所提供的基于强化学习的水田机器人机械腿长度调整方法，包括以下步骤：

S1、水田机器人根据作业规划行走在水田环境中，按照固定时间间隔驱动其顶部摄像头采集机械腿腿部的图像，即机器人开启机器视觉采集图像；其中，所述水田机器人为双足机器人，即带有两个机械腿，分别为第一机械腿和第二机械腿；所述机械腿分为上、下两部分，该两部分中间存在空隙并能够相互滑动，当机械腿的上部受力发生改变且产生滑动时，两部分中间间隙大小也随之发生改变，进而导致机械腿的长度发生变化；所述机械腿标注有预警位置和终止位置，预警位置位于机械腿下部中间、终止位置位于机械腿上部中间；若当前动作为机械腿放下且水田表面盖过预警位置时，所述机器人开始启动强化学习决策调整机械腿长度，当水田表面盖过终止位置时，任务失败进入终止状态；所述水田表面包括处于水田表面的水或土壤。

S2、在所述第一机械腿放下过程中，所述机器人的机载芯片通过有线连接的方式实时获取摄像头采集的图像，并基于语义分割网络进行像素级的识别，获得类别图像，根据类别图像判断水田表面在机械腿的掩盖位置，具体过程如下：

S2012、采集水田机器人视角下的图像，对图像中的不同类别进行标记，形成语义分割网络的数据集；将所述数据集用于语义分割网络的训练，计算标记图像和网络输出的差异，反向调整语义分割网络的参数数值。

S202、在任务开始后，调用训练好的语义分割网络，对采集到的图像进行像素级分割，得到类别图像。

S2032、对二值化图像进行连通域分析，将最大的连通域定义为机械腿下部，计算该连通域最小外接矩形，选择最小外接矩形较长一边的长度作为机械腿裸露部分长度；判断所述裸露部分长度是否超过机械腿下部的一半，如果裸露部分长度小于机械腿下部长度的一半，则水田表面已经超过预警位置；其中，图像空间中机械腿下部长度在实验前预先测定。

S3、所述机器人将当前时刻的类别图像减去上一时刻的类别图像，作为当前时刻状态，调用强化学习模型，输入当前时刻状态，获得每一种执行动作的分数值，取分值最高的动作作为决策结果，具体过程如下：

步骤d：获取下一时刻类别图像，减去当前时刻类别图像，作为下一时刻的状态；由步骤b-d可获取一条训练数据，其中奖励值恒等于1；所述训练数据放入经验回放池；

err＝(Q(s^t,a^t)-r^t-max(Q′(s^t+1)))²

其中，err代表训练误差；

步骤g：训练结束后，将所述决策模型部署至机器人机载芯片。

S4、所述机器人的机载芯片根据决策模型的决策结果，调整PWM电路的占空比，改变PWM电路的输出电压，具体过程如下：

d_t+1＝d_t+Δt,s.t.0≤d_t+1≤1

其中，d_t+1和d_t为当前时刻和上一时刻的占空比，Δt为决策的执行动作的占空比更改量。

参见图2所示，本实施例也提供了一种基于强化学习的水田机器人机械腿长度调整系统，包括：

参见图3所示，为本实施例上述机械腿长度调整执行单元的结构示意图，图中1为机械腿上部，2为机械腿下部，3为电磁铁(即负载导体)，4为通电电路。其中，所述机械腿上部1的底部宽度大于顶部宽度，所述机械腿上部1的底部宽度与机械腿下部2宽度一致；所述机械腿上部与下部之间存在空隙，在机械腿上部1受力发生滑动时，机械腿上下部中间的空隙大小发生变化，进而导致机械腿长度发生变化；所述通电电路4的电流大小由PWM输出电压控制；所述电磁铁3置于磁场之中，在通电情况下受到向上的磁场力；在所受磁场力大小变化的情况下，机械腿上部1发生滑动进而改变机械腿的长度。

以上所述实施例只为本发明之较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围内。

Claims

1.基于强化学习的水田机器人机械腿长度调整方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于强化学习的水田机器人机械腿长度调整方法，其特征在于，所述步骤S2包括以下步骤：

3.根据权利要求1所述的基于强化学习的水田机器人机械腿长度调整方法，其特征在于，所述步骤S3包括以下步骤：

err＝(Q(s^t,a^t)-r^t-max(Q′(s^t+1)))²

其中，err代表训练误差；

4.根据权利要求1所述的基于强化学习的水田机器人机械腿长度调整方法，其特征在于，所述步骤S4包括以下步骤：

d_t+1＝d_t+Δt,s.t.0≤d_t+1≤1

5.基于强化学习的水田机器人机械腿长度调整系统，其特征在于，包括：