CN112232350A - 基于强化学习的水田机器人机械腿长度调整方法与系统 - Google Patents
基于强化学习的水田机器人机械腿长度调整方法与系统 Download PDFInfo
- Publication number
- CN112232350A CN112232350A CN202011164173.9A CN202011164173A CN112232350A CN 112232350 A CN112232350 A CN 112232350A CN 202011164173 A CN202011164173 A CN 202011164173A CN 112232350 A CN112232350 A CN 112232350A
- Authority
- CN
- China
- Prior art keywords
- mechanical leg
- robot
- mechanical
- paddy field
- decision
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B62—LAND VEHICLES FOR TRAVELLING OTHERWISE THAN ON RAILS
- B62D—MOTOR VEHICLES; TRAILERS
- B62D57/00—Vehicles characterised by having other propulsion or other ground- engaging means than wheels or endless track, alone or in addition to wheels or endless track
- B62D57/02—Vehicles characterised by having other propulsion or other ground- engaging means than wheels or endless track, alone or in addition to wheels or endless track with ground-engaging propulsion means, e.g. walking members
- B62D57/032—Vehicles characterised by having other propulsion or other ground- engaging means than wheels or endless track, alone or in addition to wheels or endless track with ground-engaging propulsion means, e.g. walking members with alternately or sequentially lifted supporting base and legs; with alternately or sequentially lifted feet or skid
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/187—Segmentation; Edge detection involving region growing; involving region merging; involving connected component labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Chemical & Material Sciences (AREA)
- Combustion & Propulsion (AREA)
- Transportation (AREA)
- Mechanical Engineering (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Manipulator (AREA)
Abstract
本发明公开了一种基于强化学习的水田机器人机械腿长度调整方法与系统,双足机器人根据作业规划行走在水田环境中,开启机器视觉采集图像;第一机械腿放下过程中,机器人机载芯片实时获取采集的图像并语义分割获得类别图像,根据类别图像判断水田表面在机械腿的掩盖位置;机器人将当前图像的类别图像减去上一帧图像的类别图像,作为当前时刻状态;调用强化学习模型,输入当前状态,获得每一种执行动作的分数值,取分值最高的动作为决策结果;根据决策结果,调整PWM电路占空比;第一机械腿停止下陷趋于稳定后,抬起第二机械腿,向前行走并放下第二机械腿,机器人调整第二机械腿长度。本发明可克服双足机器人在水田土壤环境下发生下陷的问题。
Description
技术领域
本发明涉及智慧农业的技术领域,尤其是指一种基于强化学习的水田机器人机械腿长度调整方法与系统。
背景技术
水田机器人能够代替人工在水田环境中开展农情监测与田间管理,是解决农村劳动力短缺、促进现代农业产业升级的重要技术手段。相比于履带式等机器人,双足式机器人所需空间更小、操作更加灵活且不容易损伤到农作物,是农业机器人在小田环境下实现传统农业精耕细作的重要方案。但是,双足式机器人腿部与地面接触面积较小,在非刚性的地面环境下,容易出现下陷的情况。特别是对于松软的水田土壤,这个问题尤为严重。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提出了一种基于强化学习的水田机器人机械腿长度调整方法与系统,能够避免双足机器人在水田环境下发生下陷,有效保证机器人在田间行走过程中的稳定性。
为实现上述目的,本发明所提供的技术方案如下:
基于强化学习的水田机器人机械腿长度调整方法,包括以下步骤:
S1、水田机器人根据作业规划行走在水田环境中,按照固定时间间隔驱动其顶部摄像头采集机械腿腿部的图像,即机器人开启机器视觉采集图像;其中,所述水田机器人为双足机器人,即带有两个机械腿,分别为第一机械腿和第二机械腿;所述机械腿分为上、下两部分,该两部分中间存在空隙并能够相互滑动,当机械腿的上部受力发生改变且产生滑动时,两部分中间间隙大小也随之发生改变,进而导致机械腿的长度发生变化;所述机械腿标注有预警位置和终止位置,预警位置位于机械腿下部中间、终止位置位于机械腿上部中间;若当前动作为机械腿放下且水田表面盖过预警位置时,所述机器人开始启动强化学习决策调整机械腿长度,当水田表面盖过终止位置时,任务失败进入终止状态;所述水田表面包括处于水田表面的水或土壤;
S2、在所述第一机械腿放下过程中,所述机器人的机载芯片通过有线连接的方式实时获取摄像头采集的图像,并基于语义分割网络进行像素级的识别,获得类别图像,根据类别图像判断水田表面在机械腿的掩盖位置;其中,所述语义分割网络识别的类别包括水田表面、机械腿上部和机械腿下部;
S3、所述机器人将当前时刻的类别图像减去上一时刻的类别图像,作为当前时刻状态,调用强化学习模型,输入当前时刻状态,获得每一种执行动作的分数值,取分值最高的动作作为决策结果;其中,所述机器人的执行动作包括将PWM电路的占空比提高0.1、将PWM电路的占空比提高0.05、保持PWM电路的占空比不变、将PWM电路的占空比降低0.05、将PWM电路的占空比提高0.1;
S4、所述机器人的机载芯片根据强化学习模型的决策结果,调整PWM电路的占空比,改变PWM电路的输出电压;其中,所述PWM电路的输出连接固定大小的负载导体,所述负载导体安装于机械腿的上部并置于磁场之中,负载导体在通电情况下受到向上的磁场力,由于PWM输出电压改变导致受到的磁场力改变,引起机械腿上部产生滑动,进而改变机械腿长度;
S5、在所述第一机械腿停止下陷且趋于稳定后,所述机器人停止图像采集与分析,抬起第二机械腿,向前行走并放下第二机械腿;在所述第二机械腿放下过程中,所述机器人重新开启机器视觉并采用上述第一机械腿的调整方式来调整第二机械腿长度,保证双足机器人的状态趋于稳定。
进一步,所述步骤S2包括以下步骤:
S201、在任务开始前,获取所需的语义分割网络,部署到机器人的机载芯片上;其中,获取所需的语义分割网络的步骤,包括:
S2011、基于应用场景,设计语义分割网络结构,包括编码器和解码器,编码器重复卷积和下采样操作,解码器重复卷积和上采样操作;最后一个卷积层输出特征图的数量设置为4,分别对应应用场景下的机械腿上部、机械腿下部、水田表面和特定类别;
S2012、采集水田机器人视角下的图像,对图像中的不同类别进行标记,形成语义分割网络的数据集;将所述数据集用于语义分割网络的训练,计算标记图像和网络输出的差异,反向调整语义分割网络的参数数值;
S202、在任务开始后,调用训练好的语义分割网络,对采集到的图像进行像素级分割,得到类别图像;
S203、基于类别图像,判断水田表面掩盖位置是否超过所述机械腿预警位置;如果掩盖位置在所述预警位置以下,则重复执行步骤S2;如果掩盖位置在所述预警位置以上,则跳转到步骤S3;其中,判断水田表面掩码位置的步骤,包括:
S2031、对类别图像进行二值化,将机械腿下部像素设置为1,其它像素设置为0;
S2032、对二值化图像进行连通域分析,将最大的连通域定义为机械腿下部,计算该连通域最小外接矩形,选择最小外接矩形较长一边的长度作为机械腿裸露部分长度;判断所述裸露部分长度是否超过机械腿下部的一半,如果裸露部分长度小于机械腿下部长度的一半,则水田表面已经超过预警位置。
进一步,所述步骤S3包括以下步骤:
S301、在任务开始前,获取机械腿长度调整决策的强化学习模型,将其部署到机器人机载芯片中;其中,获取机械腿长度调整决策的强化学习模型的步骤,包括:
S3011、基于应用场景,设计强化学习模型的网络结构;所述强化学习模型为一个卷积分类网络,包括卷积层、池化层和全连接层;最后一个全连接层的神经元数量设置为5,分别对应5种执行动作的分数,该5种执行动作包括将PWM电路的占空比提高0.1、将PWM电路的占空比提高0.05、保持PWM电路的占空比不变、将PWM电路的占空比降低0.05、将PWM电路的占空比提高0.1;
S3012、在水田环境下,采集训练数据并进行在线训练,每一条训练数据包括当前时刻状态、执行动作、下一时刻状态和奖励值;其中,在线训练过程包括:
步骤a:采集机械腿图像,进行语义分割获取类别图像;判断水田表面在机械腿上的掩盖位置,若掩盖位置在预警位置与终止位置之间,则为有效训练状态;若掩盖位置在终止位置以上或预警位置以下,则为无效训练状态;
步骤b:若当前为有效训练状态,将当前时刻类别图像减去上一时刻类别图像,获得当前时刻状态,训练过程采用决策模型与目标模型,两个模型是结构相同的强化学习模型且初始参数相同;将当前状态输入决策模型,获得不同动作的分数;
步骤c:决策方式有两种,分别是决策模型输出的最高分数对应的执行动作、随机选择的动作;按照随机策略,选择决策方式,获得决策的执行动作,按照所述执行动作调整PWM电路的占空比,调整机械腿长度;
步骤d:获取下一时刻类别图像,减去当前时刻类别图像,作为下一时刻的状态;由步骤b-d能够获取一条训练数据,其中奖励值恒等于1;所述训练数据放入经验回放池;
步骤e:从经验回放池中随机抽取一组数据(st,at,st+1,rt);其中,st代表当前时刻状态,at代表当前时刻的执行动作,st+1代表下一时刻状态,rt代表当前时刻奖励;将该组数据中的当前状态st输入决策模型Q,获取数据中执行动作at对应的分数Q(st,at);训练数据中的下一时刻状态输入目标模型Q′,获得目标模型最大的输出分数max(Q′(st+1));若训练数据中下一时刻状态为无效训练状态,则目标模型的最大输出分数为1;根据下式计算决策模型的误差,按照反向传播调整决策模型的参数数值:
err=(Q(st,at)-rt-max(Q′(st+1)))2
其中,err代表训练误差;
步骤f:定期更新目标模型,更新时使得目标模型的参数数值等于决策模型;
步骤g:训练结束后,将所述决策模型部署至机器人机载芯片;
S302、在执行任务过程中,所述机器人将当前时刻类别图像减去上一时刻类别图像,获得当前时刻状态;将当前时刻状态输入所述决策模型,获得每一种动作的分数,取分值最高对应的动作作为执行动作。
进一步,所述步骤S4包括以下步骤:
S401、根据强化学习模型的决策结果,更新PWM电路的占空比,如下:
dt+1=dt+Δt,s.t.0≤dt+1≤1
其中,dt+1和dt为当前时刻和上一时刻的占空比,Δt为决策的执行动作的占空比更改量;
S402、机器人通过改变PWM电路占空比,改变PWM电路的输出电压;所述PWM电路的输出连接固定大小的负载导体,所述负载导体在磁场环境下由于通电受到向上的磁场力,若所述磁场力大于机械腿所受重力,机械腿上部受到向上的合力,机械腿上部向上移动,机械腿长度增加;反之长度减小。
基于强化学习的水田机器人机械腿长度调整系统,包括:
机械腿识别单元,用于对采集到的图像进行语义分割,得到像素级分类的类别图像;其中,进行语义分割采用的语义分割网络包括编码器和解码器,编码层重复卷积和下采样操作,解码层重复卷积和上采样操作;分类类别共有4个类别,包括机械腿上部、机械腿下部、水田表面和特定类别;
机械腿长度调整决策单元,用于获取机械腿长度调整动作;其中,所述机械腿长度调整决策单元采用的决策模型为强化学习模型;所述决策模型将当前时刻类别图像减去上一时刻类别图像,得到当前时刻状态;机器人将当前时刻状态输入决策模型,获得各种动作的分数,取分值最高的动作作为决策的执行动作;
机械腿长度调整执行单元,用于执行决策模型输出的动作,从而改变机械腿长度;所述机械腿长度调整执行单元为一个PWM电路,所述决策模型输出的执行动作为PWM电路占空比的改变量;所述PWM电路的输出连接固定大小的负载导体,所述负载导体安装于机械腿上部并置于磁场之中;所述负载导体在磁场环境下由于通电受到向上的磁场力;所述PWM电路输出电压改变造成通电电流改变,进而引起所受磁场力的改变;若所述磁场力大于机械腿所受重力,机械腿上部受到向上的合力,机械腿上部向上移动,机械腿长度增加;反之长度减小。
本发明与现有技术相比,具有如下优点与有益效果:
本发明通过单目视觉即可获取所需信息,基于强化学习获得调整动作,基于PWM电路执行调整动作。强化学习的调整动作为PWM电路的占空比改变量,PWM电路的输出决定所连接电路的电流大小及所受磁场力大小,进而实现机械腿长度的自适应控制。本发明的技术流程能够避免双足机器人在水田土壤环境下发生下陷,可以保证机器人在水田环境下的姿态稳定,进而为后续的田间行走、农情监测及精准施药等动作垫定基础。
附图说明
图1为本发明方法的流程示意图。
图2为本发明系统的架构图。
图3为机械腿长度调整执行单元的结构示意图。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
参见图1所示,本实施例所提供的基于强化学习的水田机器人机械腿长度调整方法,包括以下步骤:
S1、水田机器人根据作业规划行走在水田环境中,按照固定时间间隔驱动其顶部摄像头采集机械腿腿部的图像,即机器人开启机器视觉采集图像;其中,所述水田机器人为双足机器人,即带有两个机械腿,分别为第一机械腿和第二机械腿;所述机械腿分为上、下两部分,该两部分中间存在空隙并能够相互滑动,当机械腿的上部受力发生改变且产生滑动时,两部分中间间隙大小也随之发生改变,进而导致机械腿的长度发生变化;所述机械腿标注有预警位置和终止位置,预警位置位于机械腿下部中间、终止位置位于机械腿上部中间;若当前动作为机械腿放下且水田表面盖过预警位置时,所述机器人开始启动强化学习决策调整机械腿长度,当水田表面盖过终止位置时,任务失败进入终止状态;所述水田表面包括处于水田表面的水或土壤。
S2、在所述第一机械腿放下过程中,所述机器人的机载芯片通过有线连接的方式实时获取摄像头采集的图像,并基于语义分割网络进行像素级的识别,获得类别图像,根据类别图像判断水田表面在机械腿的掩盖位置,具体过程如下:
S201、在任务开始前,获取所需的语义分割网络,部署到机器人的机载芯片上;其中,获取所需的语义分割网络的步骤,包括:
S2011、基于应用场景,设计语义分割网络结构,包括编码器和解码器,编码器重复卷积和下采样操作,解码器重复卷积和上采样操作;最后一个卷积层输出特征图的数量设置为4,分别对应应用场景下的机械腿上部、机械腿下部、水田表面和特定类别;
S2012、采集水田机器人视角下的图像,对图像中的不同类别进行标记,形成语义分割网络的数据集;将所述数据集用于语义分割网络的训练,计算标记图像和网络输出的差异,反向调整语义分割网络的参数数值。
S202、在任务开始后,调用训练好的语义分割网络,对采集到的图像进行像素级分割,得到类别图像。
S203、基于类别图像,判断水田表面掩盖位置是否超过所述机械腿预警位置;如果掩盖位置在所述预警位置以下,则重复执行步骤S2;如果掩盖位置在所述预警位置以上,则跳转到步骤S3;其中,判断水田表面掩码位置的步骤,包括:
S2031、对类别图像进行二值化,将机械腿下部像素设置为1,其它像素设置为0;
S2032、对二值化图像进行连通域分析,将最大的连通域定义为机械腿下部,计算该连通域最小外接矩形,选择最小外接矩形较长一边的长度作为机械腿裸露部分长度;判断所述裸露部分长度是否超过机械腿下部的一半,如果裸露部分长度小于机械腿下部长度的一半,则水田表面已经超过预警位置;其中,图像空间中机械腿下部长度在实验前预先测定。
S3、所述机器人将当前时刻的类别图像减去上一时刻的类别图像,作为当前时刻状态,调用强化学习模型,输入当前时刻状态,获得每一种执行动作的分数值,取分值最高的动作作为决策结果,具体过程如下:
S301、在任务开始前,获取机械腿长度调整决策的强化学习模型,将其部署到机器人机载芯片中;其中,获取机械腿长度调整决策的强化学习模型的步骤,包括:
S3011、基于应用场景,设计强化学习模型的网络结构;所述强化学习模型为一个卷积分类网络,包括卷积层、池化层和全连接层;最后一个全连接层的神经元数量设置为5,分别对应5种执行动作的分数,该5种执行动作包括将PWM电路的占空比提高0.1、将PWM电路的占空比提高0.05、保持PWM电路的占空比不变、将PWM电路的占空比降低0.05、将PWM电路的占空比提高0.1;
S3012、在水田环境下,采集训练数据并进行在线训练,每一条训练数据包括当前时刻状态、执行动作、下一时刻状态和奖励值;其中,在线训练过程包括:
步骤a:采集机械腿图像,进行语义分割获取类别图像;判断水田表面在机械腿上的掩盖位置,若掩盖位置在预警位置与终止位置之间,则为有效训练状态;若掩盖位置在终止位置以上或预警位置以下,则为无效训练状态;
步骤b:若当前为有效训练状态,将当前时刻类别图像减去上一时刻类别图像,获得当前时刻状态,训练过程采用决策模型与目标模型,两个模型是结构相同的强化学习模型且初始参数相同;将当前状态输入决策模型,获得不同动作的分数;
步骤c:决策方式有两种,分别是决策模型输出的最高分数对应的执行动作、随机选择的动作;按照随机策略,选择决策方式,获得决策的执行动作,按照所述执行动作调整PWM电路的占空比,调整机械腿长度;
步骤d:获取下一时刻类别图像,减去当前时刻类别图像,作为下一时刻的状态;由步骤b-d可获取一条训练数据,其中奖励值恒等于1;所述训练数据放入经验回放池;
步骤e:从经验回放池中随机抽取一组数据(st,at,st+1,rt);其中,st代表当前时刻状态,at代表当前时刻的执行动作,st+1代表下一时刻状态,rt代表当前时刻奖励;将该组数据中的当前状态st输入决策模型Q,获取数据中执行动作at对应的分数Q(st,at);训练数据中的下一时刻状态输入目标模型Q′,获得目标模型最大的输出分数max(Q′(st+1));若训练数据中下一时刻状态为无效训练状态,则目标模型的最大输出分数为1;根据下式计算决策模型的误差,按照反向传播调整决策模型的参数数值:
err=(Q(st,at)-rt-max(Q′(st+1)))2
其中,err代表训练误差;
步骤f:定期更新目标模型,更新时使得目标模型的参数数值等于决策模型;
步骤g:训练结束后,将所述决策模型部署至机器人机载芯片。
S302、在执行任务过程中,所述机器人将当前时刻类别图像减去上一时刻类别图像,获得当前时刻状态;将当前时刻状态输入所述决策模型,获得每一种动作的分数,取分值最高对应的动作作为执行动作。
S4、所述机器人的机载芯片根据决策模型的决策结果,调整PWM电路的占空比,改变PWM电路的输出电压,具体过程如下:
S401、根据强化学习模型的决策结果,更新PWM电路的占空比,如下:
dt+1=dt+Δt,s.t.0≤dt+1≤1
其中,dt+1和dt为当前时刻和上一时刻的占空比,Δt为决策的执行动作的占空比更改量。
S402、机器人通过改变PWM电路占空比,改变PWM电路的输出电压;所述PWM电路的输出连接固定大小的负载导体,所述负载导体在磁场环境下由于通电受到向上的磁场力,若所述磁场力大于机械腿所受重力,机械腿上部受到向上的合力,机械腿上部向上移动,机械腿长度增加;反之长度减小。
S5、在所述第一机械腿停止下陷且趋于稳定后,所述机器人停止图像采集与分析,抬起第二机械腿,向前行走并放下第二机械腿;在所述第二机械腿放下过程中,所述机器人重新开启机器视觉并采用上述第一机械腿的调整方式来调整第二机械腿长度,保证双足机器人的状态趋于稳定。
参见图2所示,本实施例也提供了一种基于强化学习的水田机器人机械腿长度调整系统,包括:
机械腿识别单元,用于对采集到的图像进行语义分割,得到像素级分类的类别图像;其中,进行语义分割采用的语义分割网络包括编码器和解码器,编码层重复卷积和下采样操作,解码层重复卷积和上采样操作;分类类别共有4个类别,包括机械腿上部、机械腿下部、水田表面和特定类别;
机械腿长度调整决策单元,用于获取机械腿长度调整动作;其中,所述机械腿长度调整决策单元采用的决策模型为强化学习模型;所述决策模型将当前时刻类别图像减去上一时刻类别图像,得到当前时刻状态;机器人将当前时刻状态输入决策模型,获得各种动作的分数,取分值最高的动作作为决策的执行动作;
机械腿长度调整执行单元,用于执行决策模型输出的动作,从而改变机械腿长度;所述机械腿长度调整执行单元为一个PWM电路,所述决策模型输出的执行动作为PWM电路占空比的改变量;所述PWM电路的输出连接固定大小的负载导体,所述负载导体安装于机械腿上部并置于磁场之中;所述负载导体在磁场环境下由于通电受到向上的磁场力;所述PWM电路输出电压改变造成通电电流改变,进而引起所受磁场力的改变;若所述磁场力大于机械腿所受重力,机械腿上部受到向上的合力,机械腿上部向上移动,机械腿长度增加;反之长度减小。
参见图3所示,为本实施例上述机械腿长度调整执行单元的结构示意图,图中1为机械腿上部,2为机械腿下部,3为电磁铁(即负载导体),4为通电电路。其中,所述机械腿上部1的底部宽度大于顶部宽度,所述机械腿上部1的底部宽度与机械腿下部2宽度一致;所述机械腿上部与下部之间存在空隙,在机械腿上部1受力发生滑动时,机械腿上下部中间的空隙大小发生变化,进而导致机械腿长度发生变化;所述通电电路4的电流大小由PWM输出电压控制;所述电磁铁3置于磁场之中,在通电情况下受到向上的磁场力;在所受磁场力大小变化的情况下,机械腿上部1发生滑动进而改变机械腿的长度。
以上所述实施例只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。
Claims (5)
1.基于强化学习的水田机器人机械腿长度调整方法,其特征在于,包括以下步骤:
S1、水田机器人根据作业规划行走在水田环境中,按照固定时间间隔驱动其顶部摄像头采集机械腿腿部的图像,即机器人开启机器视觉采集图像;其中,所述水田机器人为双足机器人,即带有两个机械腿,分别为第一机械腿和第二机械腿;所述机械腿分为上、下两部分,该两部分中间存在空隙并能够相互滑动,当机械腿的上部受力发生改变且产生滑动时,两部分中间间隙大小也随之发生改变,进而导致机械腿的长度发生变化;所述机械腿标注有预警位置和终止位置,预警位置位于机械腿下部中间、终止位置位于机械腿上部中间;若当前动作为机械腿放下且水田表面盖过预警位置时,所述机器人开始启动强化学习决策调整机械腿长度,当水田表面盖过终止位置时,任务失败进入终止状态;所述水田表面包括处于水田表面的水或土壤;
S2、在所述第一机械腿放下过程中,所述机器人的机载芯片通过有线连接的方式实时获取摄像头采集的图像,并基于语义分割网络进行像素级的识别,获得类别图像,根据类别图像判断水田表面在机械腿的掩盖位置;其中,所述语义分割网络识别的类别包括水田表面、机械腿上部和机械腿下部;
S3、所述机器人将当前时刻的类别图像减去上一时刻的类别图像,作为当前时刻状态,调用强化学习模型,输入当前时刻状态,获得每一种执行动作的分数值,取分值最高的动作作为决策结果;其中,所述机器人的执行动作包括将PWM电路的占空比提高0.1、将PWM电路的占空比提高0.05、保持PWM电路的占空比不变、将PWM电路的占空比降低0.05、将PWM电路的占空比提高0.1;
S4、所述机器人的机载芯片根据强化学习模型的决策结果,调整PWM电路的占空比,改变PWM电路的输出电压;其中,所述PWM电路的输出连接固定大小的负载导体,所述负载导体安装于机械腿的上部并置于磁场之中,负载导体在通电情况下受到向上的磁场力,由于PWM输出电压改变导致受到的磁场力改变,引起机械腿上部产生滑动,进而改变机械腿长度;
S5、在所述第一机械腿停止下陷且趋于稳定后,所述机器人停止图像采集与分析,抬起第二机械腿,向前行走并放下第二机械腿;在所述第二机械腿放下过程中,所述机器人重新开启机器视觉并采用上述第一机械腿的调整方式来调整第二机械腿长度,保证双足机器人的状态趋于稳定。
2.根据权利要求1所述的基于强化学习的水田机器人机械腿长度调整方法,其特征在于,所述步骤S2包括以下步骤:
S201、在任务开始前,获取所需的语义分割网络,部署到机器人的机载芯片上;其中,获取所需的语义分割网络的步骤,包括:
S2011、基于应用场景,设计语义分割网络结构,包括编码器和解码器,编码器重复卷积和下采样操作,解码器重复卷积和上采样操作;最后一个卷积层输出特征图的数量设置为4,分别对应应用场景下的机械腿上部、机械腿下部、水田表面和特定类别;
S2012、采集水田机器人视角下的图像,对图像中的不同类别进行标记,形成语义分割网络的数据集;将所述数据集用于语义分割网络的训练,计算标记图像和网络输出的差异,反向调整语义分割网络的参数数值;
S202、在任务开始后,调用训练好的语义分割网络,对采集到的图像进行像素级分割,得到类别图像;
S203、基于类别图像,判断水田表面掩盖位置是否超过所述机械腿预警位置;如果掩盖位置在所述预警位置以下,则重复执行步骤S2;如果掩盖位置在所述预警位置以上,则跳转到步骤S3;其中,判断水田表面掩码位置的步骤,包括:
S2031、对类别图像进行二值化,将机械腿下部像素设置为1,其它像素设置为0;
S2032、对二值化图像进行连通域分析,将最大的连通域定义为机械腿下部,计算该连通域最小外接矩形,选择最小外接矩形较长一边的长度作为机械腿裸露部分长度;判断所述裸露部分长度是否超过机械腿下部的一半,如果裸露部分长度小于机械腿下部长度的一半,则水田表面已经超过预警位置。
3.根据权利要求1所述的基于强化学习的水田机器人机械腿长度调整方法,其特征在于,所述步骤S3包括以下步骤:
S301、在任务开始前,获取机械腿长度调整决策的强化学习模型,将其部署到机器人机载芯片中;其中,获取机械腿长度调整决策的强化学习模型的步骤,包括:
S3011、基于应用场景,设计强化学习模型的网络结构;所述强化学习模型为一个卷积分类网络,包括卷积层、池化层和全连接层;最后一个全连接层的神经元数量设置为5,分别对应5种执行动作的分数,该5种执行动作包括将PWM电路的占空比提高0.1、将PWM电路的占空比提高0.05、保持PWM电路的占空比不变、将PWM电路的占空比降低0.05、将PWM电路的占空比提高0.1;
S3012、在水田环境下,采集训练数据并进行在线训练,每一条训练数据包括当前时刻状态、执行动作、下一时刻状态和奖励值;其中,在线训练过程包括:
步骤a:采集机械腿图像,进行语义分割获取类别图像;判断水田表面在机械腿上的掩盖位置,若掩盖位置在预警位置与终止位置之间,则为有效训练状态;若掩盖位置在终止位置以上或预警位置以下,则为无效训练状态;
步骤b:若当前为有效训练状态,将当前时刻类别图像减去上一时刻类别图像,获得当前时刻状态,训练过程采用决策模型与目标模型,两个模型是结构相同的强化学习模型且初始参数相同;将当前状态输入决策模型,获得不同动作的分数;
步骤c:决策方式有两种,分别是决策模型输出的最高分数对应的执行动作、随机选择的动作;按照随机策略,选择决策方式,获得决策的执行动作,按照所述执行动作调整PWM电路的占空比,调整机械腿长度;
步骤d:获取下一时刻类别图像,减去当前时刻类别图像,作为下一时刻的状态;由步骤b-d能够获取一条训练数据,其中奖励值恒等于1;所述训练数据放入经验回放池;
步骤e:从经验回放池中随机抽取一组数据(st,at,st+1,rt);其中,st代表当前时刻状态,at代表当前时刻的执行动作,st+1代表下一时刻状态,rt代表当前时刻奖励;将该组数据中的当前状态st输入决策模型Q,获取数据中执行动作at对应的分数Q(st,at);训练数据中的下一时刻状态输入目标模型Q′,获得目标模型最大的输出分数max(Q′(st+1));若训练数据中下一时刻状态为无效训练状态,则目标模型的最大输出分数为1;根据下式计算决策模型的误差,按照反向传播调整决策模型的参数数值:
err=(Q(st,at)-rt-max(Q′(st+1)))2
其中,err代表训练误差;
步骤f:定期更新目标模型,更新时使得目标模型的参数数值等于决策模型;
步骤g:训练结束后,将所述决策模型部署至机器人机载芯片;
S302、在执行任务过程中,所述机器人将当前时刻类别图像减去上一时刻类别图像,获得当前时刻状态;将当前时刻状态输入所述决策模型,获得每一种动作的分数,取分值最高对应的动作作为执行动作。
4.根据权利要求1所述的基于强化学习的水田机器人机械腿长度调整方法,其特征在于,所述步骤S4包括以下步骤:
S401、根据强化学习模型的决策结果,更新PWM电路的占空比,如下:
dt+1=dt+Δt,s.t.0≤dt+1≤1
其中,dt+1和dt为当前时刻和上一时刻的占空比,Δt为决策的执行动作的占空比更改量;
S402、机器人通过改变PWM电路占空比,改变PWM电路的输出电压;所述PWM电路的输出连接固定大小的负载导体,所述负载导体在磁场环境下由于通电受到向上的磁场力,若所述磁场力大于机械腿所受重力,机械腿上部受到向上的合力,机械腿上部向上移动,机械腿长度增加;反之长度减小。
5.基于强化学习的水田机器人机械腿长度调整系统,其特征在于,包括:
机械腿识别单元,用于对采集到的图像进行语义分割,得到像素级分类的类别图像;其中,进行语义分割采用的语义分割网络包括编码器和解码器,编码层重复卷积和下采样操作,解码层重复卷积和上采样操作;分类类别共有4个类别,包括机械腿上部、机械腿下部、水田表面和特定类别;
机械腿长度调整决策单元,用于获取机械腿长度调整动作;其中,所述机械腿长度调整决策单元采用的决策模型为强化学习模型;所述决策模型将当前时刻类别图像减去上一时刻类别图像,得到当前时刻状态;机器人将当前时刻状态输入决策模型,获得各种动作的分数,取分值最高的动作作为决策的执行动作;
机械腿长度调整执行单元,用于执行决策模型输出的动作,从而改变机械腿长度;所述机械腿长度调整执行单元为一个PWM电路,所述决策模型输出的执行动作为PWM电路占空比的改变量;所述PWM电路的输出连接固定大小的负载导体,所述负载导体安装于机械腿上部并置于磁场之中;所述负载导体在磁场环境下由于通电受到向上的磁场力;所述PWM电路输出电压改变造成通电电流改变,进而引起所受磁场力的改变;若所述磁场力大于机械腿所受重力,机械腿上部受到向上的合力,机械腿上部向上移动,机械腿长度增加;反之长度减小。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011164173.9A CN112232350B (zh) | 2020-10-27 | 2020-10-27 | 基于强化学习的水田机器人机械腿长度调整方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011164173.9A CN112232350B (zh) | 2020-10-27 | 2020-10-27 | 基于强化学习的水田机器人机械腿长度调整方法与系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112232350A true CN112232350A (zh) | 2021-01-15 |
CN112232350B CN112232350B (zh) | 2022-04-19 |
Family
ID=74110183
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011164173.9A Active CN112232350B (zh) | 2020-10-27 | 2020-10-27 | 基于强化学习的水田机器人机械腿长度调整方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112232350B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113110459A (zh) * | 2021-04-20 | 2021-07-13 | 上海交通大学 | 一种多足机器人运动规划方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1510446A2 (en) * | 2003-08-25 | 2005-03-02 | Sony Corporation | Robot and attitude control method of robot |
CN106094813A (zh) * | 2016-05-26 | 2016-11-09 | 华南理工大学 | 基于模型相关强化学习的仿人机器人步态控制方法 |
CN106112985A (zh) * | 2016-08-11 | 2016-11-16 | 上海交通大学 | 下肢助行机器的外骨骼混合控制系统及方法 |
CN108550162A (zh) * | 2018-03-27 | 2018-09-18 | 清华大学 | 一种基于深度强化学习的物体检测方法 |
CN108762281A (zh) * | 2018-06-08 | 2018-11-06 | 哈尔滨工程大学 | 一种基于记忆关联强化学习的嵌入式实时水下机器人智能决策方法 |
CN108983804A (zh) * | 2018-08-27 | 2018-12-11 | 燕山大学 | 一种基于深度强化学习的双足机器人步态规划方法 |
CN110174118A (zh) * | 2019-05-29 | 2019-08-27 | 北京洛必德科技有限公司 | 基于强化学习的机器人多目标搜索路径规划方法和装置 |
CN110695959A (zh) * | 2019-08-27 | 2020-01-17 | 成都锦江电子系统工程有限公司 | 外骨骼机器人及其控制系统 |
US20200070346A1 (en) * | 2018-08-28 | 2020-03-05 | Kabushiki Kaisha Toshiba | Robot control device, robot control parameter adjustment method, and non-transitory storage medium storing program |
CN110866922A (zh) * | 2019-11-19 | 2020-03-06 | 中山大学 | 基于强化学习和迁移学习的图像语义分割模型及建模方法 |
CN111645065A (zh) * | 2020-03-25 | 2020-09-11 | 南京大学 | 一种基于深度强化学习的机械臂运动规划方法 |
-
2020
- 2020-10-27 CN CN202011164173.9A patent/CN112232350B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1510446A2 (en) * | 2003-08-25 | 2005-03-02 | Sony Corporation | Robot and attitude control method of robot |
CN106094813A (zh) * | 2016-05-26 | 2016-11-09 | 华南理工大学 | 基于模型相关强化学习的仿人机器人步态控制方法 |
CN106112985A (zh) * | 2016-08-11 | 2016-11-16 | 上海交通大学 | 下肢助行机器的外骨骼混合控制系统及方法 |
CN108550162A (zh) * | 2018-03-27 | 2018-09-18 | 清华大学 | 一种基于深度强化学习的物体检测方法 |
CN108762281A (zh) * | 2018-06-08 | 2018-11-06 | 哈尔滨工程大学 | 一种基于记忆关联强化学习的嵌入式实时水下机器人智能决策方法 |
CN108983804A (zh) * | 2018-08-27 | 2018-12-11 | 燕山大学 | 一种基于深度强化学习的双足机器人步态规划方法 |
US20200070346A1 (en) * | 2018-08-28 | 2020-03-05 | Kabushiki Kaisha Toshiba | Robot control device, robot control parameter adjustment method, and non-transitory storage medium storing program |
CN110174118A (zh) * | 2019-05-29 | 2019-08-27 | 北京洛必德科技有限公司 | 基于强化学习的机器人多目标搜索路径规划方法和装置 |
CN110695959A (zh) * | 2019-08-27 | 2020-01-17 | 成都锦江电子系统工程有限公司 | 外骨骼机器人及其控制系统 |
CN110866922A (zh) * | 2019-11-19 | 2020-03-06 | 中山大学 | 基于强化学习和迁移学习的图像语义分割模型及建模方法 |
CN111645065A (zh) * | 2020-03-25 | 2020-09-11 | 南京大学 | 一种基于深度强化学习的机械臂运动规划方法 |
Non-Patent Citations (2)
Title |
---|
卜令正: "基于深度学习的机械臂控制研究", <中国优秀博硕士学位论文全文数据库> * |
彭自强: "基于Q学习和神经网络的双足机器人控制", 《中国优秀博硕士学位论文全文数据库》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113110459A (zh) * | 2021-04-20 | 2021-07-13 | 上海交通大学 | 一种多足机器人运动规划方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112232350B (zh) | 2022-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107403426B (zh) | 一种目标物体检测方法及设备 | |
CN110647839B (zh) | 自动驾驶策略的生成方法、装置及计算机可读存储介质 | |
CN112136505B (zh) | 一种基于视觉选择注意机制的水果采摘顺序规划方法 | |
Guo et al. | Deep learning for real-time Atari game play using offline Monte-Carlo tree search planning | |
Sumpter et al. | Learning spatio-temporal patterns for predicting object behaviour | |
US6718232B2 (en) | Robot device and behavior control method for robot device | |
CN112232350B (zh) | 基于强化学习的水田机器人机械腿长度调整方法与系统 | |
CN102509086B (zh) | 一种基于目标姿态预测及多特征融合的行人目标检测方法 | |
CN109241903A (zh) | 样本数据清洗方法、装置、计算机设备及存储介质 | |
CN102043956B (zh) | 特征点定位装置、其处理方法及图像识别装置 | |
CN110322510A (zh) | 一种利用轮廓信息的6d位姿估计方法 | |
CN110251004A (zh) | 扫地机器人及其清扫方法和计算机可读存储介质 | |
CN109064514A (zh) | 一种基于投影点坐标回归的六自由度位姿估计算法 | |
CN104463165A (zh) | 一种融合Canny算子与Vibe算法的目标检测方法 | |
JP6824339B2 (ja) | 画像生成装置の学習方法 | |
JP6846062B2 (ja) | 近接障害物の下段ライン及び上段ラインを検出し、物体存在性を検出する学習方法及び学習装置、そしてこれを利用したテスト方法及びテスト装置{learning method, learning device for detecting objectness by detecting bottom line and top line of nearest obstacles and testing method, testing device using the same} | |
DE102019216560B4 (de) | Verfahren und Vorrichtung zum Trainieren von Manipulationsfertigkeiten eines Robotersystems | |
CN109818929A (zh) | 基于主动自步学习的未知威胁感知方法、系统、存储介质、终端 | |
JP6865342B2 (ja) | Cnn基盤車線検出のための学習方法及び学習装置、そしてこれを利用したテスト方法及びテスト装置 | |
CN109978847A (zh) | 基于迁移学习与拉索机器人的拉索外套病害自动识别方法 | |
CN108256489A (zh) | 基于深度强化学习的行为预测方法及装置 | |
CN107065563A (zh) | 一种基于三维模糊ptp算法的单体机器鱼行为控制策略 | |
CN109190471A (zh) | 基于自然语言描述的视频监控行人搜索的注意力模型方法 | |
CN106373135A (zh) | 一种基于颜色的害虫识别计数方法 | |
CN105740796B (zh) | 一种基于灰度直方图的透视变换后车道线图像二值化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |