CN107944476A - 一种基于深度强化学习的黄桃挖核机器人行为控制方法 - Google Patents

一种基于深度强化学习的黄桃挖核机器人行为控制方法 Download PDF

Info

Publication number
CN107944476A
CN107944476A CN201711102908.3A CN201711102908A CN107944476A CN 107944476 A CN107944476 A CN 107944476A CN 201711102908 A CN201711102908 A CN 201711102908A CN 107944476 A CN107944476 A CN 107944476A
Authority
CN
China
Prior art keywords
mrow
peach
msup
mtr
mtd
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711102908.3A
Other languages
English (en)
Other versions
CN107944476B (zh
Inventor
葛宏伟
林娇娇
孙亮
赵明德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN201711102908.3A priority Critical patent/CN107944476B/zh
Publication of CN107944476A publication Critical patent/CN107944476A/zh
Application granted granted Critical
Publication of CN107944476B publication Critical patent/CN107944476B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1679Programme controls characterised by the tasks executed
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Abstract

本发明属于计算机应用及人工智能技术领域,涉及一种基于深度强化学习的黄桃挖核机器人行为控制策略。针对传统的机械控制方法难以有效的对黄桃挖核机器人进行行为控制问题,本发明提出了一种基于深度强化学习的方法对具有视觉功能的黄桃挖核机器人进行行为控制,以期提高其工作性能。本发明发挥了深度学习的感知能力和强化学习的决策能力,使机器人能够利用深度学习识别桃核状态,进而,通过强化学习的方法指导单片机控制电机挖除桃核,以最终完成挖核任务。本发明对于利用机器代替人工劳力的挖核任务具有优势。

Description

一种基于深度强化学习的黄桃挖核机器人行为控制方法
技术领域
本发明属于计算机应用及人工智能技术领域,涉及一种基于深度强化学习 的黄桃挖核机器人行为控制方法。
背景技术
随着社会的发展和技术的进步,劳动力短缺以及劳动力价格的不断攀升等 社会问题的出现,极大的促进了工业机器人的研究、应用与普及。近年来,工 业机器人的研究和应用一直是科学研究和社会关注的热点之一。但由于工业机 器人要求较高的灵巧性、较高的稳定性、较高的环境容忍度等技术因素,一直 困扰着工业机器人的研发和应用。早期的工业机器人是机电一体化的产物,而 随着市场对工业机器人性能的要求不断提高,使得计算机技术、图像识别技术 等更高层次的技术不断的融入到工业机器人中,从而提高工业机器人的性能。 具有视觉功能的工业机器人可以完成普通工业机器人难以完成的复杂工作,对 于代替劳动力极具优势。
目前带有视觉功能的工业机器人还不是非常普遍,工业机器人一般是通过 开环的机械臂、机械手等一系列机械结构,模拟人的动作,来代替劳动力工作, 实现社会生产。工业机器人的工作过程一般是采集信息、处理信息、执行动作、 反馈信息等步骤。其中,采集信息、反馈信息主要依靠传感器,在特殊的环境 下,视觉传感器便显得格外重要。甚至某些工作离开了摄像头就没法实现。我 国的工业机器人研发主要是由中科院沈阳自动化研究所、哈尔滨工业大学、清 华大学、上海交通大学等机构和高校为主,并成立了相关的工业机器人研究基 地,已经取得了令人瞩目的成绩。如哈工大研究所研发的码垛机器人,已经取 得了非常好的效果,并已投产使用。哈工大机器人集团还研制了其他领域的工 业机器人,都取得了非常好的成绩。沈阳新松自动化有限公司研发的通用工业 机器人,打破了许多国际垄断技术和技术封锁,代替了大量的进口工业机器人, 许多技术填补了我国的多项空白。许多产品成为美国知名企业的重点采购对象。 常州铭赛机器人科技有限公司研发的基于机器视觉的点焊机器人,也取得了显 著的成绩。目前也大量应用于电路板焊制等工作上,制作电路板的精度非常高, 质量远远超过人工制作的电路板,产生了非常大的经济效益和社会效益。
国际上,日本的著名学者S.Murakami研究设计了一款基于机器视觉的焊接 机器人,它的原理是采用图像识别技术进行识别,并使用神经网络算法对处理 过的图像进行识别,并识别得到要焊接的形状,从而可以有效地进行跟踪焊接, 大大提高了焊接的精准度。澳大利亚的西部大学研发了一款工业机器人,机器 人具有六自由度,它的原理是使用多目摄像头进行空间定位,通过摄像头数据 进行3D重建,生成空间坐标,得到景深数据,并目标物进行图像识别,得到目 标物具体的位置,可以进行汽车的装配等工作,其精确度非常高。此工业机器 人甚至根据不间断的拍照计算的空间坐标系得出机器人目前的位置。目前许多 国际大公司都使用工业机器人进行装配,尤其是许多汽车生产公司。可以通过 多目摄像头进行三维空间生成和模式识别,从而可以进行密封的汽车装配。瑞 士的SIG公司研发了一种基于机器视觉的能够在传送带自动分拣货物的机器人, 可以适应高速状态,实现快速的分拣。其可以通过图像进行定位,可以取下传 送带上的随机物品,同时并摆放到指定的位置。
尽管如此,我国在许多劳动密集型领域中工业机器人仍是起步状体,需要 更多的工业机器人投入到市场,以解决我国目前劳动力紧缺和劳动力价格攀升 的现状。目前黄桃罐头加工厂的黄桃挖核环节都是人工挖核,市场上已有机器 的挖核效果远远低于人工挖核水平。另外,国外的一个自动化生产设备昂贵, 并且不能适应国内的黄桃品种,而且挖核的质量远不及人工,这种机器加工的 黄桃只能适用于中低端市场,无法适用于高端市场。所以工厂是都是采用人工 去核。由于食品制作对卫生要求很高,工人必须穿着包裹整个身体的工作服、 工作靴和佩戴帽子和口罩,而黄桃罐头的产季集中在七、八月份,天气酷热,使得工人承受心理和生理的考验,导致罐头厂招人非常困难。另外,人工挖核 的质量随个体差异具有优劣,不能完全保证挖核的品质。用于挖核的机器人由 于黄桃的桃核形状不一,很难用传统的机械控制方法进行挖核的行为策略控制。
深度强化学习以深度学习做感知,强化学习训练策略,并且以深度神经网 络作为策略载体。相比于传统的多模块组合,深度强化学习实现了从感知到控 制的端到端直接训练,减少了模块间信息损失(Michael L.Littman.Reinforcement learning improvesbehaviour from evaluative feedback[J].Nature,2015,521(7553): 445-451.)。近两年,Google Deep Mind团队在连续性动作控制,异步训练,分布 式训练等都有重要突破,为智能机器人的研发奠定理论和实践基础(V Mnih,K Kavukcuoglu,D Silver,AA Rusu,JVeness.Human-level control through deep reinforcement learning[J].Nature,2015,518(7540):529.)。在特定任务的应用上, 深度增强学习已有广泛实践尝试,例如流水线机器人。
本专利基于深度强化学习研究具有视觉功能的黄桃挖核机器人的行为控制 策略,以期提高其工作性能。深度学习具有很强的表示能力,使用方便,但其 决策能力却不是很好;强化学习具有很好的决策能力,但很难处理状态空间和 动作空间巨大的情形,本专利将深度学习与强化学习结合在一起,充分发挥深 度学习的感知能力和强化学习的决策能力,使机器人能够利用深度学习识别的 桃核状态根据强化学习获得的策略矩阵指导单片机控制电机挖除桃核,最终完 成任务。
发明内容
针对传统的机械控制方法难以有效的对黄桃挖核机器人进行行为策略控制, 本发明提出了一种基于深度强化学习研究具有视觉功能的黄桃挖核机器人的行 为控制策略,以期提高其工作性能。在机器人硬件方面,搭建的挖核机器人主 要使用了工控机和stm32单片机,工控机和单片机分工协同工作,工控机的作 用主要是获取图像、处理图像、执行算法,单片机的作用主要是直接控制电机, 二者通过USB接口进行通信。在控制算法方面,本专利通过深度学习实现黄桃 挖核机器人桃核状态识别的工作,通过强化学习实现行为策略的控制。在应用 上,工控机作为处理器,搭建caffe和matlab平台,caffe将图像处理后的状态 数据通过接口传递给matlab,matlab再根据训练好的策略矩阵选择最优动作,并将动作数据通过usb接口传送给stm32单片机,由单片机控制电机执行动作。
本发明的技术方案:
一种基于深度强化学习的黄桃挖核机器人行为控制方法,步骤如下:
(1)特征提取
首先利用深度学习方法进行特征提取,建立训练集和测试集;其中,使用 10000张黄桃剖面图片作为训练集,分为360个类别,每个类别相差1°转角, 测试集中包含500张桃核图片;训练集和测试集的图片均具有标签的;使用具 有5层的卷积神经网络对训练集的核桃状态进行特征提取;
(2)构建桃核图像的分类器
采用softmax分类器对黄桃剖面图片进行分类,由于黄桃剖面图片分为360 个类,因为分类的输出为360维的向量;
首先确定分类器基本的决策规则,然后确定用来划分类别的阈值;用已知 的黄桃剖面图片来训练分类器,已知的训练集是由已经被标记过的对象组成, 提取这些对象的特征,然后利用分类器的决策面把特征向量划分成不同的区域, 最终获得输入桃核图像的类别;
具体地,把标准的人工挖核的桃核核尖的指向作为标准值,把摄像机实际 获取的图像的桃核核尖指向偏离标准值的角度每一度分为1个类,有360个类, 即类别数k=360;softmax分类器函数hθ(x)形式如公式(1)所示:
其中,θ12,…,θk是模型的参数,x(i)是第i个输入样本,y(i)是第i个输入样 本对应的类别,这一项是对概率分布进行归一化,使得所有的概率之 和为1;
(3)建立强化学习的动作集
搭建的黄桃挖核机器人为6轴机器人,由6个伺服电机协同工作,完成黄 桃的挖核工作,6个伺服电机的布置位置分别为:旋转底盘布置1个伺服电机、 摩擦轮机构布置2个伺服电机、刀具机构布置2个伺服电机、下料机构布置1 个伺服电机;将伺服电机旋转一周视为360个动作,即每一整数角度都为一个 动作,6个伺服电机共有360*6=2160个动作,形成动作集;
(4)建立强化学习的策略函数和值函数,获得最优的挖核行为控制策略
将特征提取步骤中,由卷积神经网络获得的状态信息作为强化学习的输入; 由策略函数根据状态信息,执行相应的动作,然后获取回报,接着根据新的状 态继续执行新的动作,直至结束;由于共6个伺服电机,执行过程分6步,由6 个伺服电机分别执行,立即回报由距离目标位置的角度组成,包括两个部分: 一个是旋转底盘距离目标位置的角度,一个是桃子托盘距离目标位置的角度; 每一个的角度距离目标位置越近,立即回报越高;因此,立即回报由这两个角 度所得的回报两部分组成,设计成如式(2)所示:
其中:T为常量,ψ1为旋转底盘所要到达的目标位置角度,为旋转底盘位 置的当前角度,ψ2为桃子托盘所要达到的目标位置,为桃子托盘的当前位置, st是当前时刻的状态,at是在当前状态下选择的动作,r是在状态st下选择动作at所能获得的立即回报;
策略函数π(·)根据当前状态,从动作集中选择合适的动作,表示为at=π(st); 即实现从桃子状态到电机转动角度的映射;桃子状态就是黄桃剖面图片,动作 就是电机要转动的角度,通过强化学习训练出一个从黄桃剖面到电机转动角度 的表,通过查表的方式完成策略函数,最终得到最优的黄桃挖核行为控制策略;
(5)基于行为控制策略的机器人动作协同过程
首先将黄桃放置在桃子托盘上,机器人拍照获取桃子图像,经过深度学习 得到桃子图像状态,然后运行底部托盘电机,使其运动到下一个工位;下一个 工位为调整装置,包括两个动作:一个是伸缩机械手臂,将调整装置与桃子托 盘接触;另一个是摩擦轮,通过摩擦轮调整桃子托盘,使得桃子托盘运动,从 而改变桃子状态;接着底部托盘继续运动,使其运动到下一个工位,此部分也 包括两个动作:升降平台和挖核机构;升降平台的作用是移动挖核机构,挖核 机构的作用是夹持刀具去掉桃核,去掉核之后,底部托盘继续运动,到达下一 个工位,由下料机构将桃子取下;以上动作的执行以及执行顺序不是由人工设 计,而是由强化学习算法自主学习获得;另外以上动作中,每一个动作执行后 都需要摄像头获取图像,从而得到桃子状态。
本发明的有益效果:本发明将深度学习与强化学习结合在一起,充分发挥 深度学习的感知能力和强化学习的决策能力,使机器人能够利用深度学习识别 的桃核状态,进而,通过强化学习的方法指导单片机控制电机挖除桃核,以最 终完成挖核任务。本发明对于代替人工劳动力的挖核任务具有优势。
附图说明
图1是本发明的算法流程图。
图2是基于CNN的桃核特征提取结构流程图。
图3是桃剖面图像训练集部分实例图。
图4是CNN训练的损失曲线。
图5是不同方法得到的黄桃图像样本分类结果示意图;
图5(a)、5(b)、5(c)、5(d)依次为使用桃子对称轴法、桃核对称轴法、桃核偏 心距法以及深度学习方法,得到的500个测试样本的状态识别角度与实际值的 偏差。
图6是强化学习模型获得的总回报值曲线。
图7是挖核效果对比图。
图7(a)和图7(b)为传统的机器挖核方法获得的效果图。
图7(c)和图7(d)为基于深度强化学习行为控制策略的机器挖核方法获得的 效果图。
具体实施方式
所论述的具体实施例仅用于说明本发明的实现方式,而不限制本发明的范 围。下面结合附图对本发明的实施方式进行详细说明。
算法总体流程如图1所示。以下进行详细说明。
1、特征提取。
建立训练集和测试集。其中,使用10000张黄桃剖面图来作为训练集,分 为360个类别(每个类别相差1°转角),测试集中包含500张黄桃剖面图。训 练集和测试集的图片是具有标签的。使用具有5层的卷积神经网络(CNN)对 核桃状态进行获取。为在caffe平台下训练CNN模型,黄桃剖面图通过统一命 名方式连续编码,并将原始数据转化为Caffe处理的数据类型lmdb格式。在原 始数据格式转化后,为了提高训练和测试的速度和精度,需要对桃核图像进行 计算均值。统一命名、格式转换和计算均值是对图片的预处理。进而使用具有5 层的卷积神经网络(CNN)对核桃状态进行特征提取。用于桃核特征提取的卷 积神经网络结构,如图2所示。在对桃核特征提取的过程中,训练集为10000 张黄桃剖面图,如图3所示。在训练过程中,每迭代一次训练图片200张,最 大迭代次数为5000次。从图4中我们可以看出,随着迭代次数的增加,损失越 来越低,逐渐收敛。
2、构建桃核图像的分类器。
采用softmax分类器对桃核图像进行分类。在黄桃挖核机器人的工业化需求 中,实际的黄桃挖核容忍的入刀点与桃核尖的角度偏差为1度,如果超过1度, 下刀的深度将受到影响,将影响实际的水果果肉的留存率。实验中把标准的人 工挖核的桃核核尖的指向作为标准值,而把摄像机实际获取的图像的桃核核尖 指向偏离标准值的角度每一度分为1个类,有360个类。softmax分类器函数hθ(x) 形式如公式(1)所示:
其中,θ12,…,θk是模型的参数,x(i)是第i个输入样本,y(i)是第i个输入样 本对应的类别,这一项是对概率分布进行归一化,使得所有的概率之 和为1;
首先确定了分类器基本的决策规则,然后就要确定阈值用来划分类别。首 先用已知的桃核类别图像来训练分类器,已知的训练集是由已经被标记过的对 象组成,提取这些对象的特征,然后利用分类器的决策面,把特征向量划分成 不同的区域,以最终获得输入黄桃剖面图的桃核图像的类别。
为了对分类准确率进行比较,采用同样的500张图片作为测试集,对桃子 对称轴估计核尖指向、桃核对称轴估计核尖指向、桃核偏心距估计核尖指向以 及深度学习算法的对桃核核尖的分类准确率进行对比,对比结果如图5所示。x 轴表示500个样本,y轴表示每个样本的桃核偏离标准状态的实际值,z轴表示 用不同的方法获得的识别值。每种方法对桃核图像分类的识别值和实际值相差 在0.5度之内,即当y∈[z-0.5,z+0.5]时,认为识别分类正确。基于深度学习 获得的特征进行分类,准确性能够达到96%以上。
3、建立强化学习的动作集
本专利搭建的黄桃挖核机器人为6轴机器人,由6个伺服电机协同工作, 完成黄桃的挖核工作,这6个伺服电机分别为旋转底盘一个电机、摩擦轮机构2 个电机、刀具机构2个伺服电机、下料机构1个伺服电机。为了简化执行,将 电机旋转一周视为360个动作,即每一整数角度都为一个动作,由于有6个伺 服电机,则共有360*6=2160个动作。动作的选择则由策略函数根据状态决定。
4.建立强化学习的策略函数和值函数,获得最优的挖核行为控制策略。
将由深度学习获得的状态信息作为强化学习的输入,由策略函数根据状态 信息,执行相应的动作,然后获取回报,接着根据新的状态继续执行新的动作, 直至结束。由于共6个伺服电机,执行过程分6步,由6个伺服电机分别执行, 立即回报可由距离目标位置的角度组成,包括两个部分:一个是底部转盘距离 目标位置的角度,一个是桃子托盘距离目标位置的角度;每一个的角度距离目 标位置越近,立即回报越高;因此,立即回报可由这两个角度所得的回报两部 分组成,设计成如式(2)所示:
其中:T为常量,ψ1为底部转盘所要到达的目标位置角度,为底部转盘位 置的当前角度,ψ2为桃子托盘所要达到的目标位置,为桃子托盘的当前位置, st是当前时刻的状态,at是在当前状态下选择的动作,r是在状态st下选择动作at所能获得的立即回报;
策略函数根据当前状态,从动作集中选择合适的动作,可以表示为at=π(st), 即实现从桃子状态到电机转动角度的映射。桃子状态就是黄桃剖面图剖面的图 像,动作就是伺服电机的角度,通过强化学习可训练出一个从黄桃剖面图到伺 服电机转动角度的表,通过查表的方式完成策略函数功能,最终得到最优的黄 桃挖核行为控制策略。在训练过程中,训练集有10000个黄桃剖面图样本,通 过多次训练,得出最优的值函数和策略函数。
5、基于行为控制策略的机器人动作协同过程
机器人的视觉和控制系统是由工控机完成的,在工控机上搭建caffe和 matlab平台,在caffe环境下运行步骤(1)和(2)中的基于深度学习的桃核图 像状态识别算法,识别的状态结果传送给强化学习算法,由强化学习算法在 matlab中得到行为控制策略,将动作数据通过usb接口传送给stm32单片机,由 单片机控制电机执行动作。具体地,首先将黄桃放置在桃子托盘上,机器人拍 照获取黄桃剖面图,经过深度学习得到黄桃剖面图状态,然后运行底部托盘电 机,使其运动到下一个工位。下一个工位为调整机构,包括两个动作:一个是 伸缩机械手臂,将调整机构与桃子托盘接触;另一个是摩擦轮,通过摩擦轮调 整桃子托盘,使得桃子托盘运动,从而改变桃子状态。接着底部托盘继续运动, 使其运动到下一个工位,此部分也包括两个动作:一个升降平台,一个挖核机 构。升降平台的作用是移动挖核机构,挖核机构的作用是夹持刀具去掉桃核, 去掉核之后,底部托盘继续运动,到达下一个工位,由下料机构将桃子取下。 以上动作的执行以及执行顺序不是由人工设计,而是由强化学习算法自主学习 获得。另外以上动作中,每一个动作执行后都需要摄像头获取图像,从而得到 桃子状态。
评价指标采用挖桃核每一步动作的得分之和,也就是每个电机转动一个角 度后所得的分数之和。一个训练周期中各个电机执行动作所得的分数之和为总 回报,图6给出了总回报值与训练周期之间的关系。从图中可以看到,随着训 练周期的增长,平均回报值不断平稳增加,这说明训练结果随着训练周期的增 加不断提高,得到的策略函数也在不断优化。图7给出了传统的机器挖核方法 和基于深度强化学习行为控制策略的机器挖核方法对比图。本专利的方法可以 获得更高的去核率核更高的果肉留存率。

Claims (1)

1.一种基于深度强化学习的黄桃挖核机器人行为控制方法,步骤如下:
(1)特征提取
首先利用深度学习方法进行特征提取,建立训练集和测试集;其中,使用10000张黄桃剖面图片作为训练集,分为360个类别,每个类别相差1°转角,测试集中包含500张桃核图片;训练集和测试集的图片均具有标签的;使用具有5层的卷积神经网络对训练集的核桃状态进行特征提取;
(2)构建桃核图像的分类器
采用softmax分类器对黄桃剖面图片进行分类,由于黄桃剖面图片分为360个类,因为分类的输出为360维的向量;
首先确定分类器基本的决策规则,然后确定用来划分类别的阈值;用已知的黄桃剖面图片来训练分类器,已知的训练集是由已经被标记过的对象组成,提取这些对象的特征,然后利用分类器的决策面把特征向量划分成不同的区域,最终获得输入桃核图像的类别;
具体地,把标准的人工挖核的桃核核尖的指向作为标准值,把摄像机实际获取的图像的桃核核尖指向偏离标准值的角度每一度分为1个类,有360个类,即类别数k=360;softmax分类器函数hθ(x)形式如公式(1)所示:
<mrow> <msub> <mi>h</mi> <mi>&amp;theta;</mi> </msub> <mrow> <mo>(</mo> <msup> <mi>x</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <mrow> <mi>p</mi> <mrow> <mo>(</mo> <mrow> <msup> <mi>y</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>=</mo> <mn>1</mn> <mo>|</mo> <msup> <mi>x</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>;</mo> <mi>&amp;theta;</mi> </mrow> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mi>p</mi> <mrow> <mo>(</mo> <mrow> <msup> <mi>y</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>=</mo> <mn>2</mn> <mo>|</mo> <msup> <mi>x</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>;</mo> <mi>&amp;theta;</mi> </mrow> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mtable> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> </mtable> </mtd> </mtr> <mtr> <mtd> <mrow> <mi>p</mi> <mrow> <mo>(</mo> <mrow> <msup> <mi>y</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>=</mo> <mi>k</mi> <mo>|</mo> <msup> <mi>x</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>;</mo> <mi>&amp;theta;</mi> </mrow> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>k</mi> </msubsup> <msup> <mi>e</mi> <mrow> <msup> <msub> <mi>&amp;theta;</mi> <mi>j</mi> </msub> <mi>T</mi> </msup> <msup> <mi>x</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> </mrow> </msup> </mrow> </mfrac> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <msup> <mi>e</mi> <mrow> <msup> <msub> <mi>&amp;theta;</mi> <mn>1</mn> </msub> <mi>T</mi> </msup> <msup> <mi>x</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> </mrow> </msup> </mtd> </mtr> <mtr> <mtd> <msup> <mi>e</mi> <mrow> <msup> <msub> <mi>&amp;theta;</mi> <mn>2</mn> </msub> <mi>T</mi> </msup> <msup> <mi>x</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> </mrow> </msup> </mtd> </mtr> <mtr> <mtd> <mtable> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> </mtable> </mtd> </mtr> <mtr> <mtd> <msup> <mi>e</mi> <mrow> <msup> <msub> <mi>&amp;theta;</mi> <mi>k</mi> </msub> <mi>T</mi> </msup> <msup> <mi>x</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> </mrow> </msup> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>
其中,θ12,…,θk是模型的参数,x(i)是第i个输入样本,y(i)是第i个输入样本对应的类别,这一项是对概率分布进行归一化,使得所有的概率之和为1;
(3)建立强化学习的动作集
搭建的黄桃挖核机器人为6轴机器人,由6个伺服电机协同工作,完成黄桃的挖核工作,6个伺服电机的布置位置分别为:旋转底盘布置1个伺服电机、摩擦轮机构布置2个伺服电机、刀具机构布置2个伺服电机、下料机构布置1个伺服电机;将伺服电机旋转一周视为360个动作,即每一整数角度都为一个动作,6个伺服电机共有360*6=2160个动作,形成动作集;
(4)建立强化学习的策略函数和值函数,获得最优的挖核行为控制策略
将特征提取步骤中,由卷积神经网络获得的状态信息作为强化学习的输入;由策略函数根据状态信息,执行相应的动作,然后获取回报,接着根据新的状态继续执行新的动作,直至结束;由于共6个伺服电机,执行过程分6步,由6个伺服电机分别执行,立即回报由距离目标位置的角度组成,包括两个部分:一个是旋转底盘距离目标位置的角度,一个是桃子托盘距离目标位置的角度;每一个的角度距离目标位置越近,立即回报越高;因此,立即回报由这两个角度所得的回报两部分组成,设计成如式(2)所示:
其中:T为常量,ψ1为旋转底盘所要到达的目标位置角度,为旋转底盘位置的当前角度,ψ2为桃子托盘所要达到的目标位置,为桃子托盘的当前位置,st是当前时刻的状态,at是在当前状态下选择的动作,r是在状态st下选择动作at所能获得的立即回报;
策略函数π(·)根据当前状态,从动作集中选择合适的动作,表示为at=π(st);即实现从桃子状态到电机转动角度的映射;桃子状态就是黄桃剖面图片,动作就是电机要转动的角度,通过强化学习训练出一个从黄桃剖面到电机转动角度的表,通过查表的方式完成策略函数,最终得到最优的黄桃挖核行为控制策略;
(5)基于行为控制策略的机器人动作协同过程
首先将黄桃放置在桃子托盘上,机器人拍照获取桃子图像,经过深度学习得到桃子图像状态,然后运行底部托盘电机,使其运动到下一个工位;下一个工位为调整装置,包括两个动作:一个是伸缩机械手臂,将调整装置与桃子托盘接触;另一个是摩擦轮,通过摩擦轮调整桃子托盘,使得桃子托盘运动,从而改变桃子状态;接着底部托盘继续运动,使其运动到下一个工位,此部分也包括两个动作:升降平台和挖核机构;升降平台的作用是移动挖核机构,挖核机构的作用是夹持刀具去掉桃核,去掉核之后,底部托盘继续运动,到达下一个工位,由下料机构将桃子取下;以上动作的执行以及执行顺序不是由人工设计,而是由强化学习算法自主学习获得;另外以上动作中,每一个动作执行后都需要摄像头获取图像,从而得到桃子状态。
CN201711102908.3A 2017-11-10 2017-11-10 一种基于深度强化学习的黄桃挖核机器人行为控制方法 Active CN107944476B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711102908.3A CN107944476B (zh) 2017-11-10 2017-11-10 一种基于深度强化学习的黄桃挖核机器人行为控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711102908.3A CN107944476B (zh) 2017-11-10 2017-11-10 一种基于深度强化学习的黄桃挖核机器人行为控制方法

Publications (2)

Publication Number Publication Date
CN107944476A true CN107944476A (zh) 2018-04-20
CN107944476B CN107944476B (zh) 2019-06-21

Family

ID=61933742

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711102908.3A Active CN107944476B (zh) 2017-11-10 2017-11-10 一种基于深度强化学习的黄桃挖核机器人行为控制方法

Country Status (1)

Country Link
CN (1) CN107944476B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108549237A (zh) * 2018-05-16 2018-09-18 华南理工大学 基于深度增强学习的预观控制仿人机器人步态规划方法
CN110033035A (zh) * 2019-04-04 2019-07-19 武汉精立电子技术有限公司 一种基于强化学习的aoi缺陷分类方法及装置
CN110147891A (zh) * 2019-05-23 2019-08-20 北京地平线机器人技术研发有限公司 应用于强化学习训练过程的方法、装置及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104223320A (zh) * 2014-10-11 2014-12-24 江苏楷益智能科技有限公司 黄桃自动挖核机桃果定位装置
CN105942542A (zh) * 2016-03-31 2016-09-21 哈尔滨智强机器人有限公司 基于图像识别的黄桃去核机器人
CN106203527A (zh) * 2016-07-12 2016-12-07 沈阳东之昕智能科技有限公司 一种用于水果去核的视觉识别方法
CN106333372A (zh) * 2016-08-23 2017-01-18 沈阳东之昕智能科技有限公司 一种基于图像识别的核类水果挖核流水线机器人
CN106737673A (zh) * 2016-12-23 2017-05-31 浙江大学 一种基于深度学习的端到端的机械臂控制的方法
CN107169519A (zh) * 2017-05-18 2017-09-15 重庆卓来科技有限责任公司 一种工业机器人视觉系统及其示教方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104223320A (zh) * 2014-10-11 2014-12-24 江苏楷益智能科技有限公司 黄桃自动挖核机桃果定位装置
CN105942542A (zh) * 2016-03-31 2016-09-21 哈尔滨智强机器人有限公司 基于图像识别的黄桃去核机器人
CN106203527A (zh) * 2016-07-12 2016-12-07 沈阳东之昕智能科技有限公司 一种用于水果去核的视觉识别方法
CN106333372A (zh) * 2016-08-23 2017-01-18 沈阳东之昕智能科技有限公司 一种基于图像识别的核类水果挖核流水线机器人
CN106737673A (zh) * 2016-12-23 2017-05-31 浙江大学 一种基于深度学习的端到端的机械臂控制的方法
CN107169519A (zh) * 2017-05-18 2017-09-15 重庆卓来科技有限责任公司 一种工业机器人视觉系统及其示教方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张天通: "黄桃挖核机器人视觉识别算法研究", 《万方数据知识服务平台》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108549237A (zh) * 2018-05-16 2018-09-18 华南理工大学 基于深度增强学习的预观控制仿人机器人步态规划方法
CN108549237B (zh) * 2018-05-16 2020-04-28 华南理工大学 基于深度增强学习的预观控制仿人机器人步态规划方法
CN110033035A (zh) * 2019-04-04 2019-07-19 武汉精立电子技术有限公司 一种基于强化学习的aoi缺陷分类方法及装置
CN110147891A (zh) * 2019-05-23 2019-08-20 北京地平线机器人技术研发有限公司 应用于强化学习训练过程的方法、装置及电子设备

Also Published As

Publication number Publication date
CN107944476B (zh) 2019-06-21

Similar Documents

Publication Publication Date Title
CN106874914B (zh) 一种基于深度卷积神经网络的工业机械臂视觉控制方法
CN111098301B (zh) 一种基于场景知识图谱任务型机器人的控制方法
CN106203506B (zh) 一种基于深度学习技术的行人检测方法
CN107944476A (zh) 一种基于深度强化学习的黄桃挖核机器人行为控制方法
CN104808590B (zh) 一种基于关键帧策略的移动机器人视觉伺服控制方法
CN107562052A (zh) 一种基于深度强化学习的六足机器人步态规划方法
CN109711262B (zh) 一种基于深度卷积神经网络的智能挖掘机行人检测方法
CN106845515A (zh) 基于虚拟样本深度学习的机器人目标识别和位姿重构方法
CN103390168A (zh) 基于Kinect深度信息的智能轮椅动态手势识别方法
Al-Jarrah et al. A novel edge detection algorithm for mobile robot path planning
CN106096729A (zh) 一种面向大规模环境中复杂任务的深度策略学习方法
CN101894278A (zh) 基于变结构多模型的人体运动跟踪方法
Ma et al. Research and analysis of sports training real-time monitoring system based on mobile artificial intelligence terminal
CN110883776A (zh) 一种快速搜索机制下改进dqn的机器人路径规划算法
CN111125403B (zh) 一种基于人工智能的辅助设计绘图方法及系统
CN109783887A (zh) 一种面向三维加工特征的智能识别与检索方法
CN106144524A (zh) 一种高速运动中用ccd视觉定位方法及装置
CN106363633A (zh) 基于改良粒子群算法的机器人稳定步态规划方法和装置
CN106371442A (zh) 一种基于张量积模型变换的移动机器人控制方法
CN108647607A (zh) 用于输变电工程的地物识别方法
CN106842959A (zh) 一种Nao机器人步态规划遗传算法
CN106204647A (zh) 基于多特征和组稀疏的视觉目标跟踪方法
CN105844672A (zh) 一种多关节模型的快速连续碰撞检测的方法
CN109352649A (zh) 一种基于深度学习的机械手控制方法及系统
CN107169423A (zh) 一种视频人物运动类型识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant