CN113326932B - 基于物体检测的物体操作指令跟随学习方法及装置 - Google Patents

基于物体检测的物体操作指令跟随学习方法及装置 Download PDF

Info

Publication number
CN113326932B
CN113326932B CN202110500225.3A CN202110500225A CN113326932B CN 113326932 B CN113326932 B CN 113326932B CN 202110500225 A CN202110500225 A CN 202110500225A CN 113326932 B CN113326932 B CN 113326932B
Authority
CN
China
Prior art keywords
operation instruction
detection
network
placing
objects
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110500225.3A
Other languages
English (en)
Other versions
CN113326932A (zh
Inventor
周杰
鲁继文
肖厚元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202110500225.3A priority Critical patent/CN113326932B/zh
Publication of CN113326932A publication Critical patent/CN113326932A/zh
Application granted granted Critical
Publication of CN113326932B publication Critical patent/CN113326932B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Abstract

本发明公开了一种基于物体检测的物体操作指令跟随学习方法及装置,该方法包括:构建物体操作指令数据集;获取目标场景中所有物体的物体检测框和对应的检测框参数,以及物体检测框的图像特征;通过比对网络将物体检测框的图像特征与物体操作指令数据集中的物体操作指令的文本特征进行比对,得到物体操作指令对应的抓取物体、参考物体和放置方位;根据得到的抓取物体、参考物体、放置方位以及物体检测框对应的检测框参数,生成抓取位置、抓取角度以及放置位置。该方法解决了现有物体抓取方法无法接受人类指令约束的问题,可以将指令跟随和物体抓取结合在一起,实现物体操作指令跟随任务。

Description

基于物体检测的物体操作指令跟随学习方法及装置
技术领域
本发明涉及机器学习技术领域,特别涉及一种基于物体检测的物体操作指令跟随学习方法及装置。
背景技术
得益于深度学习技术的兴起和计算能力的提升,机器人技术在理论研究和工业应用上都取得了突飞猛进的发展,越来越多的实体机器人开始走出实验室,奔向热火朝天的工厂一线,也逐渐进入到寻常百姓的家里。然而,令人担忧的是,绝大多数的机器人应用依然局限在简单可控的工业流水线上,一旦进入动态开放环境,尤其面对复杂任务目标时,机器人常常表现笨拙,无法自主做出正确的动作。在这种情况下,人类通过语言与机器人沟通,指挥并引导他们就显得尤为重要了。在面对复杂任务时,一旦机器人具备了理解和执行人类指令的能力,即指令跟随功能,人类就可以根据自身的知识经验对任务进行分解,将其分解成一系列的简单问题,并通过指令的形式传递给机器人,机器人按照指令逐个地解决简单问题,最终完成初始的复杂任务。因此,如果我们期待机器人能够在人类活动中发挥更大的作用,那么指令跟随将是它必须要掌握的一项基本技能,这也是通往通用智能机器人的必经之路。
物体操作指令跟随的基础是机器人物体抓取。物体抓取是机器人研究中的一个古老问题,几十年来一直属于是机器人社区的研究热点,新的理论,方法和技术层出不穷。然而,即使经过数十年的发展和沉淀,物体抓取至今仍是一个充满挑战性的任务,目前机器人的物体抓取能力仍然远远弱于人类,更无法满足日常生活和工业生产的需求。目前,主流的物体抓取研究工作可以划分为两类,分别是传统解析方法和数据驱动的学习方法。前者在上个世纪占据着主导地位,进入新世纪尤其是在深度学习兴起后,数据驱动的方法则统治了物体抓取问题的研究。
物体操作指令跟随是一个计算机视觉和自然语言处理相结合的交叉任务,目前在学术界还是一个比较小众的研究方向,任务难度系数较高,相关研究工作仍处于起步阶段,研究方向多种多样,尚未具备同一的通用框架。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种基于物体检测的物体操作指令跟随学习方法,该方法解决了现有物体抓取方法无法接受人类指令约束的问题,可以将指令跟随和物体抓取结合在一起,完成物体操作指令跟随任务。
本发明的另一个目的在于提出一种基于物体检测的物体操作指令跟随学习装置。
为达到上述目的,本发明一方面实施例提出了一种基于物体检测的物体操作指令跟随学习方法,包括:
构建物体操作指令数据集;
获取目标场景中所有物体的物体检测框和对应的检测框参数,以及物体检测框的图像特征;
通过比对网络将所述物体检测框的图像特征与所述物体操作指令数据集中的物体操作指令的文本特征进行比对,得到物体操作指令对应的抓取物体、参考物体和放置方位;
根据得到的所述抓取物体、所述参考物体、所述放置方位以及所述物体检测框对应的检测框参数,生成抓取位置、抓取角度以及放置位置。
另外,根据本发明上述实施例的基于物体检测的物体操作指令跟随学习方法还可以具有以下附加的技术特征:
进一步地,所述构建物体指令数据集包括:
通过六元组对物体指令样本进行描述,所述六元组包括场景图片、场景信息图、物体操作指令、放置方位、抓取物体编号和参考物体编号。
进一步地,所述获取目标场景中所有物体的物体检测框和对应的检测框参数,以及物体检测框的图像特征,包括:
通过目标检测算法对目标场景中的物体进行检测,基于前端卷积神经网络提取的图像特征对生成的锚框进行前、后景划分,并对其包含物体的锚框进行边框回归,得到物体检测框及其物体检测框参数。
进一步地,所述目标检测算法的损失函数为:
Figure BDA0003055808900000021
其中,i是锚框对应的编号,pi代表锚框中含有物体的概率,ti=(tx,ty,tw,th)是代表边界框参数的4维向量,pi *是锚框是否含有物体的真实标签,1代表有,0代表没有,ti *是含有物体的锚框对应边框参数的真实标签,Lcls是一个针对二分类问题的对数损失函数,Lreg是约束边界框回归的损失函数,Ncls和Nreg是归一化参数,其中Ncls是样本数目,Nreg是锚框的数目,是用来平衡Lcls和Lreg的权重参数。
进一步地,还包括:对物体操作指令中的文本特征进行提取。
进一步地,所述对物体操作指令中的文本特征进行提取,包括:
采用词嵌入方法通过一个浅层神经网络将物体操作指令中的每一个单词映射成稠密向量,再对物体操作指令的向量序列进行处理得到物体操作指令的文本特征。
进一步地,还包括:对所有物体的物体检测框进行评分,筛选出多个评分大于预设阈值的物体检测框,将筛选出的物体检测框的图像特征输入到比对网络中与物体操作指令的文本特征进行比对。
进一步地,所述通过比对网络将所述物体检测框的图像特征与所述物体操作指令数据集中的物体操作指令的文本特征进行比对,得到物体操作指令对应的抓取物体、参考物体和放置方位,包括:
通过比对网络得到每个物体检测框的物体分别是物体操作指令中的抓取物体和参考物体的概率,将概率最高的物体作为物体操作指令对应的抓取物体和参考物体;
同时对放置方位进行预测,基于物体操作指令的文本特征向量预测前、后、左、右四种放置方位的概率,得到放置方位。
进一步地,所述多层全连接网络的损失函数为:
Figure BDA0003055808900000031
其中,C∈R18是是预测的在前、后、左、右4个放置方位上的概率分布,T是对应的标签,K是送入比对网络的检测框数目;pg∈RK是网络预测的K个检测框所含物体是操作指令所指抓取物体的概率分布,
Figure BDA0003055808900000032
是对应的标签;pw∈RK是网络预测的K个检测框所含物体是操作指令所指参考物体的概率分布,
Figure BDA0003055808900000033
是对应的标签。
为达到上述目的,本发明另一方面实施例提出了一种基于物体检测的物体操作指令跟随学习装置,包括:
构建模块,用于构建物体操作指令数据集;
目标检测模块,用于获取目标场景中所有物体的物体检测框和对应的检测框参数,以及物体检测框的图像特征;
目标筛选模块,用于通过比对网络将所述物体检测框的图像特征与所述物体操作指令数据集中的物体操作指令的文本特征进行比对,得到物体操作指令对应的抓取物体、参考物体和放置方位;
操作参数生成模块,用于根据得到的所述抓取物体、所述参考物体、所述放置方位以及所述物体检测框对应的检测框参数,生成抓取位置、抓取角度以及放置位置。
本发明实施例的基于物体检测的物体操作指令跟随学习方法及装置,解决了现有物体抓取方法无法接受人类指令的约束,将指令跟随和物体抓取结合在一起,进行物体操作指令跟随的问题,给出了一种在人机共存环境下,让机器人根据人类指令完成相应的物体移动操作的操作方法。包含目标检测、目标筛选、操作参数生成三个子模块,通过一个简单的全连接网络,便能将目标物体从场景中筛选出来。部署到机器人系统后,机器人系统能够正确理解人表达的物体操作指令,同时能够生成正确的抓取参数将目标物体抓起来,并放到正确的位置。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明一个实施例的基于物体检测的物体操作指令跟随学习方法流程图;
图2为根据本发明一个实施例的基于物体检测的物体操作指令跟随学习方法原理流程图;
图3为根据本发明一个实施例的目标筛选的原理图;
图4为根据本发明一个实施例的生成操作参数原理图;
图5为根据本发明一个实施例的基于物体检测的物体操作指令跟随学习装置结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参照附图描述根据本发明实施例提出的基于物体检测的物体操作指令跟随学习方法及装置。
首先将参照附图描述根据本发明实施例提出的基于物体检测的物体操作指令跟随学习方法。
图1为根据本发明一个实施例的基于物体检测的物体操作指令跟随学习方法流程图。
图2为根据本发明一个实施例的基于物体检测的物体操作指令跟随学习方法原理流程图。
如图1和图2所示,该基于物体检测的物体操作指令跟随学习方法包括以下步骤:
步骤S1,构建物体操作指令数据集。
可选地,构建物体指令数据集包括:
通过六元组对物体指令样本进行描述,六元组包括场景图片、场景信息图、物体操作指令、放置方位、抓取物体编号和参考物体编号。
具体地,生成物体操作指令数据集的核心在于如何产生一一对应的场景图片、操作指令数据对。物体操作指令的目标可以归纳为“把物体A移动到物体B的前/后/左/右”,该指令描述了要移动的物体(物体A)以及移动后的放置位置,放置位置没有直接表述出来,而是通过参考物体(物体B)和放置方位(前/后/左/右)确定。基于这一目标,生成操作指令的主要工作在于采用何种方式描述物体A和物体B。本发明采用多种修饰方式对其进行描述,分别刻画物体不同的特性,最基本的特性描述方式有形状描述、大小描述、颜色描述、数量描述以及方位描述。所构造物体操作指令数据集的每一个样本都是一个六元组,分别是场景图片、场景信息图、物体操作指令、放置方位、抓取物体编号和参考物体编号。
步骤S2,获取目标场景中所有物体的物体检测框和对应的检测框参数,以及物体检测框的图像特征。
可选地,获取目标场景中所有物体的物体检测框和对应的检测框参数,以及物体检测框的图像特征,包括:
通过目标检测算法对目标场景中的物体进行检测,基于前端卷积神经网络提取的图像特征对生成的锚框进行前、后景划分,并对其包含物体的锚框进行边框回归,得到物体检测框及其物体检测框参数。
具体地,利用FasterRCNN得到场景中所有物体检测框的参数,FasterRCNN的核心在于RPN的训练,RPN采用生成锚框的方法,直接基于前端卷积神经网络提取的图像特征对生成的锚框进行前、后景划分,并对其包含物体的锚框进行边框回归,得到候选检测框参数。为了能够有效训练该模块,其损失函数为:
Figure BDA0003055808900000051
其中,i是锚框对应的编号,pi代表锚框中含有物体的概率,ti=(tx,ty,tw,th)是代表边界框参数的4维向量,pi *是锚框是否含有物体的真实标签,1代表有,0代表没有,ti *是含有物体的锚框对应边框参数的真实标签,Lcls是一个针对二分类问题的对数损失函数,Lreg是约束边界框回归的损失函数,Ncls和Nreg是归一化参数,其中Ncls是样本数目,Nreg是锚框的数目,是用来平衡Lcls和Lreg的权重参数。
步骤S3,通过比对网络将物体检测框的图像特征与物体操作指令数据集中的物体操作指令的文本特征进行比对,得到物体操作指令对应的抓取物体、参考物体和放置方位。
进一步地,还包括:对物体操作指令中的文本特征进行提取。
可选地,对物体操作指令中的文本特征进行提取,包括:
采用词嵌入方法通过一个浅层神经网络将物体操作指令中的每一个单词映射成稠密向量,再对物体操作指令的向量序列进行处理得到物体操作指令的文本特征。
进一步地,在比对之前,还包括:对所有物体的物体检测框进行评分,筛选出多个评分大于预设阈值的物体检测框,将筛选出的物体检测框的图像特征输入到比对网络中与物体操作指令的文本特征进行比对。
可以理解的是,将物体检测框与物体操作指令数据集中的任一物体操作指令的文本特征进行比对时,可以提前对所有的物体检测框进行筛选,将筛选出的物体检测框的图像特征送入比对网络,与该物体操作指令的文本特征进行比对,由此,可以减少计算量,提高计算速度。
进一步地,通过比对网络将物体检测框的图像特征与物体操作指令数据集中的物体操作指令的文本特征进行比对,得到物体操作指令对应的抓取物体、参考物体和放置方位,包括:
通过比对网络得到每个物体检测框的物体分别是物体操作指令中的抓取物体和参考物体的概率,将概率最高的物体作为物体操作指令对应的抓取物体和参考物体;
同时对放置方位进行预测,基于物体操作指令的文本特征向量预测前、后、左、右四种放置方位的概率,得到放置方位。
具体地,在FasterRCNN中,经感兴趣区域池化层处理后的特征图都可以用来作为该检测框中所含物体的特征表示,本发明实施例对该特征图进一步简化,通过平均值池化操作得到一个2048维的特征向量,充当检测框中所含物体的特征表示。为了提取操作指令的文本特征,采用词嵌入方法通过一个浅层神经网络将操作指令中的每一个单词映射成一个连续、低维的稠密向量,再通过GRU模块处理整个指令的向量序列进而得到文本指令的特征表示图3所示,基于提取的图像特征和文本特征,将评分最高的若干个检测框的物体特征和物体操作指令的文本特征一起送入目标筛选。输出每个检测框所含物体是抓取物体和参考物体的概率。放置方位的预测则通过一个简单的多层全连接网络完成,该网络基于文本特征向量预测前、后、左、右四种放置方位的概率。损失函数如下:
Figure BDA0003055808900000061
其中,C∈R18是是预测的在前、后、左、右4个放置方位上的概率分布,T是对应的标签。K是送入比对网络的检测框数目;pg∈RK是网络预测的K个检测框所含物体是操作指令所指抓取物体的概率分布,
Figure BDA0003055808900000071
是对应的标签;pw∈RK是网络预测的K个检测框所含物体是操作指令所指参考物体的概率分布,
Figure BDA0003055808900000072
是对应的标签;而f(·)是如下函数:
Figure BDA0003055808900000073
其中,σ是Sigmoid函数。
步骤S4,根据得到的抓取物体、参考物体、放置方位以及物体检测框对应的检测框参数,生成抓取位置、抓取角度以及放置位置。
具体地,给定物体操作指令,目标筛选步骤能够从场景中筛选出正确的抓取物体、参考物体以及放置方位。然而,要让机器人完成整个物体操作,还需要提供更加具体的操作参数,包括抓取参数和放置参数,使得机器人能够完成抓放操作。提供抓取位置(x,y)和抓取角度θ通过一个ResNet34的小型网络对这两个参数进行估计,如图4所示。挑选出含有抓取物体的检测框后,利用检测框参数可以将抓取物体从原场景图片中分割出来,得到只包含抓取物体的图片,然后将该图片和原场景图片一起送入ResNet34网络,对x,y,θ三个参数进行回归估计。
在得到场景中所有物体的位置信息后,只需遍历参考物体放置方位上的所有像素集合P,对于其中每一个像素p,计算它和场景中所有物体平面距离的最小值,该最小值最大的像素p即为合适的放置位置p*,即转换为如下离散优化问题:
Figure BDA0003055808900000074
其中P表示参考物体放置方位上所有像素点的集合,n是场景中物体的数目,oj表示场景中的第j个物体。
综上,本申请的方法包含目标检测、目标筛选、操作参数生成三个部分。目标检测作为所提方法的基础,主要扮演两方面的角色,一方面是以检测框的形式对场景中的物体进行定位,得到场景中物体的检测框参数,另一方面是作为特征提取器提取每个物体的特征。目标筛选设计了一个轻量级的全连接网络,如图3所示。该网络输入场景中某个物体的特征和操作指令的文本特征,输出二者匹配的概率。由于操作指令同时描述了抓取物体和参考物体,因此,该网络需要预测两种概率,分别代表输入物体是抓取物体和参考物体的概率。将场景中所有物体都通过该网络进行比对后,就可以筛选出物体操作指令中的抓取物体和参考物体,并得到放置方位。操作参数生成部分根据目标筛选部分从场景中筛选出的抓取物体、参考物体以及放置方位,根据目标检测部分得到的检测框参数,生成抓取位置、抓取角度以及放置位置,使得机器人能够完成正确的物体移动操作。
根据本发明实施例提出的基于物体检测的物体操作指令跟随学习方法,以单张操作台图片、单句物体操作指令作为输入,能够生成机器人的具体操作参数,包括抓取物体时的抓取位置和抓取角度,放置物体时的放置位置。物体检测是整个方法的基础,定位物体的同时还能获得其高质量的图像特征。目标筛选将指令的文本特征和物体检测模块所获得的图像特征挨个比对,筛选出正确的抓取物体和参考物体,同时输出放置方位。操作参数生成基于目标筛选筛选出的抓取物体、参考物体、参考方位估计出抓取位置,抓取角度以及放置位置。三个模块都采用监督学习的训练方式,虽然流程上前后衔接,但其训练过程相互独立。机器人执行该动作后,能够成功抓起目标物体,并放置到正确的位置上,使得场景变化符合物体操作指令的要求。
其次参照附图描述根据本发明实施例提出的基于物体检测的物体操作指令跟随学习装置。
图5为本发明一个实施例的基于物体检测的物体操作指令跟随学习装置结构示意图。
如图5所示,该基于物体检测的物体操作指令跟随学习装置包括:构建模块501、目标检测模块502、目标筛选模块503和操作参数生成模块504。
构建模块501,用于构建物体操作指令数据集。
目标检测模块502,用于获取目标场景中所有体的物体检测框和对应的检测框参数,以及物体检测框的图像特征。
目标筛选模块503,用于通过比对网络将物体检测框的图像特征与物体操作指令数据集中的物体操作指令的文本特征进行比对,得到物体操作指令对应的抓取物体、参考物体和放置方位。
操作参数生成模块504,用于根据得到的抓取物体、参考物体、放置方位以及物体检测框对应的检测框参数,生成抓取位置、抓取角度以及放置位置。
需要说明的是,前述对方法实施例的解释说明也适用于该实施例的装置,此处不再赘述。
根据本发明实施例提出的基于物体检测的物体操作指令跟随学习装置,以单张操作台图片、单句物体操作指令作为输入,能够生成机器人的具体操作参数,包括抓取物体时的抓取位置和抓取角度,放置物体时的放置位置。物体检测是整个方法的基础,定位物体的同时还能获得其高质量的图像特征。目标筛选将指令的文本特征和物体检测模块所获得的图像特征挨个比对,筛选出正确的抓取物体和参考物体,同时输出放置方位。操作参数生成基于目标筛选筛选出的抓取物体、参考物体、参考方位估计出抓取位置,抓取角度以及放置位置。三个模块都采用监督学习的训练方式,虽然流程上前后衔接,但其训练过程相互独立。机器人执行该动作后,能够成功抓起目标物体,并放置到正确的位置上,使得场景变化符合物体操作指令的要求。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (8)

1.一种基于物体检测的物体操作指令跟随学习方法,其特征在于,包括以下步骤:
构建物体操作指令数据集;
获取目标场景中所有物体的物体检测框和对应的检测框参数,以及物体检测框的图像特征;
通过比对网络将所述物体检测框的图像特征与所述物体操作指令数据集中的物体操作指令的文本特征进行比对,得到物体操作指令对应的抓取物体、参考物体和放置方位;具体包括:通过比对网络得到每个物体检测框的物体分别是物体操作指令中的抓取物体和参考物体的概率,将概率最高的物体作为物体操作指令对应的抓取物体和参考物体;同时对放置方位进行预测,基于物体操作指令的文本特征向量预测前、后、左、右四种放置方位的概率,得到放置方位;
根据得到的所述抓取物体、所述参考物体、所述放置方位以及所述物体检测框对应的检测框参数,生成抓取位置、抓取角度以及放置位置;
放置方位的预测则通过一个多层全连接网络完成,该网络基于文本特征向量预测前、后、左、右四种放置方位的概率,所述多层全连接网络的损失函数为:
Figure FDA0003732796830000011
其中,C∈R18是预测的在前、后、左、右4个放置方位上的概率分布,T是对应的标签,K是送入比对网络的检测框数目;pg∈RK是网络预测的K个检测框所含物体是操作指令所指抓取物体的概率分布,
Figure FDA0003732796830000012
是对应的标签;pw∈RK是网络预测的K个检测框所含物体是操作指令所指参考物体的概率分布,
Figure FDA0003732796830000013
是对应的标签。
2.根据权利要求1所述的方法,其特征在于,所述构建物体操作指令数据集包括:
通过六元组对物体操作指令样本进行描述,所述六元组包括场景图片、场景信息图、物体操作指令、放置方位、抓取物体编号和参考物体编号。
3.根据权利要求1所述的方法,其特征在于,所述获取目标场景中所有物体的物体检测框和对应的检测框参数,以及物体检测框的图像特征,包括:
通过目标检测算法对目标场景中的物体进行检测,基于前端卷积神经网络提取的图像特征对生成的锚框进行前、后景划分,并对其包含物体的锚框进行边框回归,得到物体检测框及其物体检测框参数。
4.根据权利要求3所述的方法,其特征在于,所述目标检测算法的损失函数为:
Figure FDA0003732796830000021
其中,i是锚框对应的编号,pi代表锚框中含有物体的概率,ti=(tx,ty,tw,th)是代表边界框参数的4维向量,pi *是锚框是否含有物体的真实标签,1代表有,0代表没有,ti *是含有物体的锚框对应边框参数的真实标签,Lcls是一个针对二分类问题的对数损失函数,Lreg是约束边界框回归的损失函数,Ncls和Nreg是归一化参数,其中Ncls是样本数目,Nreg是锚框的数目,λ是用来平衡Lcls和Lreg的权重参数。
5.根据权利要求1所述的方法,其特征在于,还包括:对物体操作指令中的文本特征进行提取。
6.根据权利要求5所述的方法,其特征在于,所述对物体操作指令中的文本特征进行提取,包括:
采用词嵌入方法通过一个浅层神经网络将物体操作指令中的每一个单词映射成稠密向量,再对物体操作指令的向量序列进行处理得到物体操作指令的文本特征。
7.根据权利要求1所述的方法,其特征在于,还包括:对所有物体的物体检测框进行评分,筛选出多个评分大于预设阈值的物体检测框,将筛选出的物体检测框的图像特征输入到比对网络中与物体操作指令的文本特征进行比对。
8.一种基于物体检测的物体操作指令跟随学习装置,其特征在于,包括:
构建模块,用于构建物体操作指令数据集;
目标检测模块,用于获取目标场景中所有物体的物体检测框和对应的检测框参数,以及物体检测框的图像特征;
目标筛选模块,用于通过比对网络将所述物体检测框的图像特征与所述物体操作指令数据集中的物体操作指令的文本特征进行比对,得到物体操作指令对应的抓取物体、参考物体和放置方位;具体用于:通过比对网络得到每个物体检测框的物体分别是物体操作指令中的抓取物体和参考物体的概率,将概率最高的物体作为物体操作指令对应的抓取物体和参考物体;同时对放置方位进行预测,基于物体操作指令的文本特征向量预测前、后、左、右四种放置方位的概率,得到放置方位;
操作参数生成模块,用于根据得到的所述抓取物体、所述参考物体、所述放置方位以及所述物体检测框对应的检测框参数,生成抓取位置、抓取角度以及放置位置;
放置方位的预测则通过一个多层全连接网络完成,该网络基于文本特征向量预测前、后、左、右四种放置方位的概率,所述多层全连接网络的损失函数为:
Figure FDA0003732796830000031
其中,C∈R18是预测的在前、后、左、右4个放置方位上的概率分布,T是对应的标签,K是送入比对网络的检测框数目;pg∈RK是网络预测的K个检测框所含物体是操作指令所指抓取物体的概率分布,
Figure FDA0003732796830000032
是对应的标签;pw∈RK是网络预测的K个检测框所含物体是操作指令所指参考物体的概率分布,
Figure FDA0003732796830000033
是对应的标签。
CN202110500225.3A 2021-05-08 2021-05-08 基于物体检测的物体操作指令跟随学习方法及装置 Active CN113326932B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110500225.3A CN113326932B (zh) 2021-05-08 2021-05-08 基于物体检测的物体操作指令跟随学习方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110500225.3A CN113326932B (zh) 2021-05-08 2021-05-08 基于物体检测的物体操作指令跟随学习方法及装置

Publications (2)

Publication Number Publication Date
CN113326932A CN113326932A (zh) 2021-08-31
CN113326932B true CN113326932B (zh) 2022-09-09

Family

ID=77414287

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110500225.3A Active CN113326932B (zh) 2021-05-08 2021-05-08 基于物体检测的物体操作指令跟随学习方法及装置

Country Status (1)

Country Link
CN (1) CN113326932B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113977581A (zh) * 2021-11-10 2022-01-28 胜斗士(上海)科技技术发展有限公司 抓取系统及抓取方法
CN116252306B (zh) * 2023-05-10 2023-07-11 中国空气动力研究与发展中心设备设计与测试技术研究所 基于分层强化学习的物体排序方法、装置及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109919151A (zh) * 2019-01-30 2019-06-21 西安交通大学 一种基于端对端网络的机器人视觉推理抓取方法
CN110125930A (zh) * 2019-04-18 2019-08-16 华中科技大学 一种基于机器视觉和深度学习的机械臂抓取控制方法
CN112070764A (zh) * 2020-09-22 2020-12-11 南昌智能新能源汽车研究院 一种遥操作工程机器人双目视觉定位系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2994401B1 (fr) * 2012-08-10 2014-08-08 Commissariat Energie Atomique Procede et systeme d'assistance au pilotage d'un robot a fonction de detection d'intention d'un operateur
WO2017151926A1 (en) * 2016-03-03 2017-09-08 Google Inc. Deep machine learning methods and apparatus for robotic grasping

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109919151A (zh) * 2019-01-30 2019-06-21 西安交通大学 一种基于端对端网络的机器人视觉推理抓取方法
CN110125930A (zh) * 2019-04-18 2019-08-16 华中科技大学 一种基于机器视觉和深度学习的机械臂抓取控制方法
CN112070764A (zh) * 2020-09-22 2020-12-11 南昌智能新能源汽车研究院 一种遥操作工程机器人双目视觉定位系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Instruction-Based Motion Generation for Sequential Robotic Manipulation;Quanquan Shao等;《IEEE Access》;20200204;全文 *
深度学习在智能机器人中的应用研究综述;龙慧等;《计算机科学》;20181115;全文 *

Also Published As

Publication number Publication date
CN113326932A (zh) 2021-08-31

Similar Documents

Publication Publication Date Title
CN108491880B (zh) 基于神经网络的物体分类和位姿估计方法
Wang et al. Development of convolutional neural network and its application in image classification: a survey
CN111695562B (zh) 一种基于卷积神经网络的机器人自主抓取方法
CN104463191A (zh) 一种基于注意机制的机器人视觉处理方法
CN113326932B (zh) 基于物体检测的物体操作指令跟随学习方法及装置
Sajanraj et al. Indian sign language numeral recognition using region of interest convolutional neural network
Cruz et al. Multi-modal integration of dynamic audiovisual patterns for an interactive reinforcement learning scenario
WO2017190645A1 (zh) 一种微表情识别的方法、装置及存储介质
Antonova et al. A bayesian treatment of real-to-sim for deformable object manipulation
An et al. A neural network based retrainable framework for robust object recognition with application to mobile robotics
CN111300431B (zh) 面向跨场景的机器人视觉模仿学习方法及系统
Passalis et al. Leveraging active perception for improving embedding-based deep face recognition
Teng et al. Generative robotic grasping using depthwise separable convolution
CN114724251A (zh) 一种在红外视频下基于骨架序列的老人行为识别方法
Wu et al. A cascaded CNN-based method for monocular vision robotic grasping
Dai et al. Camera view planning based on generative adversarial imitation learning in indoor active exploration
Yang et al. Robotic pushing and grasping knowledge learning via attention deep Q-learning network
Ikram et al. Real time hand gesture recognition using leap motion controller based on CNN-SVM architechture
Lin et al. Robot grasping based on object shape approximation and LightGBM
CN111160170A (zh) 一种自学习的人体行为识别与异常检测方法
Zhang et al. Key technologies of smart factory machine vision based on efficient deep network model
CN115147899A (zh) 基于标签分布和有监督空间变换网络的头部姿态估计方法
Zou Predictive visual control framework of mobile robot for solving occlusion
CN111160161B (zh) 一种基于噪声剔除的自步学习人脸年龄估计方法
Belattar et al. An embedded system-based hand-gesture recognition for human-drone interaction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant