CN113326933B - 基于注意力机制的物体操作指令跟随学习方法及装置 - Google Patents
基于注意力机制的物体操作指令跟随学习方法及装置 Download PDFInfo
- Publication number
- CN113326933B CN113326933B CN202110500653.6A CN202110500653A CN113326933B CN 113326933 B CN113326933 B CN 113326933B CN 202110500653 A CN202110500653 A CN 202110500653A CN 113326933 B CN113326933 B CN 113326933B
- Authority
- CN
- China
- Prior art keywords
- image
- operation instruction
- object operation
- attention
- grabbing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于注意力机制的物体操作指令跟随学习方法及装置,该方法包括:获取目标场景图像,提取目标场景图像的图像特征;对物体操作指令进行特征提取得到物体操作指令的文本特征;通过双线性模型对图像特征和物体操作指令的文本特征进行融合,得到图像特征上的注意力分布;将注意力分布作用到初始的图像特征上进行加权,根据加权后的图像特征得到操作参数在各自空间的概率分布,将概率最大值对应的操作参数作为动作参数。该方法解决了现有物体操作指令跟随方法性能低下的问题。
Description
技术领域
本发明涉及机器学习技术领域,特别涉及一种基于注意力机制的物体操作指令跟随学习方法及装置。
背景技术
得益于深度学习技术的兴起和计算能力的提升,机器人技术在理论研究和工业应用上都取得了突飞猛进的发展,越来越多的实体机器人开始走出实验室,奔向热火朝天的工厂一线,也逐渐进入到寻常百姓的家里。然而,令人担忧的是,绝大多数的机器人应用依然局限在简单可控的工业流水线上,一旦进入动态开放环境,尤其面对复杂任务目标时,机器人常常表现笨拙,无法自主做出正确的动作。在这种情况下,人类通过语言与机器人沟通,指挥并引导他们就显得尤为重要了。在面对复杂任务时,一旦机器人具备了理解和执行人类指令的能力,即指令跟随功能,人类就可以根据自身的知识经验对任务进行分解,将其分解成一系列的简单问题,并通过指令的形式传递给机器人,机器人按照指令逐个地解决简单问题,最终完成初始的复杂任务。因此,如果我们期待机器人能够在人类活动中发挥更大的作用,那么指令跟随将是它必须要掌握的一项基本技能,这也是通往通用智能机器人的必经之路。
物体操作指令跟随的基础是机器人物体抓取。物体抓取是机器人研究中的一个古老问题,几十年来一直属于是机器人社区的研究热点,新的理论,方法和技术层出不穷。然而,即使经过数十年的发展和沉淀,物体抓取至今仍是一个充满挑战性的任务,目前机器人的物体抓取能力仍然远远弱于人类,更无法满足日常生活和工业生产的需求。目前,主流的物体抓取研究工作可以划分为两类,分别是传统解析方法和数据驱动的学习方法。前者在上个世纪占据着主导地位,进入新世纪尤其是在深度学习兴起后,数据驱动的方法则统治了物体抓取问题的研究。
物体操作指令跟随是一个计算机视觉和自然语言处理相结合的交叉任务,目前在学术界还是一个比较小众的研究方向,任务难度系数较高,相关研究工作仍处于起步阶段,研究方向多种多样,尚未具备同一的通用框架。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种基于注意力机制的物体操作指令跟随学习方法,该方法解决了现有物体操作指令跟随方法性能低下的问题,通过注意力机制,使得神经网络能够将指令的文本特征和图像空间特征关联起来并进行融合,基于融合后的特征捕捉到精确的注意力图,进一步得到操作参数在各自动作空间的概率分布。
本发明的另一个目的在于提出一种基于注意力机制的物体操作指令跟随学习装置。
为达到上述目的,本发明一方面实施例提出了一种基于注意力机制的物体操作指令跟随学习方法,包括:
获取目标场景图像,提取所述目标场景图像的图像特征;
对物体操作指令进行特征提取得到所述物体操作指令的文本特征;
通过双线性模型对所述图像特征和所述物体操作指令的文本特征进行融合,得到所述图像特征上的注意力分布;
将所述注意力分布作用到初始的所述图像特征上进行加权,根据加权后的图像特征得到操作参数在各自空间的概率分布,将概率最大值对应的操作参数作为动作参数。
为达到上述目的,本发明另一方面实施例提出了一种基于注意力机制的物体操作指令跟随学习装置,包括:
图像特征提取模块,用于获取目标场景图像,提取所述目标场景图像的图像特征;
文本特征提取模块,用于对物体操作指令进行特征提取得到所述物体操作指令的文本特征;
融合模块,用于通过双线性模型对所述图像特征和所述物体操作指令的文本特征进行融合,得到所述图像特征上的注意力分布;
操作参数生成模块,用于将所述注意力分布作用到初始的所述图像特征上进行加权,根据加权后的图像特征得到操作参数在各自空间的概率分布,将概率最大值对应的操作参数作为动作参数。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明一个实施例的基于注意力机制的物体操作指令跟随学习方法流程图;
图2为根据本发明一个具体实施例的基于注意力机制的物体操作指令跟随学习方法流程图;
图3为根据本发明一个实施例的基于注意力机制的物体操作指令跟随装置结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参照附图描述根据本发明实施例提出的基于注意力机制的物体操作指令跟随学习方法及装置。
首先将参照附图描述根据本发明实施例提出的基于注意力机制的物体操作指令跟随学习方法。
图1为根据本发明一个实施例的基于注意力机制的物体操作指令跟随学习方法流程图。
如图1所示,该基于注意力机制的物体操作指令跟随学习方法包括以下步骤:
步骤S1,获取目标场景图像,提取目标场景图像的图像特征。
可选地,将目标场景图像进行裁剪,利用图像特征提取网络提取目标场景图像的图像特征。
具体地,将场景图片尺寸裁剪为224×224,图像特征提取网络采用经ImageNet数据集预训练后的ResNet101模型初始化其图像卷积层的网络参数,提取到的特征图尺寸为2048×7×7。
步骤S2,对物体操作指令进行特征提取得到物体操作指令的文本特征。
进一步地,对物体操作指令进行特征提取得到物体操作指令的文本特征,包括:
在物体操作指令前端进行固定字符填充;
采用词嵌入方法通过一个浅层神经网络将物体操作指令中的每一个单词映射成稠密向量,再对物体操作指令的向量序列进行处理得到物体操作指令的文本特征。
为了解决指令长短不一的问题,在指令的前端进行固定字符填充,使其变成长度为60的字符蓄力。采用GRU网络抽取操作指令的文本特征,输出维数设置为2400,词嵌入采用基于物体操作指令数据集语料库构建的全局词向量进行初始化。
步骤S3,通过双线性模型对图像特征和物体操作指令的文本特征进行融合,得到图像特征上的注意力分布。
图像特征上的注意力分布包括两张注意力图,分别代表对抓取位置和放置位置的关注。
具体地,定语言特征q和二维网格S×S上的图像特征F,可以按照下式得到在二维网格S×S上的注意力图α。
其中,是在二维网格S×S上的概率分布,P∈Rd×1,σ是非线性激活函数,U∈Rn×d,q∈Rn,V∈Rm×d,d是投影后特征空间的维度。是全1向量,其作用是将经U投影后的文本特征复制S2遍,从而能够和投影后的图像特征进行哈达玛积。为了简化,未列出偏置项。在这一部分,基于提取到的图像特征和文本特征,要生成两张注意力图,分别代表对抓取位置和放置位置的关注。
步骤S4,将注意力分布作用到初始的图像特征上进行加权,根据加权后的图像特征得到操作参数在各自空间的概率分布,将概率最大值对应的操作参数作为动作参数。
进一步地,将图像特征上的注意力分布分别作用到初始的图像特征上,得到融合后的抓取位置特征和放置位置特征;
基于抓取位置特征和放置位置特征生成三个动作分支,其中两个分支分别对抓取位置特征和放置位置特征不断上采样,得到与目标场景图像同尺寸的抓取位置概率分布图和放置位置概率分布图,另一分支则对抓取位置特征继续下采样输出对应于抓取位置的抓取角度概率分布;
将抓取位置概率分布图、放置位置概率分布图和抓取角度概率分布中的概率最大值作为最终的抓取位置、抓取角度、放置位置。
具体地,得到注意力图后,作用到初始的图像特征上,得到两组融合后的特征,分别是抓取位置特征和放置位置特征,基于该特征生成三个动作分支,其中两个分支分别对抓取位置特征和放置位置特征不断上采样,得到在场景中的抓取位置概率分布图和放置位置概率分布图,其尺寸和输入的场景图片一样。另一分支则对抓取位置特征继续下采样输出对应于抓取位置的抓取角度概率分布。
综上,本发明的实施例输入单张场景图片和物体操作指令,不直接预测抓取位置、抓取角度及放置位置,而是基于注意力机制输出三种动作参数的概率分布,概率最大值便是最终的动作。为了能够进行端到端的学习,首先提取操作台图片的图像特征和物体操作指令的文本特征,并利用双线性模型对图像特征和文本特征进行融合,得到在图像特征上的注意力分布,共两种注意力分布,一种表征对抓取物体的关注,一中表征对放置位置的关注。对加权后的图像特征进行上采样,输出与场景图片同尺寸的抓取位置概率分布图和放置位置概率图,同时得到对应于抓取位置的抓取角度概率分布。
根据本发明实施例提出的基于注意力机制的物体操作指令跟随学习方法,通过输入单张当前场景的图片和物体操作指令,能够基于注意力机制直接预测在场景中的操作参数概率分布,包括抓取位置、抓取角度、放置位置三个参数,取概率最大值便是最终动作。采用端到端的网络结构,部署到机器人系统中,能够正确理解人表达的物体操作指令,同时能够生成正确的抓取参数将目标物体抓起来,并放到正确的位置,使得场景变化符合物体操作指令的要求。
其次参照附图描述根据本发明实施例提出的基于注意力机制的物体操作指令跟随学习装置。
图3为根据本发明一个实施例的基于注意力机制的物体操作指令跟随学习装置结构示意图。
如图3所示,该基于注意力机制的物体操作指令跟随学习装置包括:图像特征提取模块301、文本特征提取模块302、融合模块303和操作参数生成模块304。
图像特征提取模块301,用于获取目标场景图像,提取目标场景图像的图像特征。
文本特征提取模块302,用于对物体操作指令进行特征提取得到物体操作指令的文本特征。
融合模块303,用于通过双线性模型对图像特征和物体操作指令的文本特征进行融合,得到图像特征上的注意力分布。
操作参数生成模块304,用于将注意力分布作用到初始的图像特征上进行加权,根据加权后的图像特征得到操作参数在各自空间的概率分布,将概率最大值对应的操作参数作为动作参数。
进一步地,提取目标场景图像的图像特征,包括:
将目标场景图像进行裁剪,利用图像特征提取网络提取目标场景图像的图像特征。
进一步地,文本特征提取模块,具体用于,在物体操作指令前端进行固定字符填充;
采用词嵌入方法通过一个浅层神经网络将物体操作指令中的每一个单词映射成稠密向量,再对物体操作指令的向量序列进行处理得到物体操作指令的文本特征。
进一步地,图像特征上的注意力分布,包括两张注意力图,分别代表对抓取位置和放置位置的关注。
进一步地,操作参数生成模块,具体用于,
将图像特征上的注意力分布分别作用到初始的图像特征上,得到融合后的抓取位置特征和放置位置特征;
基于抓取位置特征和放置位置特征生成三个动作分支,其中两个分支分别对抓取位置特征和放置位置特征不断上采样,得到与目标场景图像同尺寸的抓取位置概率分布图和放置位置概率分布图,另一分支则对抓取位置特征继续下采样输出对应于抓取位置的抓取角度概率分布;
将抓取位置概率分布图、放置位置概率分布图和抓取角度概率分布中的概率最大值作为最终的抓取位置、抓取角度、放置位置。
需要说明的是,前述对方法实施例的解释说明也适用于该实施例的装置,此处不再赘述。
根据本发明实施例提出的基于注意力机制的物体操作指令跟随学习装置,通过输入单张当前场景的图片和物体操作指令,能够基于注意力机制直接预测在场景中的操作参数概率分布,包括抓取位置、抓取角度、放置位置三个参数,取概率最大值便是最终动作。采用端到端的网络结构,部署到机器人系统中,能够正确理解人表达的物体操作指令,同时能够生成正确的抓取参数将目标物体抓起来,并放到正确的位置,使得场景变化符合物体操作指令的要求。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (6)
1.一种基于注意力机制的物体操作指令跟随学习方法,其特征在于,包括以下步骤:
获取目标场景图像,提取所述目标场景图像的图像特征;
对物体操作指令进行特征提取得到所述物体操作指令的文本特征;
通过双线性模型对所述图像特征和所述物体操作指令的文本特征进行融合,得到所述图像特征上的注意力分布;其中,所述图像特征上的注意力分布包括两张注意力图,分别代表对抓取位置和放置位置的关注;
将所述注意力分布作用到初始的所述图像特征上进行加权,根据加权后的图像特征得到操作参数在各自空间的概率分布,将概率最大值对应的操作参数作为动作参数;具体包括:将所述图像特征上的注意力分布分别作用到初始的图像特征上,得到融合后的抓取位置特征和放置位置特征;基于所述抓取位置特征和所述放置位置特征生成三个动作分支,其中两个分支分别对抓取位置特征和放置位置特征不断上采样,得到与目标场景图像同尺寸的抓取位置概率分布图和放置位置概率分布图,另一分支则对抓取位置特征继续下采样输出对应于抓取位置的抓取角度概率分布;将所述抓取位置概率分布图、所述放置位置概率分布图和所述抓取角度概率分布中的概率最大值作为最终的抓取位置、抓取角度、放置位置。
2.根据权利要求1所述的方法,其特征在于,所述提取所述目标场景图像的图像特征,包括:
将所述目标场景图像进行裁剪,利用图像特征提取网络提取所述目标场景图像的图像特征。
3.根据权利要求1所述的方法,其特征在于,所述对物体操作指令进行特征提取得到所述物体操作指令的文本特征,包括:
在所述物体操作指令前端进行固定字符填充;
采用词嵌入方法通过一个浅层神经网络将物体操作指令中的每一个单词映射成稠密向量,再对所述物体操作指令的向量序列进行处理得到所述物体操作指令的文本特征。
4.一种基于注意力机制的物体操作指令跟随学习装置,其特征在于,包括:
图像特征提取模块,用于获取目标场景图像,提取所述目标场景图像的图像特征;
文本特征提取模块,用于对物体操作指令进行特征提取得到所述物体操作指令的文本特征;
融合模块,用于通过双线性模型对所述图像特征和所述物体操作指令的文本特征进行融合,得到所述图像特征上的注意力分布;其中,所述图像特征上的注意力分布包括两张注意力图,分别代表对抓取位置和放置位置的关注;
操作参数生成模块,用于将所述注意力分布作用到初始的所述图像特征上进行加权,根据加权后的图像特征得到操作参数在各自空间的概率分布,将概率最大值对应的操作参数作为动作参数;所述操作参数生成模块具体用于,将所述图像特征上的注意力分布分别作用到初始的图像特征上,得到融合后的抓取位置特征和放置位置特征;基于所述抓取位置特征和所述放置位置特征生成三个动作分支,其中两个分支分别对抓取位置特征和放置位置特征不断上采样,得到与目标场景图像同尺寸的抓取位置概率分布图和放置位置概率分布图,另一分支则对抓取位置特征继续下采样输出对应于抓取位置的抓取角度概率分布;将所述抓取位置概率分布图、所述放置位置概率分布图和所述抓取角度概率分布中的概率最大值作为最终的抓取位置、抓取角度、放置位置。
5.根据权利要求4所述的装置,其特征在于,所述提取所述目标场景图像的图像特征,包括:
将所述目标场景图像进行裁剪,利用图像特征提取网络提取所述目标场景图像的图像特征。
6.根据权利要求4所述的装置,其特征在于,所述文本特征提取模块,具体用于,在所述物体操作指令前端进行固定字符填充;
采用词嵌入方法通过一个浅层神经网络将物体操作指令中的每一个单词映射成稠密向量,再对所述物体操作指令的向量序列进行处理得到所述物体操作指令的文本特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110500653.6A CN113326933B (zh) | 2021-05-08 | 2021-05-08 | 基于注意力机制的物体操作指令跟随学习方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110500653.6A CN113326933B (zh) | 2021-05-08 | 2021-05-08 | 基于注意力机制的物体操作指令跟随学习方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113326933A CN113326933A (zh) | 2021-08-31 |
CN113326933B true CN113326933B (zh) | 2022-08-09 |
Family
ID=77415047
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110500653.6A Active CN113326933B (zh) | 2021-05-08 | 2021-05-08 | 基于注意力机制的物体操作指令跟随学习方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113326933B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108648233A (zh) * | 2018-03-24 | 2018-10-12 | 北京工业大学 | 一种基于深度学习的目标识别与抓取定位方法 |
CN110125930A (zh) * | 2019-04-18 | 2019-08-16 | 华中科技大学 | 一种基于机器视觉和深度学习的机械臂抓取控制方法 |
CN110263912A (zh) * | 2019-05-14 | 2019-09-20 | 杭州电子科技大学 | 一种基于多目标关联深度推理的图像问答方法 |
CN111026873A (zh) * | 2019-10-24 | 2020-04-17 | 中国人民解放军军事科学院国防科技创新研究院 | 无人车及其导航方法、装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017151926A1 (en) * | 2016-03-03 | 2017-09-08 | Google Inc. | Deep machine learning methods and apparatus for robotic grasping |
-
2021
- 2021-05-08 CN CN202110500653.6A patent/CN113326933B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108648233A (zh) * | 2018-03-24 | 2018-10-12 | 北京工业大学 | 一种基于深度学习的目标识别与抓取定位方法 |
CN110125930A (zh) * | 2019-04-18 | 2019-08-16 | 华中科技大学 | 一种基于机器视觉和深度学习的机械臂抓取控制方法 |
CN110263912A (zh) * | 2019-05-14 | 2019-09-20 | 杭州电子科技大学 | 一种基于多目标关联深度推理的图像问答方法 |
CN111026873A (zh) * | 2019-10-24 | 2020-04-17 | 中国人民解放军军事科学院国防科技创新研究院 | 无人车及其导航方法、装置 |
Non-Patent Citations (3)
Title |
---|
Location Instruction-Based Motion Generation for Sequential Robotic Manipulation;Quanquan Shao等;《IEEE Access》;20200204;全文 * |
基于计算机视觉的物体抓取识别算法研究;赵敏;《信息与电脑(理论版)》;20200610(第11期);全文 * |
深度学习在智能机器人中的应用研究综述;龙慧等;《计算机科学》;20181115;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113326933A (zh) | 2021-08-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ma et al. | Progressively generating better initial guesses towards next stages for high-quality human motion prediction | |
Ito et al. | Efficient multitask learning with an embodied predictive model for door opening and entry with whole-body control | |
Singh et al. | NAO humanoid robot: Analysis of calibration techniques for robot sketch drawing | |
Stengel-Eskin et al. | Guiding multi-step rearrangement tasks with natural language instructions | |
Thalmann et al. | Nadine: A social robot that can localize objects and grasp them in a human way | |
Valarezo Anazco et al. | Natural object manipulation using anthropomorphic robotic hand through deep reinforcement learning and deep grasping probability network | |
Heiden et al. | Augmenting differentiable simulators with neural networks to close the sim2real gap | |
Zheng et al. | Materobot: Material recognition in wearable robotics for people with visual impairments | |
Kushwaha et al. | Generating quality grasp rectangle using Pix2Pix GAN for intelligent robot grasping | |
CN113326933B (zh) | 基于注意力机制的物体操作指令跟随学习方法及装置 | |
Ito et al. | Integrated learning of robot motion and sentences: Real-time prediction of grasping motion and attention based on language instructions | |
Yang et al. | Robotic pushing and grasping knowledge learning via attention deep Q-learning network | |
Murata et al. | Achieving human–robot collaboration with dynamic goal inference by gradient descent | |
Jani et al. | 3D affine registration using teaching-learning based optimization | |
Park et al. | Scalable learned geometric feasibility for cooperative grasp and motion planning | |
Fu et al. | Extracting motor synergies from random movements for low-dimensional task-space control of musculoskeletal robots | |
Alizadeh Kolagar et al. | NAO robot learns to interact with humans through imitation learning from video observation | |
Hossain et al. | Application of deep belief neural network for robot object recognition and grasping | |
Kim et al. | Special issue on smart interactions in cyber-physical systems: Humans, agents, robots, machines, and sensors | |
Wang et al. | Probabilistic graph based spatial assembly relation inference for programming of assembly task by demonstration | |
Xin et al. | Visual servoing of unknown objects for family service robots | |
Singh et al. | Self-Supervised 3D Representation Learning for Robotics | |
Luo et al. | Transformer-based vision-language alignment for robot navigation and question answering | |
Grace et al. | Interpretation-driven mapping: A framework for conducting search and rerepresentation in parallel for computational analogy in design | |
CN116805423B (zh) | 一种基于结构重参数化的轻量级人体姿态估计算法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |