CN117930982A - 任务执行方法、装置,设备及计算机介质 - Google Patents

任务执行方法、装置,设备及计算机介质 Download PDF

Info

Publication number
CN117930982A
CN117930982A CN202410130685.5A CN202410130685A CN117930982A CN 117930982 A CN117930982 A CN 117930982A CN 202410130685 A CN202410130685 A CN 202410130685A CN 117930982 A CN117930982 A CN 117930982A
Authority
CN
China
Prior art keywords
instance
target
user
image information
task
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410130685.5A
Other languages
English (en)
Inventor
张翰博
许杰
黎意枫
孔涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Youzhuju Network Technology Co Ltd
Original Assignee
Beijing Youzhuju Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Youzhuju Network Technology Co Ltd filed Critical Beijing Youzhuju Network Technology Co Ltd
Priority to CN202410130685.5A priority Critical patent/CN117930982A/zh
Publication of CN117930982A publication Critical patent/CN117930982A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • G06V10/235Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on user input or interaction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/35Categorising the entire scene, e.g. birthday party or wedding scene

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Manipulator (AREA)

Abstract

本公开公开了一种任务执行方法、装置,设备及计算机介质,其中,方法包括:展示获取到的环境图像信息;响应于用户对所述环境图像信息的操作,控制握持装置执行所述操作对应的任务,可起到提高用户与智能机器人的交互效率的作用。

Description

任务执行方法、装置,设备及计算机介质
技术领域
本公开属于智能控制技术领域,尤其涉及一种任务执行方法、装置,设备及计算机介质。
背景技术
随着人工智能和智能机器人技术的不断发展,智能机器人已经成为人类生活中不可或缺的一部分。人机交互技术则是人与智能机器人之间进行交流、控制和操作的一种重要方式。人机交互技术旨在通过利用语音、图像和触觉等信息,实现人与智能机器人之间的信息交换和虚实空间中的信息传递。在当前数字化和信息化的社会背景下,人机交互技术的应用越来越广泛,不仅涉及到个人消费领域,如智能手机、智能手表、智能音箱等,还应用于医疗、教育、娱乐等领域。同时,随着元宇宙概念的兴起,人机交互技术也将在虚实融合方面发挥更加重要的作用。因此,开发一种智能、自然、人性化的人机交互技术,将会是未来科技领域的重要方向之一。
相关技术中,用户在与智能机器人的交互过程中,需要使用特定的语言或者指令来控制智能机器人,需要耗费较多时间,用户与智能机器人的交互效率较低。
发明内容
本公开实施例提供一种与相关技术不同的实现方案,以解决相关技术中用户与智能机器人的交互效率较低的技术问题。
第一方面,本公开提供一种任务执行方法,适用于智能机器人,包括:展示获取到的环境图像信息;响应于用户对所述环境图像信息的操作,控制握持装置执行所述操作对应的任务。
第二方面,本公开提供一种任务执行装置,包括:
展示单元,用于展示获取到的环境图像信息;
控制单元,用于响应于用户对所述环境图像信息的操作,控制握持装置执行所述操作对应的任务。第三方面,本公开提供一种电子设备,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行第一方面、或第二方面各可能的实施方式中的任一方法。
第四方面,本公开实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面,或第一方面各可能的实施方式中的任一方法。
本公开提供的展示获取到的环境图像信息;响应于用户对所述环境图像信息的操作,控制握持装置执行所述操作对应的任务的方案,可以使得用户仅基于对环境图像信息的操作,就能实现对智能机器人的握持装置的控制,无需繁杂的语言或者指令,耗费时间较少,提高了用户与智能机器人的交互效率。
附图说明
为了更清楚地说明本公开实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本公开一实施例提供的一种任务执行系统的结构示意图;
图2a为本公开一实施例提供的任务执行方法的流程示意图;
图2b为本公开一实施例提供的环境图像信息的示意图;
图2c为本公开一实施例提供的至少一个第一实例的示意图;
图2d为本公开一实施例提供的任务执行方法中,具体的展示内容的示意图;
图3为本公开一实施例提供的任务执行装置的结构示意图;
图4为本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
下面详细描述本公开的实施例,所述实施例的示例在附图中示出。下面通过参考附图描述的实施例是示例性的,旨在用于解释本公开,而不能理解为对本公开的限制。
本公开中的术语“第一”和“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开实施例的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
随着人工智能和智能机器人技术的不断发展,智能机器人已经成为人类生活中不可或缺的一部分。人机交互技术则是人与智能机器人之间进行交流、控制和操作的一种重要方式。人机交互技术旨在通过利用语音、图像和触觉等信息,实现人与智能机器人之间的信息交换和虚实空间中的信息传递。在当前数字化和信息化的社会背景下,人机交互技术的应用越来越广泛,不仅涉及到个人消费领域,如智能手机、智能手表、智能音箱等,还应用于医疗、教育、娱乐等领域。同时,随着元宇宙概念的兴起,人机交互技术也将在虚实融合方面发挥更加重要的作用。因此,开发一种智能、自然、人性化的人机交互技术,将会是未来科技领域的重要方向之一。
相关技术中,用户在与智能机器人的交互过程中,需要使用特定的语言或者指令来控制智能机器人,需要耗费较多时间,用户与智能机器人的交互效率较低。并且,这种交互方式容易出现歧义和误解,导致智能机器人不能准确地理解用户的意图。例如,当用户使用语言来下达指令时,由于语言具有模糊性,往往需要多轮对话才能完成任务。这不仅浪费了用户的时间,还会降低用户的体验和满意度。
另外,现有的智能机器人技术还存在着一定的安全隐患。由于智能机器人无法准确地识别用户的身份和权限,很容易被未经授权的人员进行操控,导致智能机器人执行错误的指令或者操作。这不仅会对用户的财产和安全造成威胁,还会对智能机器人本身的安全性和稳定性产生不利影响。
本申请提供一种方案用于解决前述问题。
下面以具体的实施例对本公开的技术方案以及本公开的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本公开的实施例进行描述。
首先,图1为本公开一示例性实施例提供的一种任务执行系统的结构示意图,该结构包括智能机器人10,智能机器人10可用于:展示获取到的环境图像信息;响应于用户对所述环境图像信息的操作,控制握持装置执行所述操作对应的任务。
具体地,智能机器人10上可设置有显示屏、图像采集装置,以及前述握持装置。其中,图像采集装置可用于采集环境图像信息,前述显示屏可用于展示环境图像信息,握持装置可以握持物体,例如,水杯、乒乓球等。在本申请的另一些可选的实施例中,前述任务执行系统还包括:终端20。
智能机器人10可通过图像采集装置采集环境图像信息,并将环境图像信息发送至终端20,供终端20展示环境图像信息。前述展示获取到的环境图像信息指:将获取到的环境图像信息发送至终端20,使终端20展示所述环境图像信息。
可选地,前述响应于用户对所述环境图像信息的操作,控制握持装置执行所述操作对应的任务,可以指终端20响应于用户对环境图像信息的操作,将操作的相关信息发送至智能机器人10,使得智能机器人10控制握持装置执行所述操作对应的任务。
本系统实施例中的各组成单元,如智能机器人10与终端20的执行原理及交互过程可参见如下各方法实施例的描述。
图2a为本公开一示例性实施例提供的一种任务执行方法的流程示意图,该方法可以适用于智能机器人,该方法至少包括以下步骤:
S201、展示获取到的环境图像信息;
在本申请的一些可选的实施例中,智能机器人可设置有图像采集装置,可采集周围的图像信息,例如,环境图像信息。
智能机器人可设置有显示屏,前述展示获取到的环境图像信息可包括通过显示屏展示获取到的环境图像信息。
可选地,前述展示获取到的环境图像信息还可以指:通过图像采集装置获取环境图像信息,并将环境图像信息发送至终端,供终端展示环境图像信息。
在本申请的一些可选的实施例中,智能机器人可具体根据用户的角度调整指令调整图像采集装置的角度,从而将该角度对应的拍摄内容作为环境图像信息。
S202、响应于用户对所述环境图像信息的操作,控制握持装置执行所述操作对应的任务。
在本申请的一些可选的实施例中,用户可通过智能机器人的显示屏或终端的显示屏对环境图像信息进行操作。
在本申请的一些可选的实施例中,所述方法还包括以下S01-S03:
S01、对环境图像信息进行实例分割,得到所述环境图像信息中包括的至少一个对象对应的至少一个第一实例;
可选地,对象可以指环境图像信息中的物体,例如,树木、桌子、人物等。
可选地,对象与第一实例一一对应。
可选地,本申请中的第一实例指掩模信息。
可选地,实例分割模型的输出是一组掩码或轮廓,它们勾勒出图像中的每个对象,以及每个对象的类标签和置信度分数。其中,此处的类标签与置信度分数也可以指第一实例。
S02、展示所述至少一个第一实例;
在本申请的一些可选的实施例中,前述展示所述至少一个第一实例可以指智能机器人通过自身的显示屏展示至少一个第一实例,也可以指将至少一个第一实例发送至终端,使终端展示至少一个第一实例。
在本申请的另一些可选的实施例中,前述S01-S02也能是终端执行的。
在本申请的一些可选的实施例中,前述环境图像信息可以如图2b所示,其中,环境图像信息中可包括多个对象,如图中的饮料瓶1(对象1)、饮料瓶2(对象2)、碗(对象3),鸡蛋(对象4),以及桌子(对象5)。
可选地,前述展示的至少一个第一实例,可参见图2c所示。在展示各第一实施例时,第一实例的展示位置可以为随机,对此,本申请不做限定。
可选地,前述展示获取到的环境图像信息还可以指:通过图像采集装置获取环境图像信息,并将环境图像信息发送至终端,供终端展示环境图像信息。
在本申请的一些可选的实施例中,智能机器人可具体根据用户的角度调整指令调整图像采集装置的角度,从而将该角度对应的拍摄内容作为环境图像信息。
S03、响应于用户对所述至少一个第一实例中任意第一实例的操作,确定出被操作的目标实例,以及针对所述目标实例的待执行任务;
在本申请的一些可选的实施例中,用户针对所述目标实例的操作包括以下任一种或多种操作;用户移动所述目标实例的操作;用户旋转所述目标实例的操作;用户针对所述目标实例自身的操作。
在本申请的一些可选的实施例中,用户针对目标实例自身的操作可以包括:用户对目标实例进行拆分的操作。
可选地,前述S202中,用户对所述环境图像信息的操作指用户对所述至少一个第一实例中任意第一实例的操作,前述S202中,响应于用户对所述环境图像信息的操作,控制握持装置执行所述操作对应的任务,包括:在检测到用户对所述至少一个第一实例中任意第一实例的操作时,确定出被操作的目标实例,以及针对所述目标实例的待执行任务;基于所述操作控制所述握持装置执行针对所述目标实例的待执行任务。
进一步地,前述S202中,控制握持装置执行所述操作对应的任务,包括:基于所述操作控制所述握持装置执行针对所述目标实例的待执行任务。
在本申请的一些可选的实施例中,当用户针对目标实例的操作为用户移动所述目标实例的操作时,针对所述目标实例的待执行任务,为移动所述目标实例对应的对象。
在本申请的一些可选的实施例中,当用户针对目标实例的操作为用户旋转所述目标实例的操作时,针对所述目标实例的待执行任务,为旋转所述目标实例对应的对象。
在本申请的一些可选的实施例中,用户针对所述目标实例自身的操作为用户拆分目标实例的操作时,针对所述目标实例的待执行任务,为拆分所述目标实例对应的对象。
在一些实施例中,例如,当目标实例为瓶子对应的实例时,用户针对所述目标实例自身的操作为用户拆分目标实例的操作时,针对所述目标实例的待执行任务,为拧开所述目标实例对应的瓶子。
在本申请的一些可选的实施例中,前述S02中,展示所述至少一个第一实例,包括:展示至少一个第一实例中的部分第一实例。
可选地,部分第一实例为至少第一实施例中符合预设条件的第一实例。
可选地,至少第一实例中尺寸小于预设尺寸的第一实例视为符合预设条件的第一实例。
在本申请的一些可选的实施例中,前述S02中,展示所述至少一个第一实例,包括:展示至少一个第一实例中的部分第一实例,以及展示至少一个第一实例中除部分第一实例之外的剩余实例对应的对象。
具体地,可参见图2d所示,在展示部分第一实例与剩余实例对应的对象时,各第一实例与对象的位置可保持不变。
在本申请的一些可选的实施例中,所述方法还包括以下S11-S12:
S11、针对所述至少一个对象中的任一对象,获取用户针对所述对象进行实例分割的指令,对所述对象进行实例分割,得到所述对象对应的至少一个第二实例;
可选地,用户可通过在显示屏上点击对象,触发针对所述对象进行实例分割的指令。
S12、将所述至少一个第二实例作为所述对象对应的一第一实例。
在本申请的一些可选的实施例中,用户针对所述目标实例的操作通过以下任一种或多种方式实现:点选所述目标实例、滑动所述目标实例。
可选地,用户可通过点选目标实例实现对目标实例的选中。
可选地,用户可通过滑动目标实例实现对目标实例的移动和/或旋转。
在本申请的一些可选的实施例中,所述方法还包括以下S21-S22:
S21、针对所述至少一个第一实例中的各第一实例,确定所述第一实例对应的三维模型;
可选地,前述对目标实例的操作,都可以为对目标实例对应的三维模型的操作。
在本申请的一些可选的实施例中,前述针对所述至少一个第一实例中的各第一实例,确定所述第一实例对应的三维模型,包括:针对所述所至少一个第一实例中的各第一实例,将所述第一实例输入至预设的三维模型创建模型,得到所述第一实例对应的三维模型。
在本申请的一些可选的实施例中,前述针对所述至少一个第一实例中的各第一实例,确定所述第一实例对应的三维模型,包括:针对所述所至少一个第一实例中的各第一实例,根据预设的对应关系表,获取所述第一实例对应的三维模型。其中,对应关系表中可存储有多个实例与各实例对应的三维模型。
S22、展示所述至少一个第一实例,包括:展示所述至少一个第一实例对应的至少一个三维模型。
在本申请的一些可选的实施例中,基于所述操作控制所述握持装置执行针对所述目标实例的待执行任务,包括以下S1-S3:
S1、从所述环境图像信息中确定所述目标实例对应的待握持对象;
S2、基于所述操作确定所述待握持对象的移动参数信息;
在本申请的一些可选的实施例中,基于所述操作确定待握持对象的移动参数信息,包括:
当操作为用户移动所述目标实例的操作时,获取所述目标实例的初始位置;
获取所述目标实例被移动至的目标位置;
基于所述初始位置与所述目标位置确定所述待握持对象的移动参数信息。
在一些可选的实施例中,基于所述初始位置与所述目标位置确定所述待握持对象的移动参数信息,包括:基于所述初始位置与所述目标位置确定出握持装置的移动轨迹;基于所述移动轨迹确定待握持对象的移动参数信息。
在本申请的一些可选的实施例中,基于所述初始位置与所述目标位置确定出握持装置的移动轨迹,可包括:
获取包括所述初始位置与所述目标位置的图像信息;
依据所述图像信息规划握持装置的移动轨迹。
可选地,在依据所述图像信息规划握持装置的移动轨迹时,具体可按照避开初始位置与所述目标位置之间的障碍物的原则规划握持装置的移动轨迹。
在本申请的一些可选的实施例中,前述包括所述初始位置与所述目标位置的图像信息可以为前述环境图像信息中的部分图像信息。
在一些可选的实施例中,基于所述初始位置与所述目标位置确定所述待握持对象的移动参数信息,包括:基于所述初始位置与所述目标位置确定出握持装置的移动轨迹;基于所述初始位置、所述目标位置,以及所述移动轨迹确定待握持对象的移动参数信息。
可选地,基于所述移动轨迹确定待握持对象的移动参数信息包括:将移动轨迹作为待握持对象的移动参数信息。
可选地,基于所述初始位置、所述目标位置,以及所述移动轨迹确定待握持对象的移动参数信息,包括:将所述初始位置、所述目标位置,以及所述移动轨迹确定待握持对象的移动参数信息。
在一些可选的实施例中,基于所述初始位置与所述目标位置确定所述待握持对象的移动参数信息,包括:将所述初始位置与所述目标位置确定所述待握持对象的移动参数信息。
在本申请的一些可选的实施例中,基于所述操作确定待握持对象的旋转参数信息,包括:
当操作为用户旋转所述目标实例的操作时,获取所述目标实例的初始位姿;
获取所述目标实例被旋转至的目标位姿;
基于所述初始位姿与所述目标位姿确定所述待握持对象的移动参数信息。
在一些可选的实施例中,基于所述初始位姿与所述目标位姿确定所述待握持对象的移动参数信息,包括:将所述初始位姿与所述目标位姿确定所述待握持对象的移动参数信息。
在一些可选的实施例中,基于所述初始位姿与所述目标位姿确定所述待握持对象的移动参数信息,包括:基于所述初始位姿与所述目标位姿确定出握持装置的移动轨迹;基于所述移动轨迹确定待握持对象的移动参数信息。
在一些可选的实施例中,基于所述初始位姿与所述目标位姿确定所述待握持对象的移动参数信息,包括:基于所述初始位姿与所述目标位姿确定出握持装置的移动轨迹;基于所述初始位姿、所述目标位姿,以及所述移动轨迹确定待握持对象的移动参数信息。
可选地,基于所述移动轨迹确定待握持对象的移动参数信息包括:将移动轨迹作为待握持对象的移动参数信息。
可选地,基于所述初始位姿、所述目标位姿,以及所述移动轨迹确定待握持对象的移动参数信息,包括:将所述初始位姿、所述目标位姿,以及所述移动轨迹确定待握持对象的移动参数信息。
在本申请的一些可选的实施例中,基于所述操作确定待握持对象的移动参数信息,包括:
当操作为用户针对所述目标实例进行拆分的操作时,获取所述目标实例中包括的多个子实例的多个初始位置,其中,子实例与初始位置一一对应;
获取所述多个子实例的多个目标位置;
基于所述多个初始位置与所述多个目标位置确定所述待握持对象的移动参数信息。
在一些可选的实施例中,基于所述多个初始位置与所述多个目标位置确定所述待握持对象的移动参数信息,包括:将所述多个初始位置与所述多个目标位置确定所述待握持对象的移动参数信息。
在一些可选的实施例中,基于所述多个初始位置与所述多个目标位置确定所述待握持对象的移动参数信息,包括:基于所述多个初始位置与所述多个目标位置确定出握持装置的移动轨迹;将所述移动轨迹作为待握持对象的移动参数信息。
S3、控制所述握持装置基于所述移动参数信息执行所述针对所述目标实例的待执行任务。
在本申请的一些可选的实例中,控制所述握持装置基于所述移动参数信息执行所述针对所述目标实例的待执行任务,可包括:
控制所述握持装置基于依据所述移动参数信息确定的移动轨迹移动,以执行所述针对所述目标实例的待执行任务。
其中,控制所述握持装置移动过程中需握持目标实例,以实现针对所述目标实例的待执行任务。
需要说明的是,本申请中提高的移动轨迹可以包括位移,也可以包括角度的变化量。
在本申请的一些可选的实施例中,当用户同时选中2个第一实例时,该2个第一实例则为2个目标实例,此时可确定针对所述目标实例的待执行任务可以为将该2个第一实例对应的对象进行叠放。例如,其中一目标实例对应的对象为鸡蛋,另一目标实例对应的对象为盘子时,针对所述目标实例的待执行任务可以为将该鸡蛋放在盘子里。
具体地,当针对所述目标实例的待执行任务可以为将该2个第一实例对应的对象进行叠放时,控制握持装置执行所述操作对应的任务,包括:控制握持装置将所述2个第一实例中尺寸最小的第一实例对应的对象放置于另一个第一实例对应的对象上。
在本申请的一些可选的实施例中,当用户针对目标实例的操作为用户移动所述目标实例的操作时,针对所述目标实例的待执行任务,为移动所述目标实例对应的对象。若移动参数信息包括目标实例的所述初始位置、所述目标位置,以及握持装置的移动轨迹时,控制所述握持装置基于所述移动参数信息执行所述针对所述目标实例的待执行任务,包括:
控制所述握持装置移动至所述初始位置,并握持住目标实例对应的对象;
在握持目标实例对应的对象的同时,基于所述移动轨迹进行移动,直至移动至目标位置,控制放开握持住的目标实例对应的对象。
其中,控制放开握持住的目标实例对应的对象至指在目标位置处放置目标实例对应的对象。
在本申请的一些可选的实施例中,握持装置在握持目标实例对应的对象时的位姿,可以由握持姿态检测模型(例如Contact-Graspnet)生成。
可选地,关于放置目标实例对应的对象的放置位姿,可根据目标实例对应的三维模型与用户设定的放置位姿确定。具体地,还可结合PDDL(Planning Domain DefinitionLanguage,规划领域定义语言)实现,对此,本申请不做限定。
可选地,根据目标物体实例三维模型和用户设定的目标放置姿态生成目标物体放置时的抓取位姿。
可选地,前述握持位置为智能机器人的部分结构,当智能机器人还包括其他为了便于执行相应的任务需确定的结构的移动参数信息时,本方法还包括其他结构的移动参数信息的确定。
需要说明的是,本申请中确定的握持装置的移动轨迹为在所述初始位置与所述目标位置之间确定插值而生成的无碰撞的运动轨迹。
需要说明的是,本申请用户对所述环境图像信息的操作可以为用户通过显示屏触发的指令,也可以为用户基于显示屏的展示内容的语音指令。
在本申请的一些可选的实施例中,在握持装置握持目标实例对应的对象时,可通过设置于握持装置处的相机实时检测目标实例对应的对象是否已被握持成功,在握持失败时,控制握持装置重新握持,以保证成功握持目标实例对应的对象。
本公开提供的展示获取到的环境图像信息;响应于用户对所述环境图像信息的操作,控制握持装置执行所述操作对应的任务的方案,可以使得用户仅基于对环境图像信息的操作,就能实现对智能机器人的握持装置的控制,无需繁杂的语言或者指令,耗费时间较少,提高了用户与智能机器人的交互效率。
在申请的一些可选的实施例中,为了提高操控智能机器人的安全性,上述方法还包括:获取用户的图像信息;基于用户的图像信息确定用户是否为有权限控制智能机器人的用户,若是,则触发执行展示获取到的环境图像信息。通过该方式可以提高用户在控制智能机器人时的安全性。
通过本申请的方案,可通过多种模态,如图像、显示屏输入指令、语音指令等方式实现用户与智能机器人的交互,提高了用户与智能机器人的交互效率。并且,用户可以直接在终端上与智能机器人进行多模态交互并预览最终任务目标,控制机器人精准的完成任务.实现所见即所得的机器人控制效果。
本申请还提供一种任务执行装置,图3为该任务执行装置的结构示意图,该装置包括:
展示单元31,用于展示获取到的环境图像信息;
控制单元32,用于响应于用户对所述环境图像信息的操作,控制握持装置执行所述操作对应的任务。
根据本公开的一个或多个实施例,所述装置还用于:
对环境图像信息进行实例分割,得到所述环境图像信息中包括的至少一个对象对应的至少一个第一实例;
展示所述至少一个第一实例;
响应于用户对所述至少一个第一实例中任意第一实例的操作,确定出被操作的目标实例,以及针对所述目标实例的待执行任务;
控制握持装置执行所述操作对应的任务,包括:基于所述操作控制所述握持装置执行针对所述目标实例的待执行任务。
根据本公开的一个或多个实施例,所述装置还用于:
针对所述至少一个对象中的任一对象,获取用户针对所述对象进行实例分割的指令,对所述对象进行实例分割,得到所述对象对应的至少一个第二实例;
将所述至少一个第二实例作为所述对象对应的一第一实例。
根据本公开的一个或多个实施例,,用户针对所述目标实例的操作包括以下任一种或多种操作;
用户移动所述目标实例的操作;
用户旋转所述目标实例的操作;
用户针对所述目标实例自身的操作。
根据本公开的一个或多个实施例,用户针对所述目标实例的操作通过以下任一种或多种方式实现:
点选所述目标实例、滑动所述目标实例。
根据本公开的一个或多个实施例,所述装置还用于:
针对所述至少一个第一实例中的各第一实例,确定所述第一实例对应的三维模型;
展示所述至少一个第一实例,包括:展示所述至少一个第一实例对应的至少一个三维模型。
根据本公开的一个或多个实施例,所述装置在用于基于所述操作控制所述握持装置执行针对所述目标实例的待执行任务时,具体用于:
从所述环境图像信息中确定所述目标实例对应的待握持对象;
基于所述操作确定所述待握持对象的移动参数信息;
控制所述握持装置基于所述移动参数信息执行所述针对所述目标实例的待执行任务。
根据本公开的一个或多个实施例,所述装置在用于基于所述操作确定待握持对象的移动参数信息时,具体用于:
当操作为用户移动所述目标实例的操作时,获取所述目标实例的初始位置;
获取所述目标实例被移动至的目标位置;
基于所述初始位置与所述目标位置确定所述待握持对象的移动参数信息。
根据本公开的一个或多个实施例,所述装置在用于基于所述初始位置与所述目标位置确定所述待握持对象的移动参数信息时,具体用于:
基于所述初始位置与所述目标位置确定出握持装置的移动轨迹;
基于所述移动轨迹确定待握持对象的移动参数信息。
应理解的是,装置实施例与方法实施例可以相互对应,类似的描述可以参照方法实施例。为避免重复,此处不再赘述。具体地,该装置可以执行上述方法实施例,并且该装置中的各个模块的前述和其它操作和/或功能分别为了上述方法实施例中的各个方法中的相应流程,为了简洁,在此不再赘述。
上文中结合附图从功能模块的角度描述了本公开实施例的装置。应理解,该功能模块可以通过硬件形式实现,也可以通过软件形式的指令实现,还可以通过硬件和软件模块组合实现。具体地,本公开实施例中的方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路和/或软件形式的指令完成,结合本公开实施例公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。可选地,软件模块可以位于随机存储器,闪存、只读存储器、可编程只读存储器、电可擦写可编程存储器、寄存器等本领域的成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法实施例中的步骤。
图4是本公开实施例提供的电子设备的示意性框图,该电子设备可包括:
存储器401和处理器402,该存储器401用于存储计算机程序,并将该程序代码传输给该处理器402。换言之,该处理器402可以从存储器401中调用并运行计算机程序,以实现本公开实施例中的方法。
例如,该处理器402可用于根据该计算机程序中的指令执行上述方法实施例。
在本公开的一些实施例中,该处理器402可以包括但不限于:
通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(FieldProgrammable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等等。
在本公开的一些实施例中,该存储器401包括但不限于:
易失性存储器和/或非易失性存储器。其中,非易失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double DataRate SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(synch link DRAM,SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM,DR RAM)。
在本公开的一些实施例中,该计算机程序可以被分割成一个或多个模块,该一个或者多个模块被存储在该存储器401中,并由该处理器402执行,以完成本公开提供的方法。该一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述该计算机程序在该电子设备中的执行过程。
如图4所示,该电子设备还可包括:
收发器403,该收发器403可连接至该处理器402或存储器401。
其中,处理器402可以控制该收发器403与其他设备进行通信,具体地,可以向其他设备发送信息或数据,或接收其他设备发送的信息或数据。收发器403可以包括发射机和接收机。收发器403还可以进一步包括天线,天线的数量可以为一个或多个。
应当理解,该电子设备中的各个组件通过总线系统相连,其中,总线系统除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。
本公开还提供了一种计算机存储介质,其上存储有计算机程序,该计算机程序被计算机执行时使得该计算机能够执行上述方法实施例的方法。或者说,本公开实施例还提供一种包含指令的计算机程序产品,该指令被计算机执行时使得计算机执行上述方法实施例的方法。
当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时,全部或部分地产生按照本公开实施例该的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如数字视频光盘(digital video disc,DVD))、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
根据本公开的一个或多个实施例,提供一种任务执行方法,适用于智能机器人,包括:
展示获取到的环境图像信息;
响应于用户对所述环境图像信息的操作,控制握持装置执行所述操作对应的任务。
根据本公开的一个或多个实施例,所述方法还包括:
对环境图像信息进行实例分割,得到所述环境图像信息中包括的至少一个对象对应的至少一个第一实例;
展示所述至少一个第一实例;
响应于用户对所述至少一个第一实例中任意第一实例的操作,确定出被操作的目标实例,以及针对所述目标实例的待执行任务;
控制握持装置执行所述操作对应的任务,包括:基于所述操作控制所述握持装置执行针对所述目标实例的待执行任务。
根据本公开的一个或多个实施例,所述方法还包括:
针对所述至少一个对象中的任一对象,获取用户针对所述对象进行实例分割的指令,对所述对象进行实例分割,得到所述对象对应的至少一个第二实例;
将所述至少一个第二实例作为所述对象对应的一第一实例。
根据本公开的一个或多个实施例,用户针对所述目标实例的操作包括以下任一种或多种操作;
用户移动所述目标实例的操作;
用户旋转所述目标实例的操作;
用户针对所述目标实例自身的操作。
根据本公开的一个或多个实施例,用户针对所述目标实例的操作通过以下任一种或多种方式实现:
点选所述目标实例、滑动所述目标实例。
根据本公开的一个或多个实施例,所述方法还包括:
针对所述至少一个第一实例中的各第一实例,确定所述第一实例对应的三维模型;
展示所述至少一个第一实例,包括:展示所述至少一个第一实例对应的至少一个三维模型。
根据本公开的一个或多个实施例,基于所述操作控制所述握持装置执行针对所述目标实例的待执行任务,包括:
从所述环境图像信息中确定所述目标实例对应的待握持对象;
基于所述操作确定所述待握持对象的移动参数信息;
控制所述握持装置基于所述移动参数信息执行所述针对所述目标实例的待执行任务。
根据本公开的一个或多个实施例,提供一种任务执行装置,包括:
展示单元,用于展示获取到的环境图像信息;
控制单元,用于响应于用户对所述环境图像信息的操作,控制握持装置执行所述操作对应的任务。
根据本公开的一个或多个实施例,所述装置还用于:
对环境图像信息进行实例分割,得到所述环境图像信息中包括的至少一个对象对应的至少一个第一实例;
展示所述至少一个第一实例;
响应于用户对所述至少一个第一实例中任意第一实例的操作,确定出被操作的目标实例,以及针对所述目标实例的待执行任务;
控制握持装置执行所述操作对应的任务,包括:基于所述操作控制所述握持装置执行针对所述目标实例的待执行任务。
根据本公开的一个或多个实施例,所述装置还用于:
针对所述至少一个对象中的任一对象,获取用户针对所述对象进行实例分割的指令,对所述对象进行实例分割,得到所述对象对应的至少一个第二实例;
将所述至少一个第二实例作为所述对象对应的一第一实例。
根据本公开的一个或多个实施例,所述装置在用于基于所述操作控制所述握持装置执行针对所述目标实例的待执行任务时,具体用于:
从所述环境图像信息中确定所述目标实例对应的待握持对象;
基于所述操作确定所述待握持对象的移动参数信息;
控制所述握持装置基于所述移动参数信息执行所述针对所述目标实例的待执行任务。
根据本公开的一个或多个实施例,所述装置在用于基于所述操作确定待握持对象的移动参数信息时,具体用于:
当操作为用户移动所述目标实例的操作时,获取所述目标实例的初始位置;
获取所述目标实例被移动至的目标位置;
基于所述初始位置与所述目标位置确定所述待握持对象的移动参数信息。
根据本公开的一个或多个实施例,所述装置在用于基于所述初始位置与所述目标位置确定所述待握持对象的移动参数信息时,具体用于:
基于所述初始位置与所述目标位置确定出握持装置的移动轨迹;
基于所述移动轨迹确定待握持对象的移动参数信息。
根据本公开的一个或多个实施例,提供一种电子设备,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行前述各方法。
根据本公开的一个或多个实施例,提供一种计算机可读存储介质,所述计算机程序被处理器执行时实现前述各方法。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的模块及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本公开的范围。
在本公开所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,该模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。例如,在本公开各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。
以上仅为本公开的具体实施方式,但本公开的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应以该权利要求的保护范围为准。

Claims (12)

1.一种任务执行方法,其特征在于,适用于智能机器人,包括:
展示获取到的环境图像信息;
响应于用户对所述环境图像信息的操作,控制握持装置执行所述操作对应的任务。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对环境图像信息进行实例分割,得到所述环境图像信息中包括的至少一个对象对应的至少一个第一实例;
展示所述至少一个第一实例;
响应于用户对所述至少一个第一实例中任意第一实例的操作,确定出被操作的目标实例,以及针对所述目标实例的待执行任务;
控制握持装置执行所述操作对应的任务,包括:基于所述操作控制所述握持装置执行针对所述目标实例的待执行任务。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
针对所述至少一个对象中的任一对象,获取用户针对所述对象进行实例分割的指令,对所述对象进行实例分割,得到所述对象对应的至少一个第二实例;
将所述至少一个第二实例作为所述对象对应的一第一实例。
4.根据权利要求2所述的方法,其特征在于,用户针对所述目标实例的操作包括以下任一种或多种操作;
用户移动所述目标实例的操作;
用户旋转所述目标实例的操作;
用户针对所述目标实例自身的操作。
5.根据权利要求2所述的方法,其特征在于,用户针对所述目标实例的操作通过以下任一种或多种方式实现:
点选所述目标实例、滑动所述目标实例。
6.根据权利要求2所述的方法,其特征在于,所述方法还包括:
针对所述至少一个第一实例中的各第一实例,确定所述第一实例对应的三维模型;
展示所述至少一个第一实例,包括:展示所述至少一个第一实例对应的至少一个三维模型。
7.根据权利要求2所述的方法,其特征在于,基于所述操作控制所述握持装置执行针对所述目标实例的待执行任务,包括:
从所述环境图像信息中确定所述目标实例对应的待握持对象;
基于所述操作确定所述待握持对象的移动参数信息;
控制所述握持装置基于所述移动参数信息执行所述针对所述目标实例的待执行任务。
8.根据权利要求7所述的方法,其特征在于,基于所述操作确定待握持对象的移动参数信息,包括:
当操作为用户移动所述目标实例的操作时,获取所述目标实例的初始位置;
获取所述目标实例被移动至的目标位置;
基于所述初始位置与所述目标位置确定所述待握持对象的移动参数信息。
9.根据权利要求8所述的方法,其特征在于,基于所述初始位置与所述目标位置确定所述待握持对象的移动参数信息,包括:
基于所述初始位置与所述目标位置确定出握持装置的移动轨迹;
基于所述移动轨迹确定待握持对象的移动参数信息。
10.一种任务执行装置,其特征在于,包括:
展示单元,用于展示获取到的环境图像信息;
控制单元,用于响应于用户对所述环境图像信息的操作,控制握持装置执行所述操作对应的任务。
11.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1-9任一项所述的方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-9任一项所述的方法。
CN202410130685.5A 2024-01-30 2024-01-30 任务执行方法、装置,设备及计算机介质 Pending CN117930982A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410130685.5A CN117930982A (zh) 2024-01-30 2024-01-30 任务执行方法、装置,设备及计算机介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410130685.5A CN117930982A (zh) 2024-01-30 2024-01-30 任务执行方法、装置,设备及计算机介质

Publications (1)

Publication Number Publication Date
CN117930982A true CN117930982A (zh) 2024-04-26

Family

ID=90764713

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410130685.5A Pending CN117930982A (zh) 2024-01-30 2024-01-30 任务执行方法、装置,设备及计算机介质

Country Status (1)

Country Link
CN (1) CN117930982A (zh)

Similar Documents

Publication Publication Date Title
US11783553B2 (en) Systems and methods for facilitating creation of a map of a real-world, process control environment
JP7315313B2 (ja) プロセス制御環境の3dマッピング
CN106133648B (zh) 基于自适应单应性映射的眼睛凝视跟踪
US11132845B2 (en) Real-world object recognition for computing device
CN109561282B (zh) 一种用于呈现地面行动辅助信息的方法与设备
CN111095170B (zh) 虚拟现实场景及其交互方法、终端设备
CN109656319B (zh) 一种用于呈现地面行动辅助信息方法与设备
JP2022029429A (ja) 産業用拡張現実アプリケーションの迅速起動技術
CN112580582B (zh) 动作学习方法、装置、介质及电子设备
CN112416323A (zh) 控制代码的生成方法、运行方法、装置、设备及存储介质
WO2023051706A1 (zh) 抓取的控制方法、装置、服务器、设备、程序及介质
CA3010475A1 (en) Systems and methods for directly accessing video data streams and data between devices in a video surveillance
CN109618131B (zh) 一种用于呈现决策辅助信息的方法与设备
CN108536156A (zh) 目标跟踪系统和目标跟踪方法
CN117930982A (zh) 任务执行方法、装置,设备及计算机介质
US20150002395A1 (en) Method of Interaction Between a Digital Object Representing at Least One Real or Virtual Object Located in a Distant Geographic Perimeter and a Local Pointing Device
EP3745332B1 (en) Systems, device and method of managing a building automation environment
CN111124611A (zh) 一种机器人管理方法、机器人管理装置及电子设备
CN116563367A (zh) 安全区域信息确定方法、装置、设备及计算机存储介质
CN118170244A (zh) 数据处理方法、装置、电子设备及存储介质
CN118115592A (zh) 目标物体的标定方法、装置、设备和介质
Roongpraiwan et al. Digital Twin-Based Transfer Learning for Collaborative Robot Systems: A Proof of Concept
CN118196350A (zh) 数据处理方法、装置、电子设备及存储介质
CN118363449A (zh) 握持参数确定方法、装置、电子设备及计算机介质
CN115952668A (zh) 基于半实物模拟的仿真系统、方法、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination