CN110062683B - 一种机器人姿态生成的方法、装置及计算机可读介质 - Google Patents

一种机器人姿态生成的方法、装置及计算机可读介质 Download PDF

Info

Publication number
CN110062683B
CN110062683B CN201680091517.3A CN201680091517A CN110062683B CN 110062683 B CN110062683 B CN 110062683B CN 201680091517 A CN201680091517 A CN 201680091517A CN 110062683 B CN110062683 B CN 110062683B
Authority
CN
China
Prior art keywords
shift
concepts
gesture
robot
utterance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201680091517.3A
Other languages
English (en)
Other versions
CN110062683A (zh
Inventor
池内克史
M·S·哈比卜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Publication of CN110062683A publication Critical patent/CN110062683A/zh
Application granted granted Critical
Publication of CN110062683B publication Critical patent/CN110062683B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/008Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J11/00Manipulators not otherwise provided for
    • B25J11/0005Manipulators having means for high-level communication with users, e.g. speech generator, face recognition means
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/163Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1694Programme controls characterised by use of sensors other than normal servo-feedback from position, speed or acceleration sensors, perception control, multi-sensor controlled systems, sensor fusion
    • B25J9/1697Vision controlled systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Abstract

描述了一种用于机器人姿态生成方法和装置。一般来说,确定(204)与将要被机器人说出的话语相对应的概念。在确定或选择概念后,从预定的姿态库中取回(206)与所确定的概念相对应的姿态的符号表示。随后,将符号表示提供(208)给机器人以使得机器人执行姿态。这样,就可以实现人与机器人之间更加自然、全面、有效的交流。

Description

一种机器人姿态生成的方法、装置及计算机可读介质
背景技术
许多类型的机器人已经被用于各种各样的应用中。传统上,机器人主要被用于工业应用。近年来,越来越多的机器人已经被用于人机交互领域,例如被用于家庭服务和医疗服务中的机器人。在这种趋势下,如何实现人与机器人之间更加自然和顺畅的交流吸引了越来越多的关注。
发明内容
本文描述的主题的实施例提供了一种用于机器人姿态生成的方法、装置和机器人系统。一般来说,确定与将要由机器人说出的话语相对应的概念。在概念被确定或被选择后,从预定的姿态库中取回与确定的概念相对应的姿态的符号表示。随后,将符号表示提供给机器人,使得机器人执行姿态。
传统的聊天机器人可能不会从聊天智能中提供伴随着口头话语的任何姿态响应,或者可能仅提供有限的但是不恰当的姿态功能,与传统的聊天机器人不同的是,本公开的实施例提供了一种尤其是聊天机器人系统中的用于机器人姿态生成的方法和装置,其支持伴随着或同步于口头话语生成适当的姿态,并且与口语话语同步。通过这种方式,可以实现人和机器人之间更加自然、全面和有效的交流。
需要理解的是,发明内容并非意在标识本文描述的主题的实施例的关键或必要特性,其也并非意在用来限定本文描述的主题的范围。本文描述的主题的其他特征将通过以下描述变得易于理解。
附图说明
结合附图,通过对本文描述的主题的实施例进行更加详细的描述使得本文描述的主题的以上和其他目标、特点和优势更加显而易见,附图中相同的附图标记通常表示相同的构件。
图1示出了用于实现本文描述的主题的实施例的机器人系统的示意图。
图2示出了根据本公开实施例的用于机器人姿态生成的方法的流程图。
图3A示出了根据本公开实施例的一个典型的拉班舞谱(labanotation)以及由拉班舞谱表示的相对应的概念的示意图。
图3B示出了机器人身体部位的符号的示例。
图4示出了根据本公开实施例将话语映射为向量的过程的流程图。
图5示出了适合于实现本文描述的主题的一个或多个实施例的装置的框图。
所有附图中相同或相似的参考标记用于指示相同或相似的元素。
具体实施方式
本公开的原理现在将参照附图中示出的几个实施例进行描述。尽管本公开的实施例在附图中进行了图示,但需要理解的是,描述本公开的实施例仅为了有助于本领域技术人员更好地理解本公开,从而更好地实现本公开,而不是为了以任何方式限定公开范围。
此处使用的短语“包括”及其变型应被解释为开放术语,意为“包括但不限于”。短语“基于”应被解释为“至少部分基于”。除非另有规定,术语“一个”被解释为“一个或多个”。短语“一个实施例”应被解释为“至少一个实施例”。短语“另一实施例”应被解释为“至少一个另一实施例”。短语如“第一”和“第二”可以指代不同或相同的对象。其他定义也可以被明显地和隐含地包含在以下描述中。
图1根据本公开的实施例示出了机器人系统1000的示意图。如图1所示,根据本申请的实施例,机器人系统1000一般包括机器人100、服务器300以及装置10。装置10被用于根据将要由机器人100说出的话语来与口头话语一起生成适当的姿态。
例如,机器人100可以是聊天机器人。服务器300通常是能够处理接收到的消息并提供经处理的信息的设备,并且它可以是基于云的计算机的形式,例如用于聊天机器人情形的聊天智能。也就是说,用户可以通过例如视听触觉智能来与聊天智能300进行“对话”。
在用户(未显示)与机器人100之间进行的正常聊天过程期间,用户可以首先向机器人100做出表达或提出问题,然后期望从机器人100获得响应,例如用户所提问题的答案。
常规地,在服务器300经由机器人接收到用户的表达/话语后,与服务器300相关联的处理器可以基于接收到的表达/话语执行一些分析,并相应地准备对将要由机器人100说出的表达的响应或回答。然而,如上文所提到的,一些传统的聊天机器人不具有任何动作或姿态功能。另一方面,一些其他的传统的聊天机器人可能能够提供一些姿态和口语,然而,这些姿态可能是不恰当/不正确的姿态,多数情况下这些生成的姿态可能仅是随机的姿态。
根据本申请不同实施例,可以实现对用户做出连同机器人100的语音输出一起或与语音输出同步的适当姿态响应。换言之,可以实现从口语到姿态的翻译机制。此外,由于这些姿态是基于要被说出的话语生成的,或者是至少基于从这些话语中提取的一些概念生成的,因此以这种方式生成的姿态会更加准确和自然。
为方便讨论,本文描述的主题的实施例将参照机器人系统1000进行描述。然而,需要理解的是,描述机器人系统1000仅出于说明的目的,并没有对本文描述的主题范围做出任何建议和限定。例如,这些思想和原理也适用于独立运行的机器。
图2示出了根据本公开实施例的用于机器人姿态生成的方法200的流程图。方法200可以在如图1所示的装置10上执行。所示出的装置10可以是客户设备或基于云的装置,或者其可以是图1所示的服务器300的一部分。应该理解的是,方法200还可以包括未显示的其他操作和/或省略说明的步骤。此处本文描述的主题的范围不限于此方面。
以下将参照图1、图3和图4来描述方法200。在204处,根据将要由机器人100说出的话语确定一个或多个概念(C1,C2,…,CN)。将要由机器人100说出的话语可以是与用户的对话中主动的或响应的声音交互。它可以是一个单词、一个短语、多个单词组成的完整话语的口语。需要注意的是,虽然图1中所示的要被说出的话语是从服务器300接收的,但是在一些其他实施例中,话语可以直接从装置10中获得。
如上所述,在一些实施例中,用户可以先向机器人100并且进一步地向服务器300作出表达/提问,例如,经由麦克风传送他/她的声音,以及经由集成在机器人100上的摄像机传送他/她的图像。服务器300接收来自用户的表达/问题后,与服务器300相关联的处理器(未显示)将基于所接收到的表达执行分析,并准备将要由机器人100说出的表达以作为对该问题的的响应或回答。
在一些实施例中,来自用户的输入表达/问题将首先在本地进行检验。如果它被包含在特定的集合中,换言之,如果它是一个特定的对话,那么针对这个表达/问题的答案将在本地被准备。如果不被包含在特定的集合中,输入表达/问题将被进一步被发送到服务器300以获得响应。
在本文描述的主题的上下文中,概念一般被定义为从一组词中抽取的具有代表性的词。一组词可以包含以下词:这些词在上下文中享有相同或相似含义,因此它们在向量空间中与其他词在相似度上的位置非常接近。典型的概念可以包括例如“你好(Hello)”、“很好(Good)”、“谢谢(Thanks)”、“饥饿(Hungry)”等等。需要注意的是,本文描述的主题的范围并不限于概念中所包含的格式或内容。用户可以根据需要定义其他特定的概念。
如图1所示的机器人系统1000包括姿态库108,其被创建以存储多个预定的姿态和对应的概念。在一些实施例中,与姿态库108中的姿态相对应的每个概念都可以由第一向量表示。在本例中,确定与话语相对应的概念(C1,C2,…,CN)可以包括获取表示话语的第二向量,并且然后确定第二向量与多个第一向量的相似度。这样,基于确定的相似度,可以从姿态库108中存储的多个概念中选择与话语相对应的概念。
在一个实施例中,接收的话语或表达可以首先被给到系统,如“分布式词语嵌入”系统,以将话语转换为向量并且从而映射成概念。随后,通过检查从话语转换而来的向量与姿态库108中每个向量之间的相似度,可以从多个概念中选择具有最大相似度的概念,以作为与话语相对应的确定的概念。
图4示出了一个说明从话语到向量的转换过程400的示例。如图4所示,将要由机器人100说出的话语410是“我同意你的观点(I agree with you)”,“分布式词语嵌入”系统可以确定出具有最佳匹配的概念420例如为“同意(agree)”,然后概念“同意(agree)”被被映射到相对应的向量430以用于与存储在姿态库108中的向量进行比较。需要理解的是,虽然该示例只描述了一个基于词语的匹配机制(即基于词语水平相似度),但是基于其他水平相似度的概念匹配也是可能的,如短语级别相似度、语句级别相似度、文件级别相似度、甚至是语义级别相似度。
继续参考图1,在206处,从预定义的姿态库108中取回与确定的概念(C1,C2,…,CN))相对应的姿态的符号表示(SR1,SR2,...,SRN)。
在一些实施例中,姿态库108可以使用所谓的“从观察中学习”的技术被预先创建。特别地,机器人100的姿态需要先被记录。姿态通常由机器人100相关联的摄像头前的执行者(例如,人)执行。然后执行者的一些重要姿势可以被摄像机捕获或“观察”,并随后转换成与执行的姿态相对应的符号表示(也称为符号)。在一些实施例中,取回符号表示(SR1,SR2,...,SRN)包括取回拉班舞谱(labanotation)(LA1,LA2,…,LAN)。因此,通过获得的拉班舞谱,可以建立表示所执行的姿态的拉班舞谱和概念之间的关系(例如拉班舞谱-概念对),并且存储于姿态库108以用于将来使用。
拉班舞谱已经被用于记录人们的舞蹈。本文中拉班舞谱特别地限定机器人100的至少一个身体部位关于多个时隙中的朝向。根据发明人的观察,机器人系统1000所使用的拉班舞谱是描述人们的行为的充分必要条件。这是因为,观看几个舞者跳同样的舞蹈最后得到的是同样的拉班舞谱,另一方面,任何舞者都可以基于相同拉班舞谱来执行/重建同样的舞蹈。
进一步地,拉班舞谱与机器无关(或与硬件无关),其可以克服硬件差异性问题。此外,作为一种简明的符号表示方法,机器人和云计算之间的拉班舞谱很容易通过有限信道进行传输。而且,相比于其他类型的表示方法,拉班舞谱需要更小的内存。
在一些实施例中,通过连续捕获/记录的姿态,可以确定机器人100的至少一个身体部位在多个时隙中的朝向,并且然后可以得到与朝向相对应的符号。在此之后,将与对应的时隙301相关联的符号作为拉班舞谱的一部分进行存储。
在一些实施例中,至少一个身体部位包括多个身体部位,并且拉班舞谱包括与多个时隙301相对应的第一维度和与多个身体部位相对应的第二维度(即,二维拉班舞谱)。图3A示出了二维拉班舞谱表示概念“好(Good)”。在这一拉班舞谱中,每一列(即,第二维度)对应于一个特定的身体部分,例如左手、左臂、支撑物、右臂、右手、头部。每一行(即第一维度)对应于具有给定持续时间的时隙301。此外,符号代表当时身体部位所朝向的方向。
需要注意的是,图3A中的示例拉班舞谱仅出于说明的目的而被示出,并非对本文描述的主题的范围做出任何建议和限定。换言之,更复杂的拉班舞谱可以涉及更多的身体部位,如包括图3B所示的左肘或右膝也是可能的(被虚线圆圈所标注)。
附加地或备选地,对于先前创建的姿态库108,多个姿态的多个拉班舞谱分组为拉班舞谱簇,对于每个拉班舞谱簇,可以确定一个具有代表性的拉班舞谱。在这种情况下,在多个拉班舞谱中,表示相似姿态的相似拉班舞谱可以被聚类/分组。因此,一个拉班舞谱/姿态簇(而不是单个拉班舞谱/姿态)由代表性的拉班舞谱来表示。通过这种方式,可以保证任何与相同簇对应的概念都将给出相同的姿态。
相比于包含“一对一”概念—拉班舞谱对的姿态库108,以上述可选方式创建的姿态库108包含用于“多对一”的概念到拉班舞谱匹配。因此,从预定义的姿态库108中取回与确定的概念(C1,C2,…,CN)相对应的姿态的符号表示(SR1,SR2,...,SRN)包括获取表示话语的第二向量,以及确定第二向量与多个第一向量的相似度,然后从多个概念中基于相似度选择与话语对应的概念。根据所选择的概念,取回步骤进一步包括(例如基于拉班舞谱的相似度)确定与所选择的概念相对应的符号表示簇,从符号表示簇中取回存储于姿态库108中的具有代表性的符号表示。
在208处,提供符号表示以使机器人100执行该姿态。在一些实施例中,使机器人100执行该姿态包括沿第一维度执行拉班舞谱以触发多个身体部位根据多个时隙301的相应朝向来执行该姿态。
如图3A所示,在执行拉班舞谱时,如图3A所示,时间从底部到顶部流逝(如箭头所示),并且在给定的时隙301中将执行指示多个身体部位不同朝向的各种符号的特定组合,使得机器人100可以连续地执行对应的与时间关联的动作。
备选地或附加地,方法200还可进一步包括使机器人100说出与姿态同步的话语的步骤。通过这种方式可以实现人与机器人之间更加自然和顺畅的交流。
在一些实施例中,如图1所示,姿态库108或拉班舞谱可以被存储于远程服务器200处,如云计算机。在这种情况下,用户可以根据需要很容易地通过编辑/更改云计算机上的拉班舞谱来更新姿态。这对于避免因每天重复的、相同的姿态而引起的厌倦情绪尤其是非常有帮助的。换言之,通过改变拉班舞谱,机器人100每天可以执行不同的姿态。当然,也可以将姿态库108或拉班舞谱存储在本地,例如,装置10。
在一些实施例中,仅姿态库108的一部分被存储于远程服务器200处,而姿态库108的其他部分被存储在本地。如上所述,对于一些特定的对话,可以使用拉班舞谱来设计作为姿态库108的一部分的特定姿态,并将其保存在本地,然而对于随机的/通用的对话,作为姿态库108的另一部分的通用姿态将被存储在远程服务器200中。
图5是适用于实现本文描述的主题的一个或多个实施例的装置10的框图。例如,参照图1,装置10可以如上述执行功能。需要理解的是,装置10无意对本文描述的主题的使用或功能范围做出任何建议和限定,不同的实施例可以在不同的通用目的或专用目的的计算环境中被实施。
如图所示,装置10包括至少一个处理单元(也被称作处理器)102和存储器104。处理单元102执行计算机可执行指令,它可以是真实的或虚拟的处理器。在多处理系统中,多处理单元执行计算机可执行指令以提高处理能力。存储器104可以是易失性存储器(如寄存器、缓存器、RAM),和非易失性存储器(如ROM、EEPROM、闪速存储器),或它们的某种组合。
根据本文描述的主题的实施例,存储器104与处理单元102耦合,并存储指令用于由处理单元102执行。这些指令由处理单元102执行时,使得装置10:接收将要由机器人100说出的话语;确定与接收到的话语相对应的概念(C1,C2,…,CN);从预定义的姿态库108取回与确定的概念(C1,C2,…,CN)配对的姿态的符号表示(SR1,SR2,...,SRN);并使机器人100执行符号表示以执行姿态。
在图4所示的示例中,装置10进一步包括一个或多个通信连接510。互连机制(未显示),如总线、控制器或网络,将装置10的各部件互连。通常地,操作系统软件(未显示)为在设备10中提供有用于其他软件执行的操作环境,并协调装置10的各组件的行动。
通信连接510支持通过通信介质与另一个计算实体的通信。此外,装置10的各组件的功能可以在单一计算机中实现,也可以在能够通过通信连接进行通信的多台计算机中实现。因此,装置10可以在网络环境中(例如,机器人系统环境1000)通过使用逻辑连接至一个或多个其他服务器、网络PC或另一个公共网络节点进行操作。举例来说,通信媒体包括有线或无线网络技术,且不受限制。
面下将列举本文所述主题的一些实施例。
在一些实施例中,提供了一种用于机器人姿态生成的方法。该方法包括:确定与将要由机器人说出的话语相对应的概念;从预定义的姿态库取回与确定的概念相对应的姿态的符号表示;并提供符号表示(SR1,SR2,...,SRN)以使机器人执行该姿态。
在一些实施例中,取回符号表示包括:取回拉班舞谱,其限定机器人的至少一个身体部位在多个时隙中的朝向。
在一些实施例中,该方法进一步包括通过以下方式创建姿态库:捕获执行者的姿态;从所捕获的姿态确定执行者的至少一个身体部位在多个时隙中的朝向;生成与对应的时隙相关联的表示朝向的符号,作为拉班舞谱的一部分。
在一些实施例中,该方法进一步包括将多个拉班舞谱分组为拉班舞谱簇,从拉班舞谱簇中确定代表性的拉班舞谱。
在一些实施例中,姿态库的至少一部分被存储于远程服务器处。
在一些实施例中,至少一个身体部位包括多个身体部位,拉班舞谱包括与多个时隙相对应的第一维度和与多个身体部位相对应的第二维度。
在一些实施例中,提供符号表示以使机器人执行该姿态包括:沿第一维度执行拉班舞谱以触发多个身体部位根据多个时隙的相应朝向执行该姿态。
在一些实施例中,该方法进一步包括:使机器人说出与姿态同步的话语。
在一些实施例中,预定义的姿态库包括分别表示多个概念的多个第一向量,从预定义姿态库中取回与确定的概念相对应的姿态的符号表示,包括:获取表示话语的第二向量;确定第二向量与多个第一向量的相似度;基于相似度从多个概念中选择与该话语相对应的概念。
在一些实施例中,该姿态库包括分别表示多个概念的多个第一向量,从预定义姿态库(108)中取回与确定的概念相对应的姿态的符号表示,包括:获取表示话语的第二向量;确定第二向量与多个第一向量的相似度;基于相似度从多个概念中选择与该话语相对应的概念;确定与选择的概念相对应的符号表示簇;从符号表示簇中取回具有代表性的符号表示。
在一些实施例中,提供了一种用于机器人姿态生成的装置,该装置包括:处理单元;存储器,存储器与处理单元耦合,存储指令用于由处理单元执行,这些指令由处理单元执行时,使得装置:确定与接收到的将要由机器人说出的话语相对应的概念;从预定义的姿态库中取回与确定的概念相对应的姿态的符号表示;将符号表示提供给机器人以执行该姿态。
在一些实施例中,取回符号表示包括:取回限定机器人的至少一个身体部位在多个时隙中的朝向的拉班舞谱。
在一些实施例中,该装置进一步被配置为通过以下方式创建姿态库:捕获执行者的姿态;从所捕获的姿态确定执行者的至少一个身体部位在多个时隙中的朝向;生成与对应的时隙相关联的表示朝向的符号以作为拉班舞谱的一部分;将拉班舞谱和概念进行关联。
在一些实施例中,该装置进一步被配置为将多个拉班舞谱分组为拉班舞谱簇,从拉班舞谱簇中确定代表性的拉班舞谱。
在一些实施例中,姿态库的至少一部分被存储于远程服务器处。
在一些实施例中,至少一个身体部位包括多个身体部位,拉班舞谱包括与多个时隙相对应的第一维度和与多个身体部位相对应的第二维度。
在一些实施例中,提供符号表示以使机器人执行姿态包括:沿第一维度执行拉班舞谱以触发多个身体部位根据多个时隙的相应朝向执行该姿态。
在一些实施例中,该装置进一步被配置为:使机器人说出与姿态同步的话语。
在一些实施例中,预定义的姿态库包括分别表示多个概念的多个第一向量,从预定义姿态库(108)中取回与确定的概念相对应的姿态的符号表示,包括:表示话语的第二向量;确定第二向量与多个第一向量的相似度;基于相似度从多个概念中选择与话语相对应的概念。
在一些实施例中,姿态库包括分别表示多个概念的多个第一向量,从预定义姿态库中取回与确定的概念相对应的姿态的符号表示包括:获取表示话语的第二向量;确定第二向量与多个第一向量的相似度;基于相似度从多个概念中选择与话语相对应的概念;确定与选择的概念相对应的符号表示簇;从符号表示簇中取回具有代表性的符号表示。
在一些实施例中,提供了用于固态驱动器存储的计算机程序产品。计算机程序产品被有形地存储在非瞬态机器可读介质中,包括机器可执行指令,机器可执行指令在被执行时使机器:确定与接收到的将要由机器人说出的话语相对应的概念;从预定义的姿态库中取回与确定的概念相对应的姿态的符号表示;将符号表示提供给机器人以执行该姿态。
在一些实施例中,取回符号表示包括;取回限定机器人的至少一个身体部位在多个时隙中的朝向的拉班舞谱。
在一些实施例中,计算机程序进一步包括促使机器:通过以下方式创建姿态库:捕获执行者的姿态;从所捕获的姿态确定执行者的至少一个身体部位在多个时隙中的朝向;生成与对应的时隙相关联的表示朝向的符号,作为拉班舞谱的一部分;将拉班舞谱和概念进行关联。
在一些实施例中,姿态库的至少一部分被存储于远程服务器处。
应了解,上述本公开的详细实施例仅是对本公开原理的例证或解释,并非对本公开做出限定。因此,任何不偏离本公开的精神和范围的修改、同等替代和改进等,均应纳入本公开的保护范围。同时,本公开所附的权利要求书旨在覆盖属于权利要求书的范围和边界或相当于范围和边界的范围和边界的所有变更和修改。

Claims (15)

1.一种用于机器人姿态生成(100)的方法,包括:
确定与将要由机器人(100)说出的话语相对应的概念(C1,C2,…,CN),其中所述概念是从一组词中提取的代表,所述一组词包含在上下文中享有相同或相似含义的词;
通过取回拉班舞谱(LA1,LA2,…,LAN),从预定的姿态库(108)中取回与确定的所述概念(C1,C2,…,CN)相对应的姿态的符号表示(SR1,SR2,...,SRN),所述拉班舞谱(LA1,LA2,…,LAN)限定所述机器人(100)的至少一个身体部位关于多个时隙(301)的朝向;
通过沿第一维度执行所述拉班舞谱,以触发所述多个身体部位根据多个时隙(301)中的相应朝向执行所述姿态,来提供所述符号表示(SR1,SR2,...,SRN)以使所述机器人(100)执行所述姿态,所述第一维度被包括在所述拉班舞谱中并且与所述多个时隙(301)相对应;以及
使所述机器人(100)说出与所述姿态同步的所述话语。
2.根据权利要求1所述的方法,进一步包括:通过以下方式创建所述姿态库(108):
捕获执行者的姿态;
从捕获的所述姿态确定所述执行者的所述至少一个身体部位在所述多个时隙(301)中的朝向;
生成表示与对应的所述时隙(301)相关联的所述朝向的符号,作为所述拉班舞谱的一部分;以及
将所述拉班舞谱和概念进行关联。
3.根据权利要求2所述的方法,进一步包括:
将多个拉班舞谱分组为拉班舞谱簇;以及
从所述拉班舞谱簇中确定代表性的拉班舞谱。
4.根据权利要求3所述的方法,其中所述姿态库被配置为存储多个预定的姿态和多个相对应的概念,所述姿态库还包括分别表示多个相对应的概念的多个第一向量,其中确定所述概念包括:
获取表示所述话语的第二向量;
确定所述第二向量与所述多个第一向量的相似度;以及
基于所述相似度从所述多个相对应的概念中选择与所述话语相对应的所述概念;并且
其中从预定的姿态库中取回与确定的所述概念相对应的姿态的符号表示包括:
确定与选择的所述概念相对应的符号表示簇;以及
从所述符号表示簇中取回代表性的符号表示。
5.根据权利要求1所述的方法,其中所述姿态库(108)的至少一部分被存储于远程服务器(200)处。
6.根据权利要求1所述的方法,其中所述至少一个身体部位包括多个身体部位,并且所述拉班舞谱进一步包括与所述多个身体部位相对应的第二维度。
7.根据权利要求1所述的方法,其中所述姿态库(108)被配置为存储多个预定的姿态和多个相对应的概念,所述姿态库还包括分别表示多个相对应的概念的多个第一向量,其中确定所述概念包括:
获取表示所述话语的第二向量;
确定所述第二向量与所述多个第一向量的相似度;以及
基于所述相似度从所述多个相对应的概念中选择与所述话语相对应的所述概念。
8.一种用于机器人姿态生成(100)的装置(10),包括:
处理单元(102);以及
存储器(104),所述存储器与所述处理单元(102)耦合并且存储指令以用于由所述处理单元执行,所述指令当由所述处理单元(102)执行时使得所述装置:
确定与接收的将要由机器人(100)说出的话语相对应的概念(C1,
C2,…,CN),其中所述概念是从一组词中提取的代表,所述一组词包含在上下文中享有相同或相似含义的词;
通过取回拉班舞谱(LA1,LA2,…,LAN),从预定的姿态库(108)中取回与确定的所述概念(C1,C2,…,CN)相对应的姿态的符号表示(SR1,SR2,...,SRN),所述拉班舞谱(LA1,LA2,…,LAN)限定所述机器人(100)的至少一个身体部位关于多个时隙(301)的朝向;以及
通过沿第一维度执行所述拉班舞谱,以触发所述多个身体部位根据多个时隙(301)中的相应朝向执行所述姿态,来提供所述符号表示(SR1,SR2,...,SRN)以使所述机器人(100)执行所述姿态,所述第一维度被包括在所述拉班舞谱中并且与所述多个时隙(301)相对应;以及
使所述机器人(100)说出与所述姿态同步的所述话语。
9.根据权利要求8所述的装置(10),其中所述装置被进一步配置为通过以下方式创建所述姿态库(108):
捕获执行者的姿态;
从捕获的所述姿态确定所述执行者的所述至少一个身体部位在所述多个时隙(301)中的朝向;
生成表示与对应的所述时隙(301)相关联的所述朝向的符号,作为所述拉班舞谱的一部分;以及
将所述拉班舞谱和概念进行关联。
10.根据权利要求8所述的装置(10),其中所述装置被进一步配置为:
将多个拉班舞谱分组为拉班舞谱簇;以及
从所述拉班舞谱簇中确定代表性的拉班舞谱。
11.根据权利要求8所述的装置(10),其中所述姿态库(108)被配置为存储多个预定的姿态和多个相对应的概念,所述姿态库还包括分别表示多个相对应的概念的多个第一向量,其中确定所述概念包括:
获取表示所述话语的第二向量;
确定所述第二向量与所述多个第一向量的相似度;以及
基于所述相似度从所述多个相对应的概念中选择与所述话语相对应的所述概念;并且
其中从预定的姿态库(108)中取回与确定的所述概念(C1,C2,…,CN)相对应的姿态的符号表示(SR1,SR2,…,SRN)包括:
确定与选择的所述概念相对应的符号表示簇;以及
从所述符号表示簇中取回代表性的符号表示。
12.根据权利要求8所述的装置(10),其中所述姿态库(108)的至少一部分被存储于远程服务器(200)处。
13.根据权利要求8所述的装置(10),其中所述至少一个身体部位包括多个身体部位,并且所述拉班舞谱进一步包括与所述多个身体部位相对应的第二维度。
14.根据权利要求11所述的装置(10),其中所述预定的姿态库(108)被配置为存储多个预定的姿态和多个相对应的概念,所述姿态库还包括分别表示多个相对应的概念的多个第一向量,其中确定所述概念包括:
获取表示所述话语的第二向量;
确定所述第二向量与所述多个第一向量的相似度;以及
基于所述相似度从所述多个相对应的概念中选择与所述话语相对应的所述概念。
15.一种非瞬态计算机可读介质,包括机器可执行指令,所述机器可执行指令当被执行时使机器执行根据权利要求1至7中任一项所述的方法的步骤。
CN201680091517.3A 2016-12-12 2016-12-12 一种机器人姿态生成的方法、装置及计算机可读介质 Active CN110062683B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2016/109547 WO2018107343A1 (en) 2016-12-12 2016-12-12 Robot gesture generation

Publications (2)

Publication Number Publication Date
CN110062683A CN110062683A (zh) 2019-07-26
CN110062683B true CN110062683B (zh) 2023-04-28

Family

ID=62557899

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680091517.3A Active CN110062683B (zh) 2016-12-12 2016-12-12 一种机器人姿态生成的方法、装置及计算机可读介质

Country Status (4)

Country Link
US (1) US11443161B2 (zh)
EP (1) EP3551393A4 (zh)
CN (1) CN110062683B (zh)
WO (1) WO2018107343A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11270717B2 (en) * 2019-05-08 2022-03-08 Microsoft Technology Licensing, Llc Noise reduction in robot human communication

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7136818B1 (en) 2002-05-16 2006-11-14 At&T Corp. System and method of providing conversational visual prosody for talking heads
ATE524784T1 (de) 2005-09-30 2011-09-15 Irobot Corp Begleitroboter für persönliche interaktion
US8224652B2 (en) 2008-09-26 2012-07-17 Microsoft Corporation Speech and text driven HMM-based body animation synthesis
FR2947923B1 (fr) * 2009-07-10 2016-02-05 Aldebaran Robotics Systeme et procede pour generer des comportements contextuels d'un robot mobile
US8751215B2 (en) * 2010-06-04 2014-06-10 Microsoft Corporation Machine based sign language interpreter
FR2963132A1 (fr) * 2010-07-23 2012-01-27 Aldebaran Robotics Robot humanoide dote d'une interface de dialogue naturel, methode d'utilisation et de programmation de ladite interface
CN102506518A (zh) 2011-10-11 2012-06-20 北京卡林新能源技术有限公司 一种太阳能地源热泵集成供暖空调控制机构
FR2989209B1 (fr) 2012-04-04 2015-01-23 Aldebaran Robotics Robot apte a integrer des dialogues naturels avec un utilisateur dans ses comportements, procedes de programmation et d'utilisation dudit robot
US9302393B1 (en) 2014-04-15 2016-04-05 Alan Rosen Intelligent auditory humanoid robot and computerized verbalization system programmed to perform auditory and verbal artificial intelligence processes
EP2933067B1 (en) 2014-04-17 2019-09-18 Softbank Robotics Europe Method of performing multi-modal dialogue between a humanoid robot and user, computer program product and humanoid robot for implementing said method
US9868212B1 (en) * 2016-02-18 2018-01-16 X Development Llc Methods and apparatus for determining the pose of an object based on point cloud data
CN105930785B (zh) * 2016-04-15 2017-05-03 潍坊科技学院 一种智能化的隐式交互系统
JP6467674B2 (ja) * 2016-07-20 2019-02-13 Groove X株式会社 スキンシップを理解する自律行動型ロボット
US11250844B2 (en) * 2017-04-12 2022-02-15 Soundhound, Inc. Managing agent engagement in a man-machine dialog
US11279041B2 (en) * 2018-10-12 2022-03-22 Dream Face Technologies, Inc. Socially assistive robot
US11270717B2 (en) * 2019-05-08 2022-03-08 Microsoft Technology Licensing, Llc Noise reduction in robot human communication

Also Published As

Publication number Publication date
EP3551393A1 (en) 2019-10-16
EP3551393A4 (en) 2020-08-12
WO2018107343A1 (en) 2018-06-21
CN110062683A (zh) 2019-07-26
US11443161B2 (en) 2022-09-13
US20190385040A1 (en) 2019-12-19

Similar Documents

Publication Publication Date Title
US10664060B2 (en) Multimodal input-based interaction method and device
CN112088315B (zh) 多模式语音定位
WO2021169431A1 (zh) 交互方法、装置、电子设备以及存储介质
CN102903362B (zh) 集成的本地和基于云的语音识别
CN112162628A (zh) 基于虚拟角色的多模态交互方法、装置及系统、存储介质、终端
WO2018006375A1 (zh) 一种虚拟机器人的交互方法、系统及机器人
TWI766499B (zh) 互動物件的驅動方法、裝置、設備以及儲存媒體
Minotto et al. Multimodal multi-channel on-line speaker diarization using sensor fusion through SVM
Ondras et al. Audio-driven robot upper-body motion synthesis
US20200310765A1 (en) Developer and runtime environments supporting multi-input modalities
Ding et al. An adaptive hidden Markov model-based gesture recognition approach using Kinect to simplify large-scale video data processing for humanoid robot imitation
CN110794964A (zh) 虚拟机器人的交互方法、装置、电子设备及存储介质
CN106502382A (zh) 用于智能机器人的主动交互方法和系统
US20230251745A1 (en) Systems and methods for providing on-screen virtual keyboards
WO2022252890A1 (zh) 交互对象驱动和音素处理方法、装置、设备以及存储介质
US20220138489A1 (en) Method of live video event detection based on natural language queries, and an apparatus for the same
CN110062683B (zh) 一种机器人姿态生成的方法、装置及计算机可读介质
Abid et al. Dynamic sign language and voice recognition for smart home interactive application
CN109445573A (zh) 一种用于虚拟化身形象互动的方法与装置
Ikeuchi et al. Design of conversational humanoid robot based on hardware independent gesture generation
JP7152908B2 (ja) 仕草制御装置及び仕草制御プログラム
Tan et al. Multimodal human-robot interaction with Chatterbot system: extending AIML towards supporting embodied interactions
AlTarawneh A cloud-based extensible avatar for human robot interaction
Gjaci et al. A GAN-based Approach for Generating Culture-Aware Co-Speech Gestures.
KR20240013610A (ko) 영상 기반 ai 휴먼 모션 생성 서비스 제공 방법 및 그 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant