CN105825268A

CN105825268A - 面向机器人学习动作表达的数据处理方法和系统

Info

Publication number: CN105825268A
Application number: CN201610157146.6A
Authority: CN
Inventors: 郭家
Original assignee: Beijing Guangnian Wuxian Technology Co Ltd
Current assignee: Beijing Guangnian Wuxian Technology Co Ltd
Priority date: 2016-03-18
Filing date: 2016-03-18
Publication date: 2016-08-03
Anticipated expiration: 2036-03-18
Also published as: CN105825268B

Abstract

本发明提供一种面向机器人学习动作表达的数据处理方法，其包括以下步骤：对目标在一段时间内所发出的一系列动作进行捕捉并记录；同步地识别并记录分别与所捕捉的一系列动作相关联的信息集合，所述信息集合由信息元构成；整理所记录的动作和与之关联的信息集合并将它们按照对应关系存储到机器人的记忆库中；当机器人接收动作输出指令时，调取记忆库中存储的信息集合中的与要表达的内容相匹配的信息集合并作出与该信息集合相对应的动作，以对人类动作表达进行模仿。本发明将动作表达与其他与语言表达有关的信息关联起来，经过模仿训练之后，机器人可以进行多样化的输出，使得沟通形式丰富并且更具人性，智能程度得到更大的提升。

Description

面向机器人学习动作表达的数据处理方法和系统

技术领域

本发明涉及智能机器人领域，具体地说，涉及一种面向机器人学习动作表达的数据处理方法和系统。

背景技术

人机交互是指人与机器的互动和交流，其最终目的是使机器人善解人意，能领会和模仿人的语言和行为，让人类能够更有效且更自然地实现与机器人之间的互动。然而，人与人之间的互动交流很大程度上依赖于语音和视觉，因此人机交互的发展就是语音交互和视觉交互的发展。

人与机器的交流方式有很多种，最为理想的就是语音和动作进行结合的交流方式，因为这更类似于人与人的交流。这种交流方式能增强用户体验，增加沟通的灵活性和有效性。

然而，世界上并没有一台能够自由模拟人类动作表达的机器人，仅有的也只是能做几个固定的仿人的动作。因为动作的表达和语言表达一样，其含义层和表现层都是不可穷尽的。很难通过设定规则让机器人进行模仿。但是，脱离了语言的动作，只是哑语，一般的人也难以理解其中含义。因此，动作表达需要和语言一起展示才能真正传达意思。

但是，众所周知的是，其中基于动作的交流，让机器人看懂人的一些动作，并进行模仿涉及的知识比较广，需要机器人硬件的相关技术支撑，跨学科程度极强，极富挑战性。因此，事实上现有技术中还没有研制出一种能够自由模仿人类动作表达的机器人。

发明内容

本发明为解决上述问题，提供了一种面向机器人学习动作表达的数据处理方法，其包括以下步骤：

S101、对目标在一段时间内所发出的一系列动作进行捕捉并记录；

S102、同步地识别并记录分别与所捕捉的一系列动作相关联的信息集合，所述信息集合由信息元构成；

S103、整理所记录的动作和与之关联的信息集合并将它们按照对应关系存储到机器人的记忆库中；

S104、当机器人接收动作输出指令时，调取记忆库中存储的信息集合中的与要表达的内容相匹配的信息集合并作出与该信息集合相对应的动作，以对人类动作表达进行模仿。

根据本发明的一个实施例，在面向机器人学习动作表达的数据处理方法的步骤S104中，机器人在进行动作表达的同时还进行语音、图像的多模态输出。

根据本发明的一个实施例，所捕捉的动作包括和时间对应的肢体动作以及和时间对应的表情动作，其中所述肢体动作用肢体的各自由度、各自由度的角度以及肢体的位移来表征，所述表情动作用面部特征点的分布、角度和位移来表征。

根据本发明的一个实施例，整理所记录的动作和与之关联的信息集合包括步骤：

将所述信息集合中的重复的信息元进行过滤。

根据本发明的一个实施例，整理所记录的动作和与之关联的信息集合还包括步骤：

针对同一组信息集合，判断所述信息集合是否对应了不同的几个动作；

如果所述信息集合对应了不同的几个动作，则基于所述信息集合中的至少一个信息元或全部信息元来判断不同的动作中是否存在错误的动作，如果是，则将该错误动作删除，如果否，则将该信息集合对应的所有正确动作归为同一动作集合。

根据本发明的一个实施例，整理所记录的动作和与之关联的信息集合还包括：

针对多组信息集合对应同一动作的情况，获取多组信息集合中各个信息元之间与该动作的规律，对所述多组信息集合进行重组，形成单一的与该动作相关联的新的信息集合。

根据本发明的一个实施例，与所学习的动作关联的信息元包括：

(a)经语音识别或者声音情感识别得到的语言、语气、语调、语速、音量；

(b)经语义识别得到的目标所表达的语义；

(c)与第二人对话时，经语音识别或者声音情感识别得到的第二人的语言、语气、语调、语速、音量；

(d)获取的环境信息；

(e)经视觉识别得到的情绪；

(f)经视觉识别得到的特征，如身高、体重、年龄、性别和国籍的一种或几种的组合；

(g)经图义识别得到的目标所表达的图义；

(h)与第二人对话时，经视觉识别得到的情绪；

(i)与第二人对话时，经视觉识别得到的特征，如身高、体重、年龄、性别和国籍的一种或几种的组合；

(j)与第二人对话时，经图义识别得到的目标所表达的图义；以及

(k)交谈双方的感情深度和/或关系。

根据本发明的另一个方面，还提供了一种面向机器人学习动作表达的数据处理装置，该装置包括：

动作捕捉模块，其用于对目标在一段时间内所发出的一系列动作进行捕捉并记录；

关联信息识别记录模块，其用于同步地识别并记录分别与所捕捉的一系列动作相关联的信息集合，所述信息集合由信息元构成；

整理模块，其用于整理所记录的动作和与之关联的信息集合并将它们按照对应关系存储到机器人的记忆库中；

动作模仿模块，其用于当机器人接收动作输出指令时，调取记忆库中存储的信息集合中的与要表达的内容相匹配的信息集合并作出与该信息集合相对应的动作，以对人类动作表达进行模仿。

根据本发明的一个实施例，所提供的面向机器人学习动作表达的数据处理装置的优选实施例是，在动作模仿模块中还包括多模态输出模块，其用于在机器人在进行动作表达的同时还进行语音、图像的多模态输出。

根据本发明，所提供的面向机器人学习动作表达的数据处理装置的优选实例是，所捕捉的动作包括和时间对应的肢体动作以及和时间对应的表情动作，其中所述肢体动作用肢体的各自由度、各自由度的角度以及肢体的位移来表征，所述表情动作用面部特征点的分布、角度和位移来表征。

在根据本发明的面向机器人学习动作表达的数据处理装置中，优选的是，所述整理模块包括：

过滤模块，其用于将所述信息集合中的重复的信息元进行过滤。

根据本发明，提供的面向机器人学习动作表达的数据处理装置的优选实施例是，所述整理模块还包括：

第一判断模块，其用于针对同一组信息集合，判断所述信息集合是否对应了不同的几个动作；

第二判断模块，其用于如果所述信息集合对应了不同的几个动作，则基于所述信息集合中的至少一个信息元或全部信息元来判断不同的动作中是否存在错误的动作，如果是，则将该错误动作删除，如果否，则将该信息集合对应的所有正确动作归为同一动作集合。

根据本发明，所提供的面向机器人学习动作表达的数据处理装置的一个优选实施例中，所述整理模块还包括：

存储模块，其用于如果所述信息集合只对应于一个动作，则将该动作和与之关联的信息集合按照对应关系存储到记忆库中。

根据本发明的一个实施例，所述整理模块还包括：

信息集合重组模块，其用于针对多组信息集合对应同一动作的情况，获取多组信息集合中各个信息元之间与该动作的规律，对所述多组信息集合进行重组，形成单一的与该动作相关联的新的信息集合。

由于机器人在进行语音输出的同时，还辅以模仿的动作表达，使得人机交互更加自然，人与机器之间的沟通更加类似于人于人之间的沟通。本发明将动作表达与其他与语言表达有关的信息关联起来，经过模仿训练之后，机器人可以进行多样化的输出，使得沟通形式丰富并且更具人性，智能程度得到更大的提升。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例共同用于解释本发明，并不构成对本发明的限制。在附图中：

图1为现有的拥有多个自由度的机器人的示意图；

图2为显示了根据本发明的一个实施例让机器人进行动作模仿的总体流程图；

图3为现有技术中的对捕获的图像的人体姿态进行估计分析的示意图；

图4显示了将人体分为若干肢体部分以及各个关节之间形成夹角的示意图；

图5显示了根据本发明一个实施例的采用机器人进行动作表达的流程图；以及

图6显示了根据本发明的一个实施例的整理与动作关联的信息集合的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，以下结合附图对本发明实施例作进一步地详细说明。

本发明的实施例可以在例如图1所示的机器人上进行实施。图1所示的机器人有多个自由度，例如25个。在该机器人上设置有各种传感器包括摄像头、麦克风、红外装置，用以感知外界多种信息。该机器人集听觉、视觉、语音及运动能力于一身。摄像头可以设置在头部，类似于人眼。红外装置可以设置在躯干的任意部位上，或者其它位置，用以辅助摄像头感应物体的存在或者外界环境。

机器人一般由执行机构、驱动装置、控制系统和感知系统构成。在执行机构中主要包括头部、上肢部、躯干和下肢部，在驱动装置中，包括电驱动装置、液压驱动装置和气压驱动装置。控制系统作为机器人的核心部分，类似于人的大脑，其主要包括处理器和关节伺服控制器。感知系统包括内部传感器和外部传感器。外部传感器例如包括上述的红外装置和摄像头。

图1所示的机器人最初可能并不知道例如打招呼时需要伸出手来做出握手的动作。当使用者说出“你好！”的同时，伸出了右手。根据本发明的机器人首先实时捕获人体的动态图像，将使用者伸出右手的动作通过例如摄像头记录下来。由摄像头将该图片传入到后台进行图像处理，采用设计好的人体姿态检测器对该图像进行解析从而获得右上肢与躯干之间的夹角。然后由驱动系统根据该夹角命令右上肢做出转动，从而模仿使用者伸出右手的动作。在捕获用户动作的同时，机器人也记录下用户的语音。判断用户说出的话的语义，结合该语义，机器人可以在发出“你好”的语音的同时，伸出右手，并握住对方的手。可以设置机器人，通过其手部的感应器感应出用户结束握手的动作时，自动收回手臂。机器人将这一系列动作连续捕捉下来，通过与例如语音等进行关联动作的学习，从而对人类动作的模仿。

需要特别说明的是，本发明的方法描述的是在计算机系统中实现的。该计算机系统例如可以设置在机器人的控制核心处理器中。例如，本文所述的方法可以实现为能以控制逻辑来执行的软件，其由机器人控制系统中的CPU来执行。本文所述的功能可以实现为存储在非暂时性有形计算机可读介质中的程序指令集合。当以这种方式实现时，该计算机程序包括一组指令，当该组指令由计算机运行时其促使计算机执行能实施上述功能的方法。可编程逻辑可以暂时或永久地安装在非暂时性有形计算机可读介质中，例如只读存储器芯片、计算机存储器、磁盘或其他存储介质。除了以软件来实现之外，本文所述的逻辑可利用分立部件、集成电路、与可编程逻辑设备(诸如，现场可编程门阵列(FPGA)或微处理器)结合使用的可编程逻辑，或者包括它们任意组合的任何其他设备来体现。所有此类实施例旨在落入本发明的范围之内。

实施例一

图2为显示了根据本发明一个实施例进行动作模仿的总体流程图。该方法开始于步骤S201，机器人实时捕获动态图像。例如，可以通过采用机械式、声学式、电磁式、光学式、惯性导航式等动作捕捉技术来进行目标动作的捕捉和记录。

在捕获的图像中结合图像处理、模式识别等技术判断是否有人体存在。在一个实施例中，可采用基于HOG特征的人体检测算法，捕获到人体图像，然后将图像规范化使得人基本位于整幅图像的中心。

如果没有人体存在，则系统继续停留在捕捉图像的状态。如果有人体存在，在步骤S202中，进行人体姿态的分析，例如通过采用例如人体姿态检测器的方式解析出人体姿态。

然而，现有技术中，关于人体姿态分析的方法有好几种。

一种是先建立大规模的人体姿态图像数据库，然后在数据库中匹配输入图像，获得与输入图像接近的实例。最后以此实例的姿态作为输入图像中的人体姿态估计结果。基于搜索图像库的方法如图3所示。在该方法中，将一系列包含不同人体姿态的二维图像作为实例，并在这些二维图像上标示出人体重要关节的位置(例如按照下文所述的10个肢体部分之间的连接处)，然后把输入图像与这些图像进行匹配。可以通过基于上下文的匹配策略来在数据库中找到合适的图像作为输入图像的估计。

将所捕获的人体图像301利用搜索匹配策略对数据库进行搜索，从搜索的结果中找到与所捕获的人体图像最为匹配的人体姿态，作为估计的结果，以便后续进行模仿。在该数据库中，已经经过训练包含了大量的人体姿态图。

不过，这种方法需要建立巨大的数据库，数据库的质量与匹配的结果精度密切相关。

还有一种方法是基于模型的方法。在该方法中，先对人体的结构建模，将人体分为各个部件，然后在图像中寻找这些部件的位置和方向，最后得到整个的人体姿态估计结果。

在本文中，主要介绍了采用上述两种方法来得到估计的人体姿态分析。然而，事实上，本发明可以采用现有技术的任何一种方法来进行人体姿态的分析，这里并不作任何限制。

在图2的方法中，通过分析得到运动的肢体位置和方位，但得到这些还不够，还要知道人体各个关键关节的转动角度，才能恢复人体姿态。并对关节间的夹角进行计算

由于，机器人的肢体运动是相对运动，即每个肢体都是对其上级肢体运动的，因此要确定各个肢体的运动情况必须计算得到各个肢体的相对夹角。

如图4所示，可以按照对人体结构的划分将机器人分成10个部分：躯干、头部、左上肢上部、左上肢下部、右上肢上部、右上肢下部、左下肢上部、左上肢下部、右下肢上部、右下肢下部。例如，躯干为头部、左上肢上部和右上肢上部的上级，而左上肢上部和右上肢上部为左上肢下部和右上肢下部的上级。要计算的就是这些上下级肢体之间的相对夹角。

肢体的倾角定义为肢体部分的主轴方向与水平线的夹角。肢体间的夹角定义为下级肢体的倾角与下级肢体的倾角之差。在图4中，例如，定义A-A’即为肢体间的夹角。

根据图像识别，获取图像中的人体的各个关节夹角的角度，将这些角度传送到机器人驱动系统中，使机器人模仿出人体摆出的动作。

计算出10对上下级肢体之间的相对夹角，利用这些夹角就可以驱动机器人的关节转动相应的角度，从而摆出与人体类似的姿态。

实施例二

如图5所示，其中显示了根据本发明的思想的又一具体实施例。在该图中，方法开始于步骤S101。在该步骤中，对目标在一段时间内所发出的一系列动作进行捕捉并记录。该步骤仍然例如通过机器人的摄像头等光学传感部件完成。然后，根据需要还要对图像进行预处理方面的很多工作。例如在复杂背景下准确提取出人体，得到人体前景图等。在本发明中，基于立体视觉而不是单目视觉得到深度信息，从图像中恢复出立体的人体姿态。这样能够保证捕获的动作的准确性。

此外，还需要对人体动作关键帧进行准确提取。机器人通过自身的视觉系统捕获人体动作序列帧时，不用对每一帧图像进行处理，只需处理关键帧，其余的帧通过插值的方法估计出即可。这样可以大大提高运算速度，从而使机器人学习能力提高，甚至可以做到边学边用。

与第一实施例类似，也需要判断图片中是否有人体的存在。只有人体存在的图像才会进行接下来的处理。例如步骤S101’，采用人体姿态检测器解析出人体姿态，得到动作的数据表示。

为了让机器人发出的动作与实际要表达的内容相符，机器人还要同步地识别并记录分别与所捕捉的一系列动作相关联的信息集合，请参见步骤S102。其中，信息集合由信息元构成。

与所学习的动作关联的信息元包括但不限于以下内容：

(b)经语义识别得到的目标所表达的语义；

(d)获取的环境信息；

(e)经视觉识别得到的情绪；

(g)经图义识别得到的目标所表达的图义；

(h)与第二人对话时，经视觉识别得到的情绪；

(k)交谈双方的感情深度和/或关系。

为了让机器人能够模仿人类作出与要表达的内容相配的动作，机器人学习过程中，还需要整理所记录的动作和与之关联的信息集合并将它们按照对应关系存储到机器人的记忆库中，如步骤S103。

接下来，在步骤S104中，当机器人接收动作输出指令时，就会调取记忆库中存储的信息集合中的与要表达的内容相匹配的信息集合并作出与该信息集合相对应的动作，以对人类动作表达进行模仿。

例如针对用户发出“太好了！”的语音并伴随有鼓掌的动作，机器人通过捕获到这样的图像之后，进行图像分析处理，提取出人体前景图像。接下来可以按照人体结构进行图像重构，得到人体各个部件的位置和方位。在接下来的步骤中，可以根据人体各个部件的位置和方向计算关节之间的夹角，例如左上肢上部和下部，以及右上肢上部和下部的夹角值，以及做右上肢与躯干的夹角值。最后根据这些夹角值，向机器人的驱动系统发出指令，驱动机器人的对应肢体部位旋转，以使得机器人对应的关节夹角与计算得到的关节夹角相同。这样便实现了机器人对人体动作的模仿。

在本发明中，基于人体动作的人机交互技术融入了图像处理、模式识别以及数据挖掘等技术。提高运算速度使得机器人能够像人一样做出敏捷快速的反应是非常重要的，因此选择合适的处理器以及合适的处理算法相当关键。

如图所示，在步骤S104中，机器人在进行动作表达的同时还进行语音、图像的多模态输出。

另外，要指出的是，上述所捕捉的动作实际上包括和时间对应的肢体动作以及和时间对应的表情动作，其中所述肢体动作用肢体的各自由度、各自由度的角度以及肢体的位移来表征，所述表情动作用面部特征点的分布、角度和位移来表征。

在整理所记录的动作和与之关联的信息集合过程中，其具体还包括一系列如图6所示的步骤。

在图6中，整理的方法开始于步骤S601。在接下来的步骤S602中，首先将信息集合中的重复的信息元进行过滤。例如，对于人作出“惊讶”动作这样的一个情景，机器人记忆库中可能已经存储了用户两次类似或相同的信息集合，这种情况下，只要保留其中的一个就可以，因此对重复的信息元进行滤除。

在步骤S603中，如果机器人针对的是同一组信息集合，首先会判断该信息集合是否对应了不同的几个动作。如果是，则在步骤S604中，基于所述信息集合中的至少一个信息元或全部信息元来判断不同的动作中是否存在错误的动作。如果发现确是存在错误动作，则将该错误动作删除S605。如果这些不同的动作都正确并与信息集合特别相关，则将该信息集合对应的所有正确动作归为同一动作集合，S606。

如果信息集合只对应于一个动作，则可以直接执行图5的步骤S103的存储记忆库的步骤以将该动作和与之关联的信息集合按照对应关系存储到记忆库中。或者如图6所示，到达步骤S606，进行正确动作的归一整理。

接下来，在步骤S607中，针对多组信息集合对应同一动作的情况，获取多组信息集合中各个信息元之间与该动作的规律，对所述多组信息集合进行重组，形成单一的与该动作相关联的新的信息集合。

最后，该方法在步骤S608处结束。接下来继续图5所示的处理，例如进行机器人动作的驱动输出以及其他情景的输出。

实施例三

本发明还提供了一种面向机器人学习动作表达的数据处理装置，其包括：

其中，优选的是，在动作模仿模块中还包括多模态输出模块，其用于在机器人在进行动作表达的同时还进行语音、图像的多模态输出。

如上所述的，所捕捉的动作包括和时间对应的肢体动作以及和时间对应的表情动作，其中所述肢体动作用肢体的各自由度、各自由度的角度以及肢体的位移来表征，所述表情动作用面部特征点的分布、角度和位移来表征。

在根据本发明的数据处理装置中，上述整理模块包括：

优选的是，该整理模块还包括：

在另一个优选实施例中，所述整理模块还包括：

应该理解的是，本发明所公开的实施例不限于这里所公开的特定结构、处理步骤或材料，而应当延伸到相关领域的普通技术人员所理解的这些特征的等同替代。还应当理解的是，在此使用的术语仅用于描述特定实施例的目的，而并不意味着限制。

说明书中提到的“一个实施例”或“实施例”意指结合实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，说明书通篇各个地方出现的短语“一个实施例”或“实施例”并不一定均指同一个实施例。

因此，任何本发明所属技术领域内的技术人员，在不脱离本发明所公开的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种面向机器人学习动作表达的数据处理方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的面向机器人学习动作表达的数据处理方法，其特征在于，在步骤S104中，机器人在进行动作表达的同时还进行语音、图像的多模态输出。

3.根据权利要求1所述的面向机器人学习动作表达的数据处理方法，其特征在于，所捕捉的动作包括和时间对应的肢体动作以及和时间对应的表情动作，其中所述肢体动作用肢体的各自由度、各自由度的角度以及肢体的位移来表征，所述表情动作用面部特征点的分布、角度和位移来表征。

4.根据权利要求1-3中任一项所述的面向机器人学习动作表达的数据处理方法，其特征在于，整理所记录的动作和与之关联的信息集合包括：

将所述信息集合中的重复的信息元进行过滤。

5.根据权利要求4所述的面向机器人学习动作表达的数据处理方法，其特征在于，整理所记录的动作和与之关联的信息集合还包括：

6.根据权利要求5所述的机器人学习动作表达的方法，其特征在于，整理所记录的动作和与之关联的信息集合还包括：

7.根据权利要求1所述的机器人学习动作表达的方法，其特征在于，与所学习的动作关联的信息元包括：

(b)经语义识别得到的目标所表达的语义；

(d)获取的环境信息；

(e)经视觉识别得到的情绪；

(g)经图义识别得到的目标所表达的图义；

(h)与第二人对话时，经视觉识别得到的情绪；

(k)交谈双方的感情深度和/或关系。

8.一种面向机器人学习动作表达的数据处理装置，其特征在于，所述装置包括：

9.根据权利要求8所述的面向机器人学习动作表达的数据处理装置，其特征在于，在动作模仿模块中还包括多模态输出模块，其用于在机器人在进行动作表达的同时还进行语音、图像的多模态输出。

10.根据权利要求9所述的面向机器人学习动作表达的数据处理装置，其特征在于，所捕捉的动作包括和时间对应的肢体动作以及和时间对应的表情动作，其中所述肢体动作用肢体的各自由度、各自由度的角度以及肢体的位移来表征，所述表情动作用面部特征点的分布、角度和位移来表征。

11.根据权利要求9-10中任一项所述的面向机器人学习动作表达的数据处理装置，其特征在于，所述整理模块包括：

12.根据权利要求11所述的面向机器人学习动作表达的数据处理装置，其特征在于，所述整理模块还包括：

13.根据权利要求12所述的面向机器人学习动作表达的数据处理装置，其特征在于，所述整理模块还包括：