CN111571567A

CN111571567A - 机器人转译技能训练方法、装置及电子设备和存储介质

Info

Publication number: CN111571567A
Application number: CN202010397455.7A
Authority: CN
Inventors: 黄可思; 刘文印; 陈俊洪; 朱展模; 梁达勇
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2020-05-12
Filing date: 2020-05-12
Publication date: 2020-08-25

Abstract

本申请公开了一种机器人转译技能训练方法、装置及一种电子设备和计算机可读存储介质，该方法包括：获取目标视频段，并确定目标视频段中的动作信息和每个动作信息的概率；其中，动作信息至少包括主体物体、受体物体和主体物体的动作类型，动作信息还包括左手的抓取类型和右手的抓取类型中的任一项或两项；为目标视频段中的每帧图像创建视觉语义图，并利用相邻帧图像的视觉语义图确定受体物体的状态和状态的概率；利用维特比算法基于每个动作信息的概率和状态的概率建立操作指令树，并根据操作指令树确定目标视频段对应的操作指令，以便机器人执行操作指令。本申请提供的机器人转译技能训练方法，可以使得机器人学习到更复杂的操作。

Description

机器人转译技能训练方法、装置及电子设备和存储介质

技术领域

本申请涉及机器人技术领域，更具体地说，涉及一种机器人转译技能训练方法、装置及一种电子设备和一种计算机可读存储介质。

背景技术

传统的工业机器人依靠人工进行预先编程，进而设定机器人的操作指令。虽然预编程使得这些机器人动作比较精准，但是如果工作场景或操作发生了变化，就需要重新进行编程来适应新的变化，这样不仅增加了人力物力等成本，而且大大局限了机器人的实用性。假若机器人能够拥有自主学习的能力，那么面对场景的变化，甚至操作动作的变化，都能良好地适应并执行最优的操作指令，这样就能降低成本，提高效率。

为了使得机器人更具有自主学习能力，在相关技术中，将视频输入到神经网络之中识别出操作指令三元组：(主体、动作、受体)，利用该操作指令三元组即可直观地得到操作指令。但是，机器人从视频中学习到的信息比较有限，因此无法做到复杂的、包含多种元素的操作。在视频学习中，往往只识别出了主体物体、受体物体以及它们之间的动作关系，没有识别出物体的状态、抓取物体的手势、双手分别执行的操作。

因此，如何使得机器人可以学习更复杂的操作是本领域技术人员需要解决的技术问题。

发明内容

本申请的目的在于提供一种机器人转译技能训练方法、装置及一种电子设备和一种计算机可读存储介质，使得机器人可以学习更复杂的操作。

为实现上述目的，本申请提供了一种机器人转译技能训练方法，包括：

获取目标视频段，并确定所述目标视频段中的动作信息和每个所述动作信息的概率；其中，所述动作信息至少包括主体物体、受体物体和所述主体物体的动作类型，所述动作信息还包括左手的抓取类型和右手的抓取类型中的任一项或两项；

为所述目标视频段中的每帧图像创建视觉语义图，并利用相邻帧图像的视觉语义图确定所述受体物体的状态和所述状态的概率；其中，所述状态包括分开、聚集、变形和转移中的任一项或任几项的组合；

利用维特比算法基于每个所述动作信息的概率和所述状态的概率建立操作指令树，并根据所述操作指令树确定所述目标视频段对应的操作指令，以便机器人执行所述操作指令。

其中，为所述目标视频段中的每帧图像创建视觉语义图，包括：

利用图像分割技术确定所述目标视频段中每帧图像的受体物体区域，并基于每帧图像中的所有所述受体物体区域为每帧图像创建视觉语义图；其中，所述视觉语义图包括描述所述受体物体区域的定位点集合、描述相同帧图像中不同受体物体区域之间的空间关系的边集合和描述所述受体物体区域的属性信息，所述属性信息包括位置信息和外观信息，所述外观信息包括形状信息和颜色信息。

其中，所述利用图像分割技术确定所述目标视频段中每帧图像的受体物体区域，包括：

利用最大流最小割算法确定所述目标视频段中每帧图像的受体物体的定位点，并根据所有所述定位点确定所述受体物体区域。

其中，所述利用相邻帧图像的视觉语义图确定所述受体物体的状态和所述状态的概率，包括：

利用相邻帧图像的视觉语义图对所述目标视频段中的受体物体区域进行检测；

若检测到所述受体物体区域的数量增加，则判定所述受体物体的状态为分开，并确定分开的概率；

若检测到多个所述受体物体区域速度差小于第一预设值且距离欧几里得距离差小于第二预设值，则判定所述受体物体的状态为聚集，并确定聚集的概率；

若检测到所述受体物体区域的外观信息发生变化，则判定所述受体物体的状态为变形，并确定变形的概率；

若检测到所述受体物体区域的位置信息发生变化，则判定所述受体物体的状态为转移，并确定转移的概率。

其中，所述获取目标视频段，包括：

获取原始视频，将所述原始视频以动作类型作为划分标准划分为多个所述目标视频段。

其中，所述利用维特比算法基于每个所述动作信息的概率建立操作指令树之后，还包括：

以所述受体物体为索引将所述操作指令树存储至数据库中；

所述方法还包括：

当接收到目标操作指令时，确定所述目标操作指令中每个元素的概率，判断是否存在所述概率小于预设阈值的元素；

若是，则确定所述目标操作指令中的目标受体物体，在所述目标受体物体对应的操作指令树中匹配得到目标操作指令树，并利用目标操作指令树更新所述目标操作指令。

其中，所述利用维特比算法基于每个所述动作信息的概率和所述状态的概率建立操作指令树，包括：

根据所述受体物体的概率和所述状态的概率计算受体物体信息的概率，并根据所述动作信息的概率计算每个手部短语和每个动作短语的概率；其中，所述手部短语和所述动作短语为对所述动作信息、所述受体物体信息按照预设组合规则进行组合得到的短语；

基于每个所述动作信息的概率、每个所述手部短语的概率、每个所述动作短语的概率、所述受体物体信息的概率、所述状态的概率、左手和右手的概率建立所述目标视频段对应的语法规则表；

根据所述语法规则表利用所述维特比算法建立所述操作指令树。

为实现上述目的，本申请提供了一种机器人转译技能训练装置，包括：

确定模块，用于获取目标视频段，并确定所述目标视频段中的动作信息和每个所述动作信息的概率；其中，所述动作信息包括主体物体、受体物体、左手的抓取类型、右手的抓取类型和所述主体物体的动作类型；

建立模块，用于利用维特比算法基于每个所述动作信息的概率建立操作指令树；

训练模块，用于根据所述操作指令树确定所述目标视频段对应的操作指令，以便机器人执行所述操作指令。

为实现上述目的，本申请提供了一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上述机器人转译技能训练方法的步骤。

为实现上述目的，本申请提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述机器人转译技能训练方法的步骤。

通过以上方案可知，本申请提供的一种机器人转译技能训练方法，包括：获取目标视频段，并确定所述目标视频段中的动作信息和每个所述动作信息的概率；其中，所述动作信息至少包括主体物体、受体物体和所述主体物体的动作类型，所述动作信息还包括左手的抓取类型和右手的抓取类型中的任一项或两项；为所述目标视频段中的每帧图像创建视觉语义图，并利用相邻帧图像的视觉语义图确定所述受体物体的状态和所述状态的概率；其中，所述状态包括分开、聚集、变形和转移中的任一项或任几项的组合；利用维特比算法基于每个所述动作信息的概率和所述状态的概率建立操作指令树，并根据所述操作指令树确定所述目标视频段对应的操作指令，以便机器人执行所述操作指令。

本申请提供的机器人转译技能训练方法，从视频段中提取包括主体物体、受体物体、左右手的抓取类型和主体物体的动作类型在内的动作信息和每个动作信息的概率，另外基于相邻帧的视觉语义图提取受体物体的状态，基于动作信息和状态的概率建立操作指令树，进而得到该视频段对应的操作指令信息以训练机器人。由于操作指令信息中包括左右手的抓取手势、左右手各自抓取的物体、两只手或单手执行的操作以及受体物体的状态等更为复杂的信息，因此机器人可以学习到更复杂的操作。本申请还公开了一种机器人转译技能训练装置及一种电子设备和一种计算机可读存储介质，同样能实现上述技术效果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本申请。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1为根据一示例性实施例示出的一种机器人转译技能训练方法的流程图；

图2为根据一示例性实施例示出的一种操作指令树；

图3为根据一示例性实施例示出的另一种机器人转译技能训练方法的流程图；

图4为根据一示例性实施例示出的受体物体的状态变化的示意图；

图5为根据一示例性实施例示出的一种机器人转译技能训练装置的结构图；

图6为根据一示例性实施例示出的一种电子设备的结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例公开了一种机器人转译技能训练方法，使得机器人可以学习更复杂的操作。

参见图1，根据一示例性实施例示出的一种机器人转译技能训练方法的流程图，如图1所示，包括：

S101：获取目标视频段，并确定所述目标视频段中的动作信息和每个所述动作信息的概率；其中，所述动作信息至少包括主体物体、受体物体和所述主体物体的动作类型，所述动作信息还包括左手的抓取类型和右手的抓取类型中的任一项或两项；

本实施例的目的在于提取目标视频段的操作指令信息，以训练机器人，使得机器人可以学习到目标视频段内的操作，需要说明的是，此处的目标视频段仅包括一个动作类型，该动作类型是指目标视频段中的主体物体的动作类型。

本实施例不对获取目标视频段的具体方式进行限定，可以直接下载原始视频，并提取原始视频中主体物体的动作类型，按照动作类型将其划分为不同的视频段，选取其中的一个视频段作为目标视频段。即所述获取目标视频段的步骤可以包括：获取原始视频，将所述原始视频以动作类型作为划分标准划分为多个所述目标视频段。

确定目标视频段后，提取其中的动作信息并计算每个动作信息的概率。此处的动作信息至少包括主体物体、该主体物体的动作类型和该动作类型的受体物体，为提高操作的复杂度，动作信息还可以包括左右手的抓取类型，抓取类型可以包括常规抓取手势和精准抓取手势，常规抓取手势例如圆柱形抓取、球形抓取、勾住等，精准抓取手势例如捏、挤、夹等。举例说明，目标视频段代表的操作为右手抓取瓶子倒牛奶，该目标视频段的动作信息包括：右手抓取类型(圆柱形抓取)、受体物体(瓶子)、动作类型(倒)和受体物体(牛奶)。

作为一种优选实施方式，可以利用卷积神经网络对原始视频进行动作类型的划分，并确定每个目标视频段中动作类型的概率。即将所述原始视频以动作类型作为划分标准划分为多个所述目标视频段的步骤包括：利用卷积神经网络提取所述原始视频的特征序列作为第一特征序列；将所述第一特征序列输入空洞卷积神经网络中，以便识别所述原始视频中每帧图像对应的主体物体的动作类型，并基于识别结果将所述原始视频划分为多个所述目标视频段。

在具体实施中，利用卷积神经网络(例如I3D、3D卷积神经网络等)提取原始视频的特征序列，即上述第一特征序列。将该第一特征序列输入空洞卷积神经网络中，可以识别出原始视频中每帧图像对应的主体物体的动作类型，经过平滑处理后，将动作类型相同的连续的帧组合为同一个视频段，将原始视频划分为多个视频段，可以理解的是，每个视频段有且仅有一个动作类型，卷积神经网络可以得到每个视频段对应的动作类型的概率。

作为一种优选实施方式，可以利用分类器确定目标视频段中的其他动作信息和其概率。即所述确定所述目标视频段中的动作信息和每个所述动作信息的概率的步骤包括：基于所述识别结果确定所述目标视频段中动作类型的概率；提取所述目标视频段中的手部位置的特征序列作为第二特征序列；将所述第二特征序列输入分类器中，得到所述目标视频段中除所述动作类型之外的动作信息和除所述动作类型之外的动作信息的概率。在具体实施中，确定目标视频段中的手部位置，并提取该手部位置的特征序列，即上述第二特征序列。将该第二特征序列输入分类器中，以便得到目标视频段中除动作类型之外的动作信息和概率。此处的分类器可以具体为XGBoost分类器，当然也可以是其他类型的分类器，在此不进行具体限定。

作为一种更优选的实施方式，可以利用Mask R-CNN确定目标视频段中的手部位置，即所述提取所述目标视频段中的手部位置的特征序列作为第二特征序列的步骤包括：将所述目标视频段输入Mask R-CNN中，以便确定所述目标视频段中的手部位置，并提取所述手部位置的特征序列作为第二特征序列。在具体实施中，将目标视频段输入到预先训练好的Mask R-CNN中得到手部附近区域的特征序列。然后输入到XGBoost分类器中得到主体物体、受体物体、左右手的抓取类型，以及它们的识别概率。

S102：为所述目标视频段中的每帧图像创建视觉语义图，并利用相邻帧图像的视觉语义图确定所述受体物体的状态和所述状态的概率；其中，所述状态包括分开、聚集、变形和转移中的任一项或任几项的组合；

在本步骤中，利用视觉语义图来辅助判断受体物体的状态变化，每一帧图像由一个视觉语义图来描述，建立“结合主动分割和跟踪的模型”，对于每一帧图像，该模型提供多个跟踪点，这些跟踪点用来定义感兴趣区域，而定位点用来定位分割出来的部分在本实施例中可以理解为受体物体区域。在每一帧图像中，受体物体区域S＝{(s⁽ⁿ⁾,π⁽ⁿ⁾)|n＝1,...,N}，其中s表示跟踪点的点集，N为跟踪点的总数，可以取500，π⁽ⁿ⁾为其权重，且

依据相邻帧图像的视觉语义图确定受体物体的状态和该状态的概率。

S103：利用维特比算法基于每个所述动作信息的概率和所述状态的概率建立操作指令树，并根据所述操作指令树确定所述目标视频段对应的操作指令，以便机器人执行所述操作指令。

由于从目标视频段中提取出来的元素比较多，而且有可能会有元素缺失，机器人无法直接得知这些元素的主受体关系，从而不能组合这些元素来得出操作指令信息。因此，在本实施例中将计算机视觉技术与自然语言处理技术相结合，机器人先通过计算机视觉技术“看到”视频中人物的手势、动作，操作的物品等元素，再把这些元素通过自然语言处理技术，用最合理的方式组合到一起，生成一颗操作指令树，最后就能从这棵操作指令树中提取操作指令。

在具体实施中，可以利用维特比算法，维特比算法的核心是动态递归，向维特比解析器输入从视频中得到的元素(即动作信息和其概率)之后，自底向上、从叶子节点到根，逐步生成概率上最优的操作指令树，这棵树包含了本视频段的操作指令。

优选的，所述利用维特比算法基于每个所述动作信息的概率和所述状态的概率建立操作指令树的步骤可以包括：根据所述受体物体的概率和所述状态的概率计算受体物体信息的概率，并根据所述动作信息的概率计算每个手部短语和每个动作短语的概率；其中，所述手部短语和所述动作短语为对所述动作信息、所述受体物体信息按照预设组合规则进行组合得到的短语；基于每个所述动作信息的概率、每个所述手部短语的概率、每个所述动作短语的概率、所述受体物体信息的概率、所述状态的概率、左手和右手的概率建立所述目标视频段对应的语法规则表；根据所述语法规则表利用所述维特比算法建立所述操作指令树。

在具体实施中，基于每个动作信息、受体物体的状态和各自对应的概率建立语法规则表，语法规则表如表1所示，其中包括手部短语、动作短语、左手、右手和每个动作信息的概率，“HP”(Hand Phrase)表示手部短语，“AP”(Action Phrase)表示动作短语。手部短语(HP)可以由手(H)和动作短语(AP)组成，也可以由另一个手部短语(HP)和动作短语(AP)组成，为了使得概率权重一致，每个手部短语的概率均为0.5。而动作短语(AP)可以由抓取类型1(G1)和受体物体信息(Pat)组成，此处的受体物体信息(Pat)由受体物体(Obj)和受体状态(State)组成，动作短语(AP)也可以由抓取类型1(G2)和主体物体(Sub)组成，可以由动作类型(A)和受体物体信息(Pat)组成，可以由动作类型(A)和手部短语(HP)组成，同样为了使得概率权重一致，每个动作短语的概率均为0.25。抓取类型1可以表示左手的抓取类型，抓取类型2可以表示右手的抓取类型。

表1

HP->H AP	0.5
		HP->HP AP	0.5
AP->G1 Pat	0.25
		AP->G2 Sub	0.25
AP->APat	0.25
		AP->A HP	0.25
Pat->Obj State	1.0
		H->左手	0.5
H->右手	0.5
		G1->抓取类型1	左手的抓取类型的概率
G2->抓取类型2	右手的抓取类型的概率
		Sub->主体物体	主体物体的概率
Obj->受体物体	受体物体的概率
		State->受体物体状态	受体物体状态的概率
A->动作类型	动作类型的概率

得到上述语法规则表之后，可以利用维特比算法建立目标视频段的操作指令树，基于表1中的概率可以得到每个操作指令树的概率，选取包括所有动作信息、概率最大的操作指令树作为最终的操作指令树。举例说明，目标视频段中右手的抓取类型为球形抓取，受体物体为橘子，受体物体的状态为分开，动作类型为切，左手的抓取类型为圆柱形抓取，主体物体为刀，最终得到的操作指令树如图2所示。

优选的，在所述利用维特比算法基于每个所述动作信息的概率建立操作指令树之后还包括：以所述受体物体为索引将所述操作指令树存储至数据库中；本实施例还包括：当接收到目标操作指令时，确定所述目标操作指令中每个元素的概率，判断是否存在所述概率小于预设阈值的元素；若是，则确定所述目标操作指令中的目标受体物体，在所述目标受体物体对应的操作指令树中匹配得到目标操作指令树，并利用目标操作指令树更新所述目标操作指令。

在具体实施中，将从视频段提取到的操作指令树以受体物体为索引存储至数据库中，该数据库用于对其他系统中提取到的操作指令进行校对。例如，语音识别操作指令系统中提取到的操作指令为(刀，切，苹果)，分别对应概率80％、46％和90％，预先设置一个概率的阈值，当存在小于阈值的元素时说明语音识别操作指令系统提取的操作指令准确度较低，可以利用数据库中存储的操作指令树进行校对。将上述操作指令作为目标操作指令，确定其中的目标受体物体。在上述例子中，从数据库中查找受体物体(苹果)对应的操作指令树，将其中匹配度最高的目标操作指令树。

确定目标视频段对应的操作指令树后，从改操作指令树中解析出目标视频段对应的操作指令信息，此处的操作指令信息可以具体为操作指令三元组和受体物体的状态，所述操作指令三元组包括主体、动作和受体，所述主体包括所述主体物体、左手和右手中的任一项，所述动作包括所述抓取类型和所述动作类型中的任一项，所述受体包括所述受体物体。在图2的例子中，最终得到的操作指令三元组为：(右手、球形抓取、橘子)、(左手、圆柱形抓取、刀)和(刀、切、橘子)，受体物体的状态为分开。

本申请实施例提供的机器人转译技能训练方法，从视频段中提取包括主体物体、受体物体、左右手的抓取类型和主体物体的动作类型在内的动作信息和每个动作信息的概率，另外基于相邻帧的视觉语义图提取受体物体的状态，基于动作信息和状态的概率建立操作指令树，进而得到该视频段对应的操作指令信息以训练机器人。由于操作指令信息中包括左右手的抓取手势、左右手各自抓取的物体、两只手或单手执行的操作以及受体物体的状态等更为复杂的信息，因此机器人可以学习到更复杂的操作。

本申请实施例公开了一种机器人转译技能训练方法，相对于上一实施例，本实施例对技术方案作了进一步的说明和优化。具体的：

参见图3，根据一示例性实施例示出的另一种机器人转译技能训练方法的流程图，如图3所示，包括：

S201：获取目标视频段，并确定所述目标视频段中的动作信息和每个所述动作信息的概率；

其中，所述动作信息至少包括主体物体、受体物体和所述主体物体的动作类型，所述动作信息还包括左手的抓取类型和右手的抓取类型中的任一项或两项；

S202：利用图像分割技术确定所述目标视频段中每帧图像的受体物体区域，并基于每帧图像中的所有所述受体物体区域为每帧图像创建视觉语义图；

其中，所述视觉语义图包括描述所述受体物体区域的定位点集合、描述相同帧图像中不同受体物体区域之间的空间关系的边集合和描述所述受体物体区域的属性信息，所述属性信息包括位置信息和外观信息，所述外观信息包括形状信息和颜色信息。

在具体实施中，可以利用最大流最小割算法确定所述目标视频段中每帧图像的受体物体的定位点，并根据所有所述定位点确定所述受体物体区域。视频段的每一帧图像由一个视觉语义图G(V，E，P)来描述。其中点集|V|表示语义上有意义的部分的图像的集合，边集|E|表示两个部分的图像的空间关系。设v1,v2∈V，当v1和v2两个部分相连，即它们存在空间关系时，则有E(v1,v2)＝1，若它们无关系则有E(v1,v2)＝0。若在时间t-1处，图像的视觉语义图为Ga(Va，Ea，Pa)，在时间t处，图像的视觉语义图为Gz(Vz，Ez，Pz)。设符号“→”为两个点之间的时间对应关系，符号

即为两点间没有时间对应关系。并设P^L为物体的位置信息，P^S为物体的外观信息(包括形状信息、颜色信息等)。如图4所示，定义受体物体的状态包括：分开(即图4中的(1))、聚集(即图4中的(2))、变形(即图4中的(4))和转移(即图4中的(3))，它们的表示方法为：

分开：

聚集：

变形：

转移：

S203：利用相邻帧图像的视觉语义图确定所述受体物体的状态和所述状态的概率；

在具体实施中，利用相邻帧图像的视觉语义图对所述目标视频段中的受体物体区域进行检测；若检测到所述受体物体区域的数量增加，则判定所述受体物体的状态为分开，并确定分开的概率；若检测到多个所述受体物体速度差小于第一预设值且距离欧几里得距离差小于第二预设值重叠，则判定所述受体物体的状态为聚集，并确定聚集的概率；若检测到所述受体物体区域的外观信息发生变化，则判定所述受体物体的状态为变形，并确定变形的概率；若检测到所述受体物体区域的位置信息发生变化，则判定所述受体物体的状态为转移，并确定转移的概率。

分开的判断方法：监控图像中分割出来的部分的数量，如果部分增加，则物体发生了“分开”的状态变化。比如用刀切黄瓜，如果第t-1帧只有一个部分，而第t帧多出一个部分，那么可以判断说在第t帧黄瓜发生了“分开”的状态变化。

聚集的判断方法：监控图像分割出来的部分之间的欧几里得距离。比如把两片面包片A、B和C叠起来，当检测到面包片A和B的速度相近，那么可以判断出面包片A和B发生了“聚集”的状态变化。

变形的判断方法：利用HSV颜色直方图和物体形状判断算法，监控图像分割出来的部分的外观变化。比如合上书本，利用HSV颜色直方图判断处颜色发生明显变化，且检测出物体形状发生变化，那么书本发生了“变形”的状态变化。

转移的判断方法：检测物体和手的速度和相对距离。例如抓取并移动橘子，如果检测到手和橘子的距离比较小、手和橘子的速度一致，且该速度先从0上升后又下降至0，则表明橘子发生了“转移”的状态变化。

S204：利用维特比算法基于每个所述动作信息的概率和所述状态的概率建立操作指令树，并根据所述操作指令树确定所述目标视频段对应的操作指令，以便机器人执行所述操作指令。

由此可见，本实施例利用视觉语义图与结合了“主动分割和跟踪的模型”和HSV颜色直方图的最大流最小割算法，来判断视频段中受体物体的状态及其识别概率，识别准确度较高。

下面对本申请实施例提供的一种机器人转译技能训练装置进行介绍，下文描述的一种机器人转译技能训练装置与上文描述的一种机器人转译技能训练方法可以相互参照。

参见图5，根据一示例性实施例示出的一种机器人转译技能训练装置的结构图，如图5所示，包括：

第一确定模块501，用于获取目标视频段，并确定所述目标视频段中的动作信息和每个所述动作信息的概率；其中，所述动作信息至少包括主体物体、受体物体和所述主体物体的动作类型，所述动作信息还包括左手的抓取类型和右手的抓取类型中的任一项或两项；

第二确定模块502，用于为所述目标视频段中的每帧图像创建视觉语义图，并利用相邻帧图像的视觉语义图确定所述受体物体的状态和所述状态的概率；其中，所述状态包括分开、聚集、变形和转移中的任一项或任几项的组合；

建立模块503，用于利用维特比算法基于每个所述动作信息的概率和所述状态的概率建立操作指令树，并根据所述操作指令树确定所述目标视频段对应的操作指令，以便机器人执行所述操作指令。

本申请实施例提供的机器人转译技能训练装置，从视频段中提取包括主体物体、受体物体、左右手的抓取类型和主体物体的动作类型在内的动作信息和每个动作信息的概率，另外基于相邻帧的视觉语义图提取受体物体的状态，基于动作信息和状态的概率建立操作指令树，进而得到该视频段对应的操作指令信息以训练机器人。由于操作指令信息中包括左右手的抓取手势、左右手各自抓取的物体、两只手或单手执行的操作以及受体物体的状态等更为复杂的信息，因此机器人可以学习到更复杂的操作。

在上述实施例的基础上，作为一种优选实施方式，所述第二确定模块502包括：

创建单元，用于利用图像分割技术确定所述目标视频段中每帧图像的受体物体区域，并基于每帧图像中的所有所述受体物体区域为每帧图像创建视觉语义图；其中，所述视觉语义图包括描述所述受体物体区域的定位点集合、描述相同帧图像中不同受体物体区域之间的空间关系的边集合和描述所述受体物体区域的属性信息，所述属性信息包括位置信息和外观信息，所述外观信息包括形状信息和颜色信息；

第一确定单元，用于利用相邻帧图像的视觉语义图确定所述受体物体的状态和所述状态的概率；其中，所述状态包括分开、聚集、变形和转移中的任一项或任几项的组合。

在上述实施例的基础上，作为一种优选实施方式，所述创建单元具体为利用最大流最小割算法确定所述目标视频段中每帧图像的受体物体的定位点，根据所有所述定位点确定所述受体物体区域，并基于每帧图像中的所有所述受体物体区域为每帧图像创建视觉语义图的单元。

在上述实施例的基础上，作为一种优选实施方式，所述第一确定单元包括：

检测子单元，用于利用相邻帧图像的视觉语义图对所述目标视频段中的受体物体区域进行检测；

判定子单元，用于若检测到所述受体物体区域的数量增加，则判定所述受体物体的状态为分开，并确定分开的概率；若检测到多个所述受体物体速度差小于第一预设值且距离欧几里得距离差小于第二预设值，则判定所述受体物体的状态为聚集，并确定聚集的概率；若检测到所述受体物体区域的外观信息发生变化，则判定所述受体物体的状态为变形，并确定变形的概率；若检测到所述受体物体区域的位置信息发生变化，则判定所述受体物体的状态为转移，并确定转移的概率。

在上述实施例的基础上，作为一种优选实施方式，所述第一确定模块501包括：

获取单元，用于获取原始视频，将所述原始视频以动作类型作为划分标准划分为多个所述目标视频段；

第二确定单元，用于确定所述目标视频段中的动作信息和每个所述动作信息的概率。

在上述实施例的基础上，作为一种优选实施方式，还包括：

存储模块，用于以所述受体物体为索引将所述操作指令树存储至数据库中；

第三确定模块，用于当接收到目标操作指令时，确定所述目标操作指令中每个元素的概率，判断是否存在所述概率小于预设阈值的元素；若是，则启动更新模块的工作流程；

更新模块，用于确定所述目标操作指令中的目标受体物体，在所述目标受体物体对应的操作指令树中匹配得到目标操作指令树，并利用目标操作指令树更新所述目标操作指令。

在上述实施例的基础上，作为一种优选实施方式，所述建立模块503包括：

计算单元，用于根据所述受体物体的概率和所述状态的概率计算受体物体信息的概率，并根据所述动作信息的概率计算每个手部短语和每个动作短语的概率；其中，所述手部短语和所述动作短语为对所述动作信息、所述受体物体信息按照预设组合规则进行组合得到的短语；

第一建立单元，用于基于每个所述动作信息的概率、每个所述手部短语的概率、每个所述动作短语的概率、所述受体物体信息的概率、所述状态的概率、左手和右手的概率建立所述目标视频段对应的语法规则表；

第二建立单元，用于根据所述语法规则表利用所述维特比算法建立所述操作指令树；

第三确定单元，用于根据所述操作指令树确定所述目标视频段对应的操作指令，以便机器人执行所述操作指令。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本申请还提供了一种电子设备，参见图6，本申请实施例提供的一种电子设备600的结构图，如图6所示，可以包括处理器11和存储器12。该电子设备600还可以包括多媒体组件13，输入/输出(I/O)接口14，以及通信组件15中的一者或多者。

其中，处理器11用于控制该电子设备600的整体操作，以完成上述的机器人转译技能训练方法中的全部或部分步骤。存储器12用于存储各种类型的数据以支持在该电子设备600的操作，这些数据例如可以包括用于在该电子设备600上操作的任何应用程序或方法的指令，以及应用程序相关的数据，例如联系人数据、收发的消息、图片、音频、视频等等。该存储器12可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。多媒体组件13可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器12或通过通信组件15发送。音频组件还包括至少一个扬声器，用于输出音频信号。I/O接口14为处理器11和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件15用于该电子设备600与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(Near FieldCommunication，简称NFC)，2G、3G或4G，或它们中的一种或几种的组合，因此相应的该通信组件15可以包括：Wi-Fi模块，蓝牙模块，NFC模块。

在一示例性实施例中，电子设备600可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器(DigitalSignal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的机器人转译技能训练方法。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述机器人转译技能训练方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器12，上述程序指令可由电子设备600的处理器11执行以完成上述的机器人转译技能训练方法。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种机器人转译技能训练方法，其特征在于，包括：

2.根据权利要求1所述机器人转译技能训练方法，其特征在于，为所述目标视频段中的每帧图像创建视觉语义图，包括：

3.根据权利要求2所述机器人转译技能训练方法，其特征在于，所述利用图像分割技术确定所述目标视频段中每帧图像的受体物体区域，包括：

4.根据权利要求2所述机器人转译技能训练方法，其特征在于，所述利用相邻帧图像的视觉语义图确定所述受体物体的状态和所述状态的概率，包括：

若检测到多个所述受体物体速度差小于第一预设值且距离欧几里得距离差小于第二预设值，则判定所述受体物体的状态为聚集，并确定聚集的概率；

5.根据权利要求1所述机器人转译技能训练方法，其特征在于，所述获取目标视频段，包括：

6.根据权利要求1所述机器人转译技能训练方法，其特征在于，所述利用维特比算法基于每个所述动作信息的概率建立操作指令树之后，还包括：

以所述受体物体为索引将所述操作指令树存储至数据库中；

所述方法还包括：

7.根据权利要求1至6中任一项所述机器人转译技能训练方法，其特征在于，所述利用维特比算法基于每个所述动作信息的概率和所述状态的概率建立操作指令树，包括：

8.一种机器人转译技能训练装置，其特征在于，包括：

第一确定模块，用于获取目标视频段，并确定所述目标视频段中的动作信息和每个所述动作信息的概率；其中，所述动作信息至少包括主体物体、受体物体和所述主体物体的动作类型，所述动作信息还包括左手的抓取类型和右手的抓取类型中的任一项或两项；

第二确定模块，用于为所述目标视频段中的每帧图像创建视觉语义图，并利用相邻帧图像的视觉语义图确定所述受体物体的状态和所述状态的概率；其中，所述状态包括分开、聚集、变形和转移中的任一项或任几项的组合；

建立模块，用于利用维特比算法基于每个所述动作信息的概率和所述状态的概率建立操作指令树，并根据所述操作指令树确定所述目标视频段对应的操作指令，以便机器人执行所述操作指令。

9.一种电子设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至7任一项所述机器人转译技能训练方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述机器人转译技能训练方法的步骤。