CN112025692B

CN112025692B - 一种自学习机器人的控制方法、装置和电子设备

Info

Publication number: CN112025692B
Application number: CN202010905371.XA
Authority: CN
Inventors: 刘文印; 朱展模; 陈俊洪; 梁达勇; 莫秀云
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2020-09-01
Filing date: 2020-09-01
Publication date: 2021-09-03
Anticipated expiration: 2040-09-01
Also published as: CN112025692A

Abstract

本发明公开了一种自学习机器人的控制方法、装置和电子设备，包括：获取协作视频流；所述协作视频流中包括多个协作个体；从所述协作视频流中提取与每个所述协作个体分别对应的操纵区域图像序列；按照动作类别将所述操纵区域图像序列划分为多个序列片段；依据每个所述序列片段，确定所述协作个体的操纵元；所述操纵元设有对应的操纵权重；将所述动作类别、所述操纵元和所述操纵权重输入到预置维特比解析器，生成操纵指令语法树；通过所述自学习机器人解析所述操纵指令语法树，执行与所述协作视频流对应的动作。从而实现在不同环境与工作流程中自主学习的技术目的，有效降低人工与时间成本，提高生产效率。

Description

一种自学习机器人的控制方法、装置和电子设备

技术领域

本发明涉及机器人控制技术领域，尤其涉及一种自学习机器人的控制方法、装置和电子设备。

背景技术

机器人是集机械、电子、控制、计算机、传感器、人工智能等多种学科和先进技术于一体的现代自动化装备。我国通常按照应用环境将机器人分为两类：用于制造业的工业机器人和用于非制造业并服务于人类的特种机器人。在工业生产中存在许多重复、单调、频繁等长时间作业，或者危险、恶劣环境下的作业，例如在焊接、冲压、热处理、涂装、压力铸造、机械加工等工序，及完成对人体有害的物料的搬运和工艺操作。为了提高安全性与效率，工业机器人开始代替人完成这些作业。工业机器人是最先产业化的机器人技术，已经成为一个国家或者地区自动化水平的标志。

传统的机器人控制通常是通过预先编程设定的指令所实现的，针对特定的技能或工作，由相应的技术人员对机器人进行特定程序的编写。但随着高端制造中生产多样化的发展，机器人可能需要在变化的工作场景中进行工作，当工作场景变化时，机器人需要根据环境进行重新编程，人工与时间成本较高；同时重新编程的过程中机器人可能无法进行工作，进而导致了生产效率的降低。

发明内容

本发明提供了一种自学习机器人的控制方法、装置和电子设备，解决了现有技术中的机器人需要根据环境进行重新编程，重新编程的过程中机器人无法进行工作，生产效率降低，人工与时间成本较高的技术问题。

本发明提供的一种自学习机器人的控制方法，包括：

获取协作视频流；所述协作视频流中包括多个协作个体；

从所述协作视频流中提取与每个所述协作个体分别对应的操纵区域图像序列；

按照动作类别将所述操纵区域图像序列划分为多个序列片段；

依据每个所述序列片段，确定所述协作个体的操纵元；所述操纵元设有对应的操纵权重；

将所述动作类别、所述操纵元和所述操纵权重输入到预置维特比解析器，生成操纵指令语法树；

通过所述自学习机器人解析所述操纵指令语法树，执行与所述协作视频流对应的动作。

可选地，所述从所述协作视频流中提取与每个所述协作个体分别对应的操纵区域图像序列的步骤，包括：

将所述协作视频流的每帧图像输入预置第一目标检测模型，得到与每个所述协作个体分别对应的候选边界框；

计算所述协作视频流的当前帧图像的候选边界框与前一帧图像的候选边界框的重叠率；

若所述重叠率大于预设阈值，则保留所述前一帧图像的候选边界框；

若所述重叠率小于或等于预设阈值，则保留所述当前帧图像的候选边界框；

提取所述候选边界框中的图像作为所述协作个体的操纵区域图像序列。

可选地，所述按照动作类别将所述操纵区域图像序列划分为多个序列片段的步骤，包括：

通过预置光流算法对所述操纵区域图像序列进行计算，得到光流图像序列；

采用所述操纵区域图像序列和所述光流图像序列分别训练预置动作特征提取器模型，得到两个目标动作特征提取模型；

将所述操纵区域图像序列的每帧图像输入所述目标动作特征提取模型，得到与所述操纵区域图像序列的每帧图像分别对应的第一向量；

将所述光流图像序列的每帧图像输入所述目标动作特征提取模型，得到与所述光流图像序列的的每帧图像分别对应的第二向量；

采用所述第一向量和所述第二向量，生成动作特征矩阵；

将所述动作特征矩阵输入到预置时间卷积网络，确定所述操纵区域图像序列的每帧图像的动作类别；

将所述操纵区域图像序列的每帧图像，按照所述动作类别划分为多个序列片段。

可选地，所述操纵元包括被操纵物体和操纵动作，所述依据每个所述序列片段，确定所述协作个体的操纵元的步骤，包括：

使用预置第二目标检测模型从每个所述序列片段中确定所述协作个体的被操纵物体；

采用预置人体姿态检测算法和预置ST-GCN模型，从每个所述序列片段中确定所述协作个体的操纵动作。

可选地，所述被操纵物体具有被操纵物体位置信息和被操纵物体类型信息，所述使用预置第二目标检测模型从每个所述序列片段中确定所述协作个体的被操纵物体的步骤，包括：

将每个所述序列片段输入预置第二目标检测模型，得到所述被操纵物体的第一边界框；所述第一边界框用于指示所述被操纵物体位置信息；

根据所述第一边界框，确定所述被操纵物体的物体特征；

采用所述物体特征和所述动作特征矩阵，生成分类特征；

将所述分类特征分别输入到两个预置分类模型，确定所述被操纵物体类型信息。

可选地，所述操纵动作包括操纵对象和操纵类型，所述采用预置人体姿态检测算法和预置ST-GCN模型，从每个所述序列片段中确定所述协作个体的操纵动作的步骤，包括：

采用人体姿态检测算法对每个所述序列片段中的所述协作个体进行关节检测，确定所述协作个体的手部关节信息；

基于所述手部关节信息确定所述协作个体的左手和右手的位置；所述左手和所述右手的位置设有分别对应的第二边界框；

将所述手部关节信息输入预置ST-GCN模型，分别确定所述左手和所述右手的操纵类型；

基于所述第一边界框和所述第二边界框的相对位置，确定所述被操纵物体为所述左手，和/或，所述右手的操纵对象。

可选地，所述被操纵物体类型信息包括主体物体和受体物体，所述方法还包括：

当多个所述协作个体的操纵对象都为所述主体物体或所述受体物体时，

或者，

当多个所述协作个体的操纵对象分别为所述主体物体和所述受体物体时，确定多个所述协作个体之间存在协作关系。

可选地，所述将所述动作类别、所述操纵元和所述操纵权重输入到预置维特比解析器，生成操纵指令语法树的步骤，包括：

将所述动作类别、所述操纵元和所述操纵权重输入到预置维特比解析器；

当多个所述协作个体之间存在协作关系时，生成第一操纵指令语法树；

当多个所述协作个体之间不存在协作关系时，生成第二操纵指令语法树。

本发明还提供了一种自学习机器人的控制装置，包括：

协作视频流获取模块，用于获取协作视频流；所述协作视频流中包括多个协作个体；

操作区域图像序列提取模块，用于从所述协作视频流中提取与每个所述协作个体分别对应的操纵区域图像序列；

序列片段划分模块，用于按照动作类别将所述操纵区域图像序列划分为多个序列片段；

操纵元确定模块，用于依据每个所述序列片段，确定所述协作个体的操纵元；所述操纵元设有对应的操纵权重；

指令语法树生成模块，用于将所述动作类别、所述操纵元和所述操纵权重输入到预置维特比解析器，生成操纵指令语法树；

动作执行模块，用于通过所述自学习机器人解析所述操纵指令语法树，执行与所述协作视频流对应的动作。

可选地，所述操作区域图像序列提取模块包括：

候选边界框确定子模块，用于将所述协作视频流的每帧图像输入预置第一目标检测模型，得到与每个所述协作个体分别对应的候选边界框；

重叠率计算子模块，用于计算所述协作视频流的当前帧图像的候选边界框与前一帧图像的候选边界框的重叠率；

边界框保留子模块，用于若所述重叠率大于预设阈值，则保留所述前一帧图像的候选边界框；

边界框更新子模块，用于若所述重叠率小于或等于预设阈值，则保留所述当前帧图像的候选边界框；

提取子模块，用于提取所述候选边界框中的图像作为所述协作个体的操纵区域图像序列。

可选地，所述序列片段划分模块包括：

光流图像序列确定子模块，用于通过预置光流算法对所述操纵区域图像序列进行计算，得到光流图像序列；

目标动作特征提取模型生成子模块，用于采用所述操纵区域图像序列和所述光流图像序列分别训练预置动作特征提取器模型，得到两个目标动作特征提取模型；

第一向量确定子模块，用于将所述操纵区域图像序列的每帧图像输入所述目标动作特征提取模型，得到与所述操纵区域图像序列的每帧图像分别对应的第一向量；

第二向量确定子模块，用于将所述光流图像序列的每帧图像输入所述目标动作特征提取模型，得到与所述光流图像序列的的每帧图像分别对应的第二向量；

动作特征矩阵生成子模块，用于采用所述第一向量和所述第二向量，生成动作特征矩阵；

动作类别确定子模块，用于将所述动作特征矩阵输入到预置时间卷积网络，确定所述操纵区域图像序列的每帧图像的动作类别；

序列划分子模块，用于将所述操纵区域图像序列的每帧图像，按照所述动作类别划分为多个序列片段。

可选地，所述操纵元包括被操纵物体和操纵动作，所述操纵元确定模块包括：

被操纵物体确定子模块，用于使用预置第二目标检测模型从每个所述序列片段中确定所述协作个体的被操纵物体；

操纵动作确定子模块，用于采用预置人体姿态检测算法和预置ST-GCN模型，从每个所述序列片段中确定所述协作个体的操纵动作。

可选地，所述被操纵物体具有被操纵物体位置信息和被操纵物体类型信息，所述被操纵物体确定子模块包括：

第一边界框确定单元，用于将每个所述序列片段输入预置第二目标检测模型，得到所述被操纵物体的第一边界框；所述第一边界框用于指示所述被操纵物体位置信息；

物体特征确定单元，用于根据所述第一边界框，确定所述被操纵物体的物体特征；

分类特征生成单元，用于采用所述物体特征和所述动作特征矩阵，生成分类特征；

被操纵物体类型信息确定单元，用于将所述分类特征分别输入到两个预置分类模型，确定所述被操纵物体类型信息。

可选地，所述操纵动作包括操纵对象和操纵类型，所述被操纵物体确定子模块包括：

手部关节信息确定单元，用于采用人体姿态检测算法对每个所述序列片段中的所述协作个体进行关节检测，确定所述协作个体的手部关节信息；

第二边界框确定单元，用于基于所述手部关节信息确定所述协作个体的左手和右手的位置；所述左手和所述右手的位置设有分别对应的第二边界框；

操纵类型确定单元，用于将所述手部关节信息输入预置ST-GCN模型，分别确定所述左手和所述右手的操纵类型；

操纵对象确定单元，用于基于所述第一边界框和所述第二边界框的相对位置，确定所述被操纵物体为所述左手，和/或，所述右手的操纵对象。

可选地，所述被操纵物体类型信息包括主体物体和受体物体，所述装置还包括：

协作关系确定模块，用于当多个所述协作个体的操纵对象都为所述主体物体或所述受体物体时，或者，当多个所述协作个体的操纵对象分别为所述主体物体和所述受体物体时，确定多个所述协作个体之间存在协作关系。

可选地，所述指令语法树生成模块包括：

输入子模块，用于将所述动作类别、所述操纵元和所述操纵权重输入到预置维特比解析器；

第一操纵指令语法树生成子模块，用于当多个所述协作个体之间存在协作关系时，生成第一操纵指令语法树；

第二操纵指令语法树生成子模块，用于当多个所述协作个体之间不存在协作关系时，生成第二操纵指令语法树。

本发明还提供了一种电子设备，包括存储器及处理器，所述存储器中储存有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如上述自学习机器人的控制方法的步骤。

从以上技术方案可以看出，本发明具有以下优点：

在本发明实施例中，通过从获取的协作视频流中提取与每个协作个体分别对应的操纵区域图像序列；再以动作为单位将操纵区域图像划分为多个序列片段，分别依据每个序列片段确定每个协作个体的操纵元，每个操纵元都可以设置对应的操纵权重；然后将操纵元和操纵权重输入到预置维特比解析器，以生成对应的操纵指令语法树，最后通过自学习机器人解析所述操纵指令语法树，执行与所述协作视频流对应的动作。从而实现在不同环境与工作流程中自主学习的技术目的，有效降低人工与时间成本，提高生产效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本申请实施例的一种自学习机器人的控制方法的步骤流程图；

图2为本申请可选实施例的一种自学习机器人的控制方法的步骤流程图；

图3为本申请实施例中的候选边界框示意图；

图4为本申请实施例中的序列片段划分过程示意图；

图5为本申请实施例中的一种第一操纵指令语法树的结构示意图；

图6为本申请实施例中的一种第二操纵指令语法树的结构示意图；

图7为本申请实施例的一种自学习机器人的控制装置的结构框图。

具体实施方式

本发明实施例提供了一种自学习机器人的控制方法、装置和电子设备，用于解决现有技术中的机器人需要根据环境进行重新编程，重新编程的过程中机器人无法进行工作，生产效率降低，人工与时间成本较高的技术问题。

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1，图1为本发明实施例提供的一种自学习机器人的控制方法的步骤流程图。

本发明提供的一种自学习机器人的控制方法，包括：

步骤101，获取协作视频流；

在本发明实施例中，当自学习机器人所处的环境变换，需要根据工作流程重新进行编程时，可以预先对工作流程进行拍摄，以获取到协作视频流，以便自学习机器人对工作流程进行自学习。

其中，所述协作视频流中包括多个协作个体，所述协作个体可以为人，或者其他工作流程中所施行动作的物体等。

步骤102，从所述协作视频流中提取与每个所述协作个体分别对应的操纵区域图像序列；

在获取到工作流程的协作视频流后，为提高自学习机器人的学习效率和降低处理负荷，可以从协作视频流中提取与每个协作个体分别对应的操纵区域图像序列。

值得一提的是，无论协作个体的操作之间是否存在协作关系，每个协作个体都会具有一组对应的操纵区域图像序列。

步骤103，按照动作类别将所述操纵区域图像序列划分为多个序列片段；

在具体实现中，工作流程通常需要完成一系列的操纵动作，因此，为了使自学习机器人对每个操纵动作都能充分学习，需要对操纵区域图像序列进行进一步划分为多个序列片段，以保证每个序列片段中仅包含一个动作类别。

步骤104，依据每个所述序列片段，确定所述协作个体的操纵元；所述操纵元设有对应的操纵权重；

在得到序列片段后，为确定每个协作个体的具体操纵动作以及操纵动作所操纵的物体，需要依据从序列片段中确定每个协作个体的操纵元，同时为每个操纵元设置对应的操纵权重。

步骤105，将所述动作类别、所述操纵元和所述操纵权重输入到预置维特比解析器，生成操纵指令语法树；

步骤106，通过所述自学习机器人解析所述操纵指令语法树，执行与所述协作视频流对应的动作。

请参阅图2，图2为本发明实施例提供的一种自学习机器人的控制方法的步骤流程图。

本发明提供的一种自学习机器人的控制方法，包括：

步骤201，获取协作视频流；所述协作视频流中包括多个协作个体；

在本发明实施例中，步骤201的具体实现过程与上述步骤101类似，在此不再赘述。

步骤202，从所述协作视频流中提取与每个所述协作个体分别对应的操纵区域图像序列；

在本发明实施例中，所述步骤202可以包括以下子步骤：

参见图3，为了尽可能过滤掉与工作流程无关的场景信息，可以通过将协作视频流划分为多帧，通过将每帧图像都输入到预置第一目标检测模型中进人像检测，以得到每帧图像中的所有人像的矩形边界框，再以矩形边界框的高度的1.2倍作为边长，确定正方形边界框，其中心与矩形边界框的中心重合，以所述正方形边界框作为与每个协作个体分别对应的候选边界框。再按照时间顺序计算协作视频流当前帧候选边界框和前一帧候选边界框的重叠率，通常采用交并比IoU来度量重叠率，如果重叠率大于0.7，则保留前一帧的候选边界框，否则更新候选边界框为当前帧的结果，最后根据生成的候选边界框内的图像作为操纵区域图像序列。

每个协作个体都会生成相应的操作区域图像序列，如存在两个协作个体则会生成两组按时间顺序排列的操纵区域图像序列。

所述第一目标检测模型可以为在COCO数据集上预训练的YOLO-v4模型，其中COCO的全称是Common Objects in Context，是微软团队提供的一个可以用来进行图像识别的数据集。MS COCO数据集中的图像分为训练、验证和测试集。YOLO-v4模型为用于目标检测的模型。

IoU(Intersection-over-Union，交并比)，目标检测中使用的一个概念，是产生的候选框与原候选框的交叠率，即它们的交集与并集的比值。

进一步地，在获取到候选边界框后，还可以根据视频流前后帧的结果，对操纵区域图像序列进行平滑处理。

步骤203，按照动作类别将所述操纵区域图像序列划分为多个序列片段；

可选地，所述步骤203可以包括以下子步骤：

采用所述第一向量和所述第二向量，生成动作特征矩阵；

I3D，英文全称为“Inflated 3D Convolutional Network”，即“膨胀的三维卷积网络”，该方法在现成的二维卷积网络模型上增加一个时间维度，将二维卷积网络扩展为三维卷积网络，并使用在ImageNet上预训练的模型权重初始化三维卷积网络，在视频动作识别任务中取得了优秀的性能。

在本发明的另一个示例中，在获取到与协作个体对应的操纵区域图像序列之后，由于是按照时间顺序进行排列的，可能存在操作重复的过程。为降低机器人自学习的复杂度，可以按照动作类型为单位将操纵区域图像序列划分为多个序列片段。

参见图4，在实际操作中，可以通过预置光流算法对所述操纵区域图像序列进行计算，得到光流图像序列，采用光流图像序列和操纵区域图像序列分别对动作特征提取器例如双流I3D模型或者其他动作识别模型进行训练，在训练完成后去掉双流I3D模型的softmax层，以得到目标动作特征提取模型；再将所述操纵区域图像序列和光流图像序列的每帧图像分别输入所述目标动作特征提取模型，分别得到第一向量和第二向量，采用所述第一向量和所述第二向量，生成动作特征矩阵；将动作特征矩阵输入时间卷积网络，预测出每一帧图像的动作类别标签。然后，将连续且具有相同动作类别的帧归为一个动作片段，对完整长度的视频进行分割，得到一系列动作片段。

以I3D模型为例，对于每一次输入，两个I3D模型各输出长度为1024的一维向量，将两个向量进行拼接，得到长度为2048的一维向量。假设操纵区域图像序列的帧数为N，则最后得到的动作特征矩阵的维度为N*2048。每一组操纵区域图像序列相应地生成一个N*2048维的特征矩阵。时间卷积网络优选MS-TCN(Multi-stage Temporal ConvolutionalNetwork，多级时间卷积网络)模型，也可使用TCFPN、ED-TCN、Dilated TCN等，动作类别主要包含有“削”(peel)、“倒”(pour)、“切”(cut)、“榨取”(squeeze)、“搅拌”(stir)、“移动”(move)等。

在本发明的可选实施例中，所述操纵元包括被操纵物体和操纵动作，上述步骤104可以替换为以下步骤204-205：

为使自学习机器人能够理解协作视频流中的内容，需要确定每个协作个体的被操纵物体和操纵动作，从而得知自学习机器人的操纵动作是什么，操纵动作的对象是什么。

步骤204，使用预置第二目标检测模型从每个所述序列片段中确定所述协作个体的被操纵物体；

在本发明实施例中，由于工作流程中除了协作个体，还包括协作个体所操纵的物体，称为被操纵物体。

进一步地，所述被操纵物体具有被操纵物体位置信息和被操纵物体类型信息，所述步骤204可以包括以下子步骤：

根据所述第一边界框，确定所述被操纵物体的物体特征；

采用所述物体特征和所述动作特征矩阵，生成分类特征；

在本发明实施例中，首先将多个序列片段依次输入到第二目标检测模型，以得到被操纵物体的的第一边界框指示所述被操纵物体位置信息；再根据多个所述第一边界框，计算各动作类别的被操纵物体出现次数、各动作类别的被操纵物体出现时的边界框的位置坐标、边界框的宽和高以及置信度，将这些指标拼接成一维向量，作为物体特征。再采用所述物体特征与所述动作特征矩阵进行融合，生成分类特征。

在具体实现中，可以对对动作特征矩阵在视频长度的维度取平均(从N*2048维转换成1*2048维)，然后将动作特征和物体特征进行拼接，从而生成分类特征。

最后将所述分类特征分别输入到两个预置分类模型，以确定被操纵物体类型信息。

其中，第二目标检测模型可以为与第一目标检测模型相同的YOLO-v4模型，也可以在数据集上进行微调生成微调的YOLO-v4模型；所述预置分类模型可以为CatBoost模型或者神经网络模型，本发明实施例对此不作限制。

步骤205，采用预置人体姿态检测算法和预置ST-GCN模型，从每个所述序列片段中确定所述协作个体的操纵动作。

在本发明的一个示例中，所述操纵动作包括操纵对象和操纵类型，所述步骤205可以包括以下子步骤：

在具体实现中，采用人体姿态检测算法如OpenPose算法等，对每个序列片段中的每个协作个体进行关节检测，基于关节检测的结果可以确定左右手的位置，例如与人体躯干左侧连接的即为左手，与人体躯干右侧连接的即为右手，然后在对应的位置设置第二边界框进行标记，再将获取到的手部关节信息输入到预置ST-GCN模型，以确定每个手部的操纵类型；最后根据第二边界框与第一边界框的相对位置，确定所述被操纵物体哪只手的操纵对象，例如右手的第二边界框与被操纵物体的第一边界框的相对位置相对于左手更接近，则将被操纵物体作为右手的操纵对象。

可选地，还可以通过第一边界框的中心坐标与第二边界框的中心坐标进行操纵对象的判定。

其中，所述操纵类型可以包括以下类型：“圆柱形抓取”(cylindrical grasp)、“球形抓取”(spherical grasp)、“钩”(hook)、“捏”(pinch)等。

进一步地，所述被操纵物体类型信息包括主体物体和受体物体，所述方法还包括：

或者，

在本发明的另一个示例中，被操纵物体可能同时被多个协作个体所操作，例如“两个人一起搬桌子”、“两个人交接同一件物品”；也可能有多个协作个体进行协作操作，例如“一个人拿着刀，另一个人拿着黄瓜，第一个人用刀对黄瓜执行切的动作”，此时确定多个协作个体之间存在协作关系。

值得一提的是，“主体物体”为施加动作的一方，通常为“工具”(tools)，而“受体物体”则为承受动作的一方，通常为“材料”(ingredients)，如果“材料”因其物理性质发生改变或者遮挡而无法识别，则将其“容器”(containers)作为“受体物体”。举例而言，演示者用刀切橘子，则“刀”为“主体物体”，“橘子”为“受体物体”；演示者用菜铲搅拌锅里的黄瓜，则“菜铲”为“主体物体”，因黄瓜难以被识别，黄瓜的容器“锅”则为“受体物体”。

在具体实现中，所述操纵元设有对应的操纵权重；可以根据操纵元的类别进行权重配置，具体权重可以参见下表1：

表1

HP表示手部短语，CP表示协作短语，AP表示动作短语。手部短语(HP)可以由手和动作短语(AP)组成，或者由另一个手部短语(HP)搭配协作短语(CP)或动作短语(AP)组成，假设这三种情况权重权重一致，则每种手部短语的权重均为0.33。协作短语则只由协作动作(C)和手部短语(HP)组成。对于动作短语则分别有以下情况：每个协作个体操纵的主体物体(O_S)以及对其所采取的操纵类型(G_S)、每个协作个体操纵的受体物体(O_P)以及对其所采取的操纵类型(G_P)，每个协作个体操纵的受体物体(O_P)和对其执行的动作类别(A)，若是两方协作的情况，上述共有六种情况，再加上动作短语(AP)还可以由动作类别和手部短语组成，一共有七种情况，同理假设每种情况权重一致，则每种情况的权重为0.14。手则为每个协作个体的左右手，每种权重为0.25。

步骤206，将所述动作类别、所述操纵元和所述操纵权重输入到预置维特比解析器，生成操纵指令语法树；

在具体实现中，所述步骤206可以包括以下子步骤：

通过将从视频中识别的元素(即操纵元及其操纵权重)输入维特比解析器，计算出不同操作元的组合下操作指令语法树的权重，其中权重最大的即作为最终的操作指令语法树，自底向上、从叶子节点到根，逐步生成概率最优的操纵指令树，这棵树包含了这个视频片段的操纵指令。

参见图5，图5示出了本发明实施例中的第二操纵指令语法树示意图，其中包括指令HP、CP、AP、C(固定)、H(右手1、右手2、左手2)、AP、A(搅拌)、G_P1(捧)、O_P1(碗)、G_S2(圆柱形抓取)、O_S2(勺子)、G_P2(夹)、O_P2(碗)。

参见图6，图6示出了本发明实施例中的第一操纵指令语法树示意图，其中包括指令HP、AP、H(右手1、左手1、右手2、左手2)、AP、A(搅拌)、GS1(三指形抓取)、OS1(菜铲)、GP1(三指形抓取)、OP1(煎锅)、GS2(三指形抓取)、OS2(勺子)、GP2(圆柱形抓取)、OP2(杯子)。

步骤207，通过所述自学习机器人解析所述操纵指令语法树，执行与所述协作视频流对应的动作。

参见图5，本发明实施例中的自学习机器人可以通过解析所述第一操纵指令语法树示意图，解析为以下指令：(右手1，捧，碗)、(右手1，固定，碗)、(右手2，圆柱形抓取，勺子)、(左手2，夹，碗)、(勺子，搅拌，碗)，从而实现自学习机器人A的右手捧并固定碗，自学习机器人B的右手以圆柱形抓取勺子对碗内进行搅拌，同时自学习机器人B的左手夹住碗。

参见图6，本发明实施例中的自学习机器人可以通过解析所述第二操纵指令语法树示意图，解析为以下指令：(右手1，三指形抓取，菜铲)、(左手1，三指形抓取，煎锅)、(菜铲，搅拌，煎锅)、(右手2，三指形抓取，勺子)、(左手2，圆柱形抓取，杯子)、(勺子，搅拌，杯子)，从而实现自学习机器人A的左手以三指形抓取煎锅，右手三指形抓取菜铲对煎锅内进行搅拌；自学习机器人B的右手以三指形抓取勺子，左手圆柱形握住杯子，通过勺子对杯子内进行搅拌。

参见图7，图7示出了本发明实施例的一种自学习机器人的控制装置的结构框图，包括：

协作视频流获取模块701，用于获取协作视频流；所述协作视频流中包括多个协作个体；

操作区域图像序列提取模块702，用于从所述协作视频流中提取与每个所述协作个体分别对应的操纵区域图像序列；

序列片段划分模块703，用于按照动作类别将所述操纵区域图像序列划分为多个序列片段；

操纵元确定模块704，用于依据每个所述序列片段，确定所述协作个体的操纵元；所述操纵元设有对应的操纵权重；

指令语法树生成模块705，用于将所述动作类别、所述操纵元和所述操纵权重输入到预置维特比解析器，生成操纵指令语法树；

动作执行模块706，用于通过所述自学习机器人解析所述操纵指令语法树，执行与所述协作视频流对应的动作。

可选地，所述操作区域图像序列提取模块702包括：

可选地，所述序列片段划分模块703包括：

可选地，所述操纵元包括被操纵物体和操纵动作，所述操纵元确定模块704包括：

可选地，所述指令语法树生成模块705包括：

本发明实施例还提供了一种电子设备，包括存储器及处理器，所述存储器中储存有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如上述任一实施例所述的自学习机器人的控制方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种自学习机器人的控制方法，其特征在于，包括：

获取协作视频流；所述协作视频流中包括多个协作个体；

通过所述自学习机器人解析所述操纵指令语法树，执行与所述协作视频流对应的动作；

所述按照动作类别将所述操纵区域图像序列划分为多个序列片段的步骤，包括：

将所述光流图像序列的每帧图像输入所述目标动作特征提取模型，得到与所述光流图像序列的每帧图像分别对应的第二向量；

采用所述第一向量和所述第二向量，生成动作特征矩阵；

2.根据权利要求1所述的方法，其特征在于，所述从所述协作视频流中提取与每个所述协作个体分别对应的操纵区域图像序列的步骤，包括：

3.根据权利要求1所述的方法，其特征在于，所述操纵元包括被操纵物体和操纵动作，所述依据每个所述序列片段，确定所述协作个体的操纵元的步骤，包括：

4.根据权利要求3所述的方法，其特征在于，所述被操纵物体具有被操纵物体位置信息和被操纵物体类型信息，所述使用预置第二目标检测模型从每个所述序列片段中确定所述协作个体的被操纵物体的步骤，包括：

根据所述第一边界框，确定所述被操纵物体的物体特征；

采用所述物体特征和所述动作特征矩阵，生成分类特征；

5.根据权利要求4所述的方法，其特征在于，所述操纵动作包括操纵对象和操纵类型，所述采用预置人体姿态检测算法和预置ST-GCN模型，从每个所述序列片段中确定所述协作个体的操纵动作的步骤，包括：

采用人体姿态检测算法对每个所述序列片段中的每个所述协作个体进行关节检测，确定所述协作个体的手部关节信息；

6.根据权利要求5所述的方法，其特征在于，所述被操纵物体类型信息包括主体物体和受体物体，所述方法还包括：

或者，

7.根据权利要求6所述的方法，其特征在于，所述将所述动作类别、所述操纵元和所述操纵权重输入到预置维特比解析器，生成操纵指令语法树的步骤，包括：

8.一种自学习机器人的控制装置，其特征在于，包括：

动作执行模块，用于通过所述自学习机器人解析所述操纵指令语法树，执行与所述协作视频流对应的动作；

所述序列片段划分模块包括：

第二向量确定子模块，用于将所述光流图像序列的每帧图像输入所述目标动作特征提取模型，得到与所述光流图像序列的每帧图像分别对应的第二向量；

9.一种电子设备，其特征在于，包括存储器及处理器，所述存储器中储存有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1-7中任一项所述的自学习机器人的控制方法的步骤。