CN110414446A

CN110414446A - 机器人的操作指令序列生成方法及装置

Info

Publication number: CN110414446A
Application number: CN201910703031.6A
Authority: CN
Inventors: 刘文印; 朱展模; 陈俊洪; 梁达勇; 莫秀云
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2019-07-31
Filing date: 2019-07-31
Publication date: 2019-11-05
Anticipated expiration: 2039-07-31
Also published as: CN110414446B

Abstract

本发明提供一种机器人的操作指令序列生成方法，包括：获得与待处理视频对应的图像特征序列；将图像特征序列输入预先训练完成的空洞卷积神经网络中，以得到待处理视频的动作类型序列；在待处理视频中提取出与每个动作类型对应的视频片段，并确定视频片段中候选物体的操作物体和被操作物体，生成与视频片段的动作类型对应的动作指令、操作物体对应的执行指令和被操作物体对应的控制指令；将动作指令、操作指令和控制指令组成操作指令组合，并生成待处理视频的操作指令序列。应用本发明提供的方法的机器人可根据操作指令序列执行相应的动作，并从海量的视频数据中自主学习，生成与视频对应的操作指令序列，不需要在机器人中预先设置操作指令。

Description

机器人的操作指令序列生成方法及装置

技术领域

本发明涉及人工智能技术领域，特别涉及一种机器人的操作指令序列生成方法及装置。

背景技术

随着科学技术的进步，人工智能成为科研的热门话题。机器人是人工智能领域的最早研究的方向，如今的机器人应用在各种行业和领域中，使人们的生活更加便利，提高了人们的工作效率。

机器人依据预先设置的编程或是操作指令完成特定的技能或作业工作，为使机器人更加智能化，机器人需要不断学习新技能，以满足人们的需求以及使自身更加智能化。现有的机器人学习方法主要分为两种，分别是基于轨迹学习的方法和基于人体关节姿态的学习方法。

基于轨迹学习的方法是通过记录机械臂的运动轨迹来实现机器人对动作的重复演示，基于人体关节姿态的学习方法是通过采集佩戴在人体上的特殊设备，采集人体的关节信息，按照采集的关节信息模仿人体动作。现有的机器人学习方法，机器人通过采集的信息进行不断的训练，以完成预先定义的动作，采用现有的学习方法，机器人仅仅是简单的重复和模仿动作，无法从海量的数据中自主学习操作信息，完成未预先定义的动作。

发明内容

有鉴于此，本发明提供一种机器人的操作指令序列生成方法，应用本发明提供的方法，机器人可以从视频中生成与所述视频对应的操作指令序列，并在海量的视频中自主进行学习。与本发明提供的方法对应的，本发明还提供了一种机器人的操作指令序列生成装置。

为实现上述目的，本发明提供如下技术方案：

一种机器人的操作指令序列生成方法，包括：

获取待处理视频，确定所述待处理视频中各个视频图像帧的时间节点；

依据各个所述视频图像帧的时间节点的先后顺序，将每个所述视频图像帧依次输入预设的卷积神经网络中，获得所述卷积神经网络输出的每个所述视频图像帧的图像特征，并按每个所述图像特征的输出顺序，对各个所述图像特征进行排序，生成所述待处理视频的图像特征序列；

将所述图像特征序列输入预先训练完成的空洞卷积神经网络模型中，获得所述空洞卷积神经网络模型输出的与所述待处理视频对应的动作类型序列；

在所述待处理视频中，提取与每个所述动作类型对应的视频片段；

对各个所述视频片段依次进行解析，确定每个所述视频片段对应的候选物体；

获取每个所述视频片段的候选物体的各个物体特征，并依据各个所述物体特征确定该视频片段对应的候选物体中的操作物体和被操作物体；

确定每个所述视频片段对应的动作类型的动作指令、操作物体的执行指令和被操作物体的控制指令，将所述动作指令、执行指令和控制指令组成与所述视频片段对应的操作指令组合；

将每个所述视频片段的操作指令组合进行排序，生成与所述待处理视频对应的操作指令序列。

上述的方法，可选的，所述获得所述空洞卷积神经网络模型输出的与所述待处理视频对应的动作类型序列，包括：

确定所述图像特征序列中的各个所述图像特征；

依据所述空洞卷积神经网络模型中预设的卷积方法，对各个所述图像特征进行卷积运算，确定与所述图像特征对应的每个所述视频图像帧的动作类型；

依据每个所述视频图像帧的时间节点的先后顺序，将各个动作类型进行排序，得到与所述待处理视频对应的动作类型序列。

上述的方法，可选的，所述在所述待处理视频中，提取与每个所述动作类型对应的视频片段，包括：

依据所述动作类型序列，确定每个所述视频图像帧对应的动作类型；

将所述动作类型相同的各个视频图像帧归为同一动作类型组别，并将各个所述动作类型组别中的各个所述视频图像帧按照时间节点的先后顺序进行排序，以提取出与所述动作类型对应的视频片段。

上述的方法，可选的，所述对各个所述视频片段依次进行解析，确定每个所述视频片段对应的候选物体，包括：

获取所述视频片段的各个视频图像帧；

将各个所述视频图像帧依次输入预先训练完成的物体检测模型中，对每个所述视频图像帧进行检测，确定每个所述视频图像帧中的各个候选物体；

依据各个所述候选物体的数据信息，确定与所述视频片段所对应的候选物体。

上述的方法，可选的，所述获取每个所述视频片段的候选物体的各个物体特征，并依据各个所述物体特征确定该视频片段对应的候选物体中的操作物体和被操作物体，包括：

获取每个所述视频片段的候选物体的各个物体特征；

将所述各个物体特征输入至预先训练完成的第一分类器和第二分类器；

触发所述第一分类器和所述第二分类器对各个所述物体特征进行分析，得到所述第一分类器输出的与所述视频片段对应的操作物体和所述第二分类器输出的与所述视频片段对应的被操作物体。

一种机器人的操作指令序列生成装置，包括：

获取单元，用于获取待处理视频，确定所述待处理视频中各个视频图像帧的时间节点；

排序单元，用于依据各个所述视频图像帧的时间节点的先后顺序，将每个所述视频图像帧依次输入预设的卷积神经网络中，获得所述卷积神经网络输出的每个所述视频图像帧的图像特征，并按每个所述图像特征的输出顺序，对各个所述图像特征进行排序，生成所述待处理视频的图像特征序列；

输入单元，用于将所述图像特征序列输入预先训练完成的空洞卷积神经网络模型中，获得所述空洞卷积神经网络模型输出的与所述待处理视频对应的动作类型序列；

提取单元，用于在所述待处理视频中，提取与每个所述动作类型对应的视频片段；

解析单元，用于对各个所述视频片段依次进行解析，确定每个所述视频片段对应的候选物体；

第一确定单元，用于获取每个所述视频片段的候选物体的各个物体特征，并依据各个所述物体特征确定该视频片段对应的候选物体中的操作物体和被操作物体；

第二确定单元，用于确定每个所述视频片段对应的动作类型的动作指令、操作物体的执行指令和被操作物体的控制指令，将所述动作指令、执行指令和控制指令组成与所述视频片段对应的操作指令组合；

生成单元，用于将每个所述视频片段的操作指令组合进行排序，生成与所述待处理视频对应的操作指令序列。

上述的装置，可选的，所述输入单元，包括：

确定子单元，用于确定所述图像特征序列中的各个所述图像特征；

运算子单元，用于依据所述空洞卷积神经网络模型中预设的卷积方法，对各个所述图像特征进行卷积运算，确定与所述图像特征对应的每个所述视频图像帧的动作类型；

排序子单元，用于依据每个所述视频图像帧的时间节点的先后顺序，将各个动作类型进行排序，得到与所述待处理视频对应的动作类型序列。

上述的装置，可选的，所述提取单元，包括：

第一确定子单元，用于依据所述动作类型序列，确定每个所述视频图像帧对应的动作类型；

提取子单元，用于将所述动作类型相同的各个视频图像帧归为同一动作类型组别，并将各个所述动作类型组别中的各个所述视频图像帧按照时间节点的先后顺序进行排序，以提取出与所述动作类型对应的视频片段。

上述的装置，可选的，所述解析单元，包括：

第一获取子单元，用于获取所述视频片段的各个视频图像帧；

检测子单元，用于将各个所述视频图像帧依次输入预先训练完成的物体检测模型中，对每个所述视频图像帧进行检测，确定每个所述视频图像帧中的各个候选物体；

第二确定子单元，用于依据各个所述候选物体的数据信息，确定与所述视频片段所对应的候选物体。

上述的装置，可选的，所述第一确定单元，包括：

第二获取子单元，用于获取每个所述视频片段的候选物体的各个物体特征；

输入子单元，用于将所述各个物体特征输入至预先训练完成的第一分类器和第二分类器；

触发子单元，用于触发所述第一分类器和所述第二分类器对各个所述物体特征进行分析，得到所述第一分类器输出的与所述视频片段对应的操作物体和所述第二分类器输出的与所述视频片段对应的被操作物体。

基于上述本发明提供的方法具有以下优点：

通过将所述待处理视频中的各个视频图像帧进行处理，获得与所述待处理视频对应的图像特征序列；将所述图像特征序列输入预先训练完成的空洞卷积神经网络中，以得到所述空洞卷积神经网络输出的待处理视频的动作类型序列；依据所述动作类型序列在所述待处理视频中提取出与每个所述动作类型对应的视频片段，并确定所述视频片段中候选物体的操作物体和被操作物体，生成与所述视频片段的动作类型对应的动作指令、操作物体对应的执行指令和被操作物体对应的控制指令；将所述动作指令、操作指令和控制指令组成操作指令组合，并将各个视频片段的操作指令组合进行排序，生成所述待处理视频的操作指令序列。应用本发明提供的方法的机器人可根据所述操作指令序列执行相应的动作，可以从海量的视频数据中自主学习，生成与视频对应的操作指令序列，不需要操作人员掌握额外知识和佩戴外部设备的情况下，控制机器人演示视频的操作内容，以使机器人从视频中自主学习，生成对应的操作指令，不需要预先设置操作指令。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为一种机器人的操作指令序列生成方法的方法流程图；

图2为一种机器人的操作指令序列生成方法的另一方法流程图；

图3为一种机器人的操作指令序列生成方法的另一方法流程图；

图4为一种机器人的操作指令序列生成方法的另一方法流程图；

图5为一种机器人的操作指令序列生成方法的另一方法流程图；

图6为一种机器人的操作指令序列生成方法的另一方法流程图；

图7为一种机器人的操作指令序列生成装置的装置结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本申请中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本发明可以用于众多通用或专用的计算装置环境或配置中。例如：个人计算机、服务器计算机、多处理器装置、包括以上任何装置或设备的分布式计算环境等等。

本发明实施例提供了一种机器人的操作指令序列生成方法，该方法可应用于机器人的计算机中，其执行主体可以为机器人中的计算机、处理器或是服务器，所述方法的方法流程图如图1所示，具体包括：

S101、获取待处理视频，确定所述待处理视频中各个视频图像帧的时间节点。

本发明实施例提供的方法中，机器人获取待处理视频，获取待处理视频的具体方式可以为：由操作人员向机器人输入预先选定的视频；或是接收操作人员发送的指令，机器人在视频数据库中选定与所述指令对应的视频作为待处理视频；将获取的待处理视频进行解析，以确定所述待处理视频中每一帧视频图像帧在所述待处理视频中的时间节点。需要说明的是，对所述待处理视频进行解析，获得各个视频图像帧，所述视频图像帧可以是按照一定的采样时间间隔对待处理视频进行采样，以得到各个视频图像帧。

S102、依据各个所述视频图像帧的时间节点的先后顺序，将每个所述视频图像帧依次输入预设的卷积神经网络中，获得所述卷积神经网络输出的每个所述视频图像帧的图像特征，并按每个所述图像特征的输出顺序，对各个所述图像特征进行排序，生成所述待处理视频的图像特征序列。

本发明实施例提供的方法中，将所述待处理视频中的各个视频图像帧依据时间节点，依次输入预设的卷积神经网络中，经过所述卷积神经网络提取每个所述视频图像帧中的图像特征；具体的，所述预设的卷积神经网络可以为双流卷积神经网络或是其他可实现提取图像特征的卷积神经网络。将提取到的每个视频图像帧的图像特征依次输出，图像特征的输出顺序为每个视频图像帧输入所述卷积神经网络的顺序；例如视频图像帧1、视频图像帧2和视频图像帧3；先将视频图像帧1输入卷积神经网络中，再将视频图像帧2输入卷积神经网络中，最后将视频图像帧3输入卷积神经网络中；则卷积神经网络先输出视频图像帧1的图像特征a，再输出视频图像帧2的图像特征b，最后输出图像特征c。将输出的各个图像特征按照输出顺序进行排列，生成所述待处理图像视频的图像特征序列，例如所述待处理图像视频中有8个视频图像帧，各个视频图像帧的图像特征分别为：a、s、d、f、g、h和j，生成的图像特征序列为：{a，s，d，f，g，h，j}。

S103、将所述图像特征序列输入预先训练完成的空洞卷积神经网络模型中，获得所述空洞卷积神经网络模型输出的与所述待处理视频对应的动作类型序列。

本发明实施例提供的方法中，将与所述待处理视频对应的图像特征序列输入预先训练完成的空洞卷积神经网络模型中；所述空洞卷积神经网络模型为预先训练完成的，经过空洞卷积神经网络模型预先训练好的方法，对所述图像特征序列中的各个图像特征进行处理，依据各个图像特征，预测每个视频图像帧的动作类型的信息，所述空洞卷积神经网络模型依据每个视频图像帧的动作类型的信息，输出与所述待处理视频对应的动作类型序列，所述动作类型序列由包含所述空洞卷积神经网络模型对每个视频图像帧进行预测的动作类型组成。

S104、在所述待处理视频中，提取与每个所述动作类型对应的视频片段。

本发明实施例提供的方法中，依据所述空洞卷积神经网络输出的与所述待处理视频对应的预测动作类型序列，在所述待处理视频中，提取出与每个所述动作类型相关的视频片段；例如待处理视频的时长共有2分钟，其中，待处理视频的第一分钟的动作类型为“跳”，待处理视频的第二分钟的动作类型为“跑”；则将待处理视频的第一分钟的视频提取出，作为与动作类型“跳”相对应的视频片段，将待处理视频的第二分钟的视频提取出，作为与动作类型“跑”对应的视频片段。

S105、对各个所述视频片段依次进行解析，确定每个所述视频片段对应的候选物体。

本发明实施例提供的方法中，对从所述待处理视频中提取出的视频片段逐个按照预设的方法进行解析，进行解析的顺序为各个视频片段在待处理视频中的时间的先后顺序；将所述视频片段进行解析后，确定每个视频片段所对应的候选物体，需要说明的是，每个视频片段所对应的候选物体可以是两个或多个；其中，确定候选物体时可以先确定候选物体所处的区域，所述区域中包含所述候选物体，并从所述候选区域中提取出候选物体。

S106、获取每个所述视频片段的候选物体的各个物体特征，并依据各个所述物体特征确定该视频片段对应的候选物体中的操作物体和被操作物体。

本发明实施例提供的方法中，对每个所述视频片段所对应的候选物体进行解析，以获取与所述候选物体对应的各个物体特征，并根据与候选物体对应的各个物体特征确定该视频片段对应的候选物体中的操作物体和被操作物体，具体的，所述各个物体特征可以为：候选物体的平均置信度、候选物体出现的平均位置、候选物体在视频片段中出现的次数等。

S107、确定每个所述视频片段对应的动作类型的动作指令、操作物体的执行指令和被操作物体的控制指令，将所述动作指令、执行指令和控制指令组成与所述视频片段对应的操作指令组合。

本发明实施例提供的方法中，根据视频片段对应的动作类型、候选物体中的操作物体和被操作物体，生成与所述动作类型对应的动作指令，生成与所述操作物体对应的执行指令，以及生成与所述被操作物体对应的控制指令；并将所述动作指令，执行指令和控制指令进行排序，生成与所述视频片段对应的操作指令组合；例如视频片段1的操作指令组合为{Z，X，C}，其中，Z为所述动作指令，X为所述执行指令，C为所述控制指令。

S108、将每个所述视频片段的操作指令组合进行排序，生成与所述待处理视频对应的操作指令序列。

本发明实施例提供的方法中，将每个视频片段的操作指令组合进行排序，以生成与所述待处理视频对应的预测的操作指令序列；例如所述操作指令序列为{(S，D，F)(F，G，H)(J，K，L)}，其中，S为第一视频片段的动作指令，D为第一视频片段的执行指令，F为第一视频片段的控制指令；F为第二视频片段的动作指令，G为第二视频片段的执行指令，H为第二视频片段的控制指令；J为第三视频片段的动作指令，K为第三视频片段的执行指令，L为第三视频片段的控制指令；并依据所述操作指令中的指令控制机器人执行相应的动作。

本发明实施例提供的方法中，通过将所述待处理视频中的各个视频图像帧进行处理，获得与所述待处理视频对应的图像特征序列；将所述图像特征序列输入预先训练完成的空洞卷积神经网络中，以得到所述空洞卷积神经网络输出的待处理视频的动作类型序列；依据所述动作类型序列在所述待处理视频中提取出与每个所述动作类型对应的视频片段，并确定所述视频片段中候选物体的操作物体和被操作物体，生成与所述视频片段的动作类型对应的动作指令、操作物体对应的执行指令和被操作物体对应的控制指令；将所述动作指令、操作指令和控制指令组成操作指令组合，并将各个视频片段的操作指令组合进行排序，生成所述待处理视频的操作指令序列。应用本发明提供的方法的机器人可根据所述操作指令序列执行相应的动作，可以从海量的视频数据中自主学习，生成与视频对应的操作指令序列，不需要操作人员掌握额外知识和佩戴外部设备的情况下，控制机器人演示视频的操作内容，以使机器人从视频中自主学习，生成对应的操作指令，不需要预先设置操作指令。

本发明实施例提供的方法中，将所述待处理视频的图片特征序列输入空洞卷积神经网络模型中进行解析的具体过程如图2所示，具体如下所述：

S201、确定所述图像特征序列中的各个所述图像特征。

本发明实施例提供的方法中确定输入预先训练完成的空洞卷积神经网络模型中的图像特征序列中的各个图像特征的排列顺序，将各个图像特征按照预设的排列方法进行排列，以便于所述空洞卷积神经网络模型对各个图像特征进行运算。

S202、依据所述空洞卷积神经网络模型中预设的卷积方法，对各个所述图像特征进行卷积运算，确定与所述图像特征对应的每个所述视频图像帧的动作类型。

本发明实施例提供的方法中，按照预设的卷积方法对所述图像特征序列中的各个图像特征进行卷积，以确定与各个图像特征对应的视频图像帧的动作类型。具体的，本发明实施例提供的空洞卷积神经网络为一维空洞卷积神经网络，选用大小为3的空洞卷积核，也可以选用其他大小的卷积核，空洞卷积神经网络第一层采用标准的卷积，其间隔为1，每一层的空洞卷积操作的间隔为上一层的两倍，即第l层的间隔为2^l-1，l∈[1,L]，第一层的间隔为1，其中L为总层数，通过空洞卷积神经网络模型中预设的多层的空洞卷积神经网络对图像特征的卷积和堆叠，最后输出与所述图像特征对应的动作类型；各个图像特征与视频图像帧相对应，即可得到每个视频图像帧的动作类型。

通过这种结构设计，网络不需要增加池化层就可以增加感受野，例如当空洞卷积核大小为3时，第l层的感受野为2^l+1-1，l∈[1,L]，并且在预测当前时间动作时不必依赖于上一时间的动作预测结果，因此可以同时预测各个时间点的动作，大大提高了运行速度。

S203、依据每个所述视频图像帧的时间节点的先后顺序，将各个动作类型进行排序，得到与所述待处理视频对应的动作类型序列。

本发明实施例提供的方法中，每个所述视频图像帧的动作类型进行排列，进行排列时，依据每个视频图像帧的时间节点将各个动作类型进行排列，以得到与待处理视频对应的动作类型序列；具体的，对各个图像特征进行卷积的过程参考图3，将图像特征序列输入空洞卷积神经网络模型之后，空洞卷积神经网络模型中的每层空洞卷积神经网络依据预设的卷积方法对输入的值进行卷积，其中每层空洞卷积神经网络的输入数据为上一层空洞卷积神经网络的输出层，第一层空洞卷积神经网络的输入数据为图像特征序列。具体的，由于网络的输入和输出维度是一样的，因此，可以堆叠N个空洞卷积神经网络，将当前空洞卷积神经网络的输出作为下一网络的输入，分阶段逐步调整优化输出结果，以得到与待处理视频对应的动作类型序列。

本发明实施例提供的方法中，得到所述空洞卷积神经网络模型输出的待处理视频对应的动作类型序列后，需根据动作类型从待处理视频中提取与动作类型对应的视频片段，具体过程如下所述：

本发明实施例提供的方法中，将相同的动作类型的视频图像帧归为同一动作类型组别，并将同一动作类型组别中的各个视频图像帧按照时间节点进行排序，以便提取出与动作类型对应的视频片段，参照图3，其中动作类型序列对应的动作类别有5种，分别是动作1、动作2、动作3、动作4和动作5；根据动作类型从待处理视频中提取出5个视频片段，分别是与动作1对应的视频片段A，其中视频片段A中的每个视频图像帧对应的动作类型均为动作1；与动作2对应的视频片段B，其中视频片段B中的每个视频图像帧对应的动作类型均为动作2；与动作3对应的视频片段C，其中视频片段C中的每个视频图像帧对应的动作类型均为动作3；与动作4对应的视频片段D，其中视频片段D中的每个视频图像帧对应的动作类型均为动作4；与动作5对应的视频片段F，其中视频片段F中的每个视频图像帧对应的动作类型均为动作5。

本发明实施例提供的方法中，从所述待处理视频中提取出各个视频片段之后，需要对各个视频片段进行处理，以确定所述视频片段中的候选物体，具体过程如图4所示，具体说明如下所述：

S401、获取所述视频片段的各个视频图像帧。

本发明实施例提供的方法中，将所述视频片段进行解析，以得到所述视频片段中的各个视频图像帧；对所述视频片段进行解析时，可以依据预设的采样时间间隔对视频片段进行采样，以得到所述视频片段对应的各个视频图像帧，并且每个视频图像帧之间的采样时间间隔相同。

S402、将各个所述视频图像帧依次输入预先训练完成的物体检测模型中，对每个所述视频图像帧进行检测，确定每个所述视频图像帧中的各个候选物体。

本发明实施例提供的方法中，将从所述视频片段解析得到各个视频图像帧输入预先训练完成的物体检测模型中，应用所述物体检测模型对每个所述视频图像帧进行检测，需要说明的是，所述物体检测模型可以为：Mask-RCNN物体检测模型、或是采用YOLO、SSD等其他物体检测方法的物体检测模型，所述物体检测模型在应用时已经训练完成，可直接使用。通过应用训练完成的物体检测模型，提取候选物体的候选区域，所述候选区域中包含所述候选物体。

S403、依据各个所述候选物体的数据信息，确定与所述视频片段所对应的候选物体。

本发明实施例提供的方法中，确定各个视频图像帧中的候选物体，并依据候选物体在所述视频片段中的数据信息，以确定与所述视频片段所对应的候选物体。

本发明实施例提供的方法中，当确定与所述视频片段对应的候选物体后，需要判断所述候选物体中的操作物和被操作物，具体的过程如下所述：

获取每个所述视频片段的候选物体的各个物体特征；

本发明实施例提供的方法中，获取所述候选物体的各个物体特征，所述物体特征可以是所述候选物体在视频片段中出现的次数、平均置信度、所述候选物体出现的平均位置等特征；并将所述各个物体特征分别输入预先设置的第一分类器和预先设置的第二分类器中，以使所述第一分类器和所述第二分类器对输入的各个所述物体特征进行分析，输出对应的分析结果，所述第一分类器输出的结果为从所述候选物体中识别出的操作物体，所述第二分类器输出的结果为从所述候选物体中识别出的被操作物。本发明实施例中，所述第一分类器和所述第一分类器中均可以使用XGBoost分类算法、支持向量机和随机森林等其他类型的分类算法。

本发明实施例提供的方法中，具体可以分为两个部分，从所述待处理视频中提取出与动作类型对应的视频片段，并识别视频片段中的操作物体和被操作物体，生成与所述视频片段对应的操作指令组合，具体过程如下所述：

将待处理视频逐帧或者以一定的采样间隔输入到卷积神经网络中，提取每个视频图像帧的图像特征，生成与待处理视频对应的图像特征序列；

将所述视频图像特征序列作为输入，使用预先训练的空洞卷积神经网络模型，对视频特征序列进行动作类型的预测，以得到所述待处理视频的动作序列；

根据待处理视频的动作序列，将待处理视频分割成与动作类型对应的各个视频片段。

对上述从待处理视频分割出的视频片段，采集多幅采样图像，使用预先训练好的Mask-RCNN物体检测模型，也可以采用YOLO、SSD等其他物体检测方法，对采样图像进行检测，得到候选物体区域；

选取候选物体的多个特征作为输入，输入预先设置的第一分类器和第二分类器，例如候选物体在视频片段中出现的次数、平均置信度、物体出现的平均位置等特征；使用XGBoost分类算法或是采用支持向量机、随机森林等分类算法训练第一分类器和第二分类器，第一分类器用来识别操作物体，第二分类器用来识别被操作物体；

根据上述输出的操作物体和被操作物体，结合视频片段的动作类型，生成视频片段对应的操作指令组合，所述操作指令组合包括动作类型对应的指令、操作物体对应的指令和被操作物体对应的指令；

将每个视频片段对应的操作指令组合进行排序，得到待处理视频的操作指令序列。

图5和图6为本发明提供的方法的具体应用过程，对图5和图6进行对应的说明，具体如下所述：

图5中的视频流为所述待处理视频的各个视频图像帧，将各个所述视频图像帧输入卷积神经网络中，以获取与所述待处理视频对应的图像特征序列；所述卷积神经网络可以为双流卷积神经网络。对图5中的视频动作分割中的内容进行说明：将所述图像特征序列输入预设的空洞卷积神经网络模型中，以得到所述空洞卷积网络模型输出的待处理视频的动作类型序列；并依据待处理视频的动作类型序列，从所述待处理视频中提取与动作类型对应的视频片段。图5中的动作即为动作类型，在图5中的动作类型包括削、切和倒。图5中的操作物体识别即为将各个与动作类型对应的视频片段输入物体检测模型中，物体检测模型检测视频片段中的候选物体，并识别所述候选物体中的操作物体和被操作物体，具体过程参见图6；图5中的物体即为候选物体，即操作物体和被操作物体，最后生成与视频片段对应的操作指令组合，并形成与所述待处理视频对应的操作指令序列。

图6中的物体检测是物体检测模型检测视频片段中的候选物体，操作物体识别是提取所述候选物体对应的物体特征，将所述物体特征输入第一分类器和第二分类器中，所述分类器识别出操作物体和被操作物体；图中的削皮器为操作物体，黄瓜为被操作物体，图中削皮器对应的分类器为第一分类器，黄瓜对应的分类器为第二分类器。

本发明实施例提供的方法中，机器人可以获取正在演示的视频，或是将人员提供的视频作为待处理视频，应用本发明提供的方法，从所述待处理视频中提取出对应的操作指令序列，并依据操作指令序列完成对应的操作；应用本发明提供的方法，机器人可以从海量的长视频数据集中自动学习操作知识，生成对应的操作指令序列，并且，本发明提供的方法是端到端的，训练好模型后，不需要预设其他输入，操作更加简单、便捷。

上述各个具体的实现方式，及各个实现方式的衍生过程，均在本发明保护范围内。

本发明实施例还提供了与图1相对应的一种机器人的操作指令序列生成装置，用于支持本发明实施例提供的方法在实际中的应用，所述机器人的操作指令序列生成装置的装置结构图如图7所示，具体说明如下：

获取单元601，用于获取待处理视频，确定所述待处理视频中各个视频图像帧的时间节点；

排序单元602，用于依据各个所述视频图像帧的时间节点的先后顺序，将每个所述视频图像帧依次输入预设的卷积神经网络中，获得所述卷积神经网络输出的每个所述视频图像帧的图像特征，并按每个所述图像特征的输出顺序，对各个所述图像特征进行排序，生成所述待处理视频的图像特征序列；

输入单元603，用于将所述图像特征序列输入预先训练完成的空洞卷积神经网络模型中，获得所述空洞卷积神经网络模型输出的与所述待处理视频对应的动作类型序列；

提取单元604，用于在所述待处理视频中，提取与每个所述动作类型对应的视频片段；

解析单元605，用于对各个所述视频片段依次进行解析，确定每个所述视频片段对应的候选物体；

第一确定单元606，用于获取每个所述视频片段的候选物体的各个物体特征，并依据各个所述物体特征确定该视频片段对应的候选物体中的操作物体和被操作物体；

第二确定单元607，用于确定每个所述视频片段对应的动作类型的动作指令、操作物体的执行指令和被操作物体的控制指令，将所述动作指令、执行指令和控制指令组成与所述视频片段对应的操作指令组合；

生成单元608，用于将每个所述视频片段的操作指令组合进行排序，生成与所述待处理视频对应的操作指令序列。

本发明实施例提供的装置中，通过将所述待处理视频中的各个视频图像帧进行处理，获得与所述待处理视频对应的图像特征序列；将所述图像特征序列输入预先训练完成的空洞卷积神经网络中，以得到所述空洞卷积神经网络输出的待处理视频的动作类型序列；依据所述动作类型序列在所述待处理视频中提取出与每个所述动作类型对应的视频片段，并确定所述视频片段中候选物体的操作物体和被操作物体，生成与所述视频片段的动作类型对应的动作指令、操作物体对应的执行指令和被操作物体对应的控制指令；将所述动作指令、操作指令和控制指令组成操作指令组合，并将各个视频片段的操作指令组合进行排序，生成所述待处理视频的操作指令序列。应用本发明提供的装置的机器人可根据所述操作指令序列执行相应的动作，可以从海量的视频数据中自主学习，生成与视频对应的操作指令序列，不需要操作人员掌握额外知识和佩戴外部设备的情况下，控制机器人演示视频的操作内容，以使机器人从视频中自主学习，生成对应的操作指令，不需要预先设置操作指令。

本发明实施提供的装置中，所述输入单元603，可以设置为：

本发明实施提供的装置中，所述提取单元604，可以设置为：

本发明实施提供的装置中，所述解析单元605，可以设置为：

本发明实施提供的装置中，所述第一确定单元606，可以设置为：

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种机器人的操作指令序列生成方法，其特征在于，应用于机器人，包括：

2.根据权利要求1所述的方法，其特征在于，所述获得所述空洞卷积神经网络模型输出的与所述待处理视频对应的动作类型序列，包括：

确定所述图像特征序列中的各个所述图像特征；

3.根据权利要求1或2所述的任意方法，其特征在于，所述在所述待处理视频中，提取与每个所述动作类型对应的视频片段，包括：

4.根据权利要求1所述的方法，其特征在于，所述对各个所述视频片段依次进行解析，确定每个所述视频片段对应的候选物体，包括：

获取所述视频片段的各个视频图像帧；

5.根据权利要求1所述的方法，其特征在于，所述获取每个所述视频片段的候选物体的各个物体特征，并依据各个所述物体特征确定该视频片段对应的候选物体中的操作物体和被操作物体，包括：

获取每个所述视频片段的候选物体的各个物体特征；

6.一种机器人的操作指令序列生成装置，其特征在于，包括：

7.根据权利6所述的装置，其特征在于，所述输入单元，包括：

8.根据权利6或7任意一项所述的装置，其特征在于，所述提取单元，包括：

9.根据权利6所述的装置，其特征在于，所述解析单元，包括：

10.根据权利6所述的装置，其特征在于，所述第一确定单元，包括：