CN112949501B

CN112949501B - 一种从示教视频学习物体的可供性方法

Info

Publication number: CN112949501B
Application number: CN202110242514.8A
Authority: CN
Inventors: 黄炜; 颜天信
Original assignee: Anhui Key Information Technology Co ltd
Current assignee: Anhui Key Information Technology Co ltd
Priority date: 2021-03-03
Filing date: 2021-03-03
Publication date: 2023-12-08
Anticipated expiration: 2041-03-03
Also published as: CN112949501A

Abstract

本发明公开了一种从示教视频学习物体的可供性方法，该方法包括从示教视频帧中检测手部区域；搭建手部相关选择网络，并进行训练；利用训练好的手部相关选择网络提取上述手部检测数据中人与物体发生交互的关键帧；将关键帧中人和物体交互相关区域迁移到静态物体的图像中，并通过蒸馏损失将静态物体映射到人操作物体的状态；得到可供性标定网络；用挑选出的关键帧训练网络，优化参数，得到训练后的可供性标定网络；将待识别物体的静态物体的图像以及可供性标签输入到网络中，输出物体上能完成该相互作用的区域；本发明具有比较好的泛化能力，对于未见过的物体，能根据物体上某些局部特征学习到相关相互作用的区域。

Description

一种从示教视频学习物体的可供性方法

技术领域

本发明涉及计算机视觉领域，尤其涉及是一种从示教视频学习物体的可供性方法。

背景技术

在计算机视觉领域，除了要知道物体的种类之外，更多时候需要知道物体各个部分能够如何与人发生相互作用，可以给人提供什么样的帮助，即物体的可供性。机器人进入一个新的场景后，除了不仅需要知道物体是什么，更需要理解场景中各个物体的可供性，能够如何与人发生交互，能够被人如何使用。物体的可供性有很多的实际应用价值，比如场景理解、动作识别、机器人抓取等，通过视频中人和物体的交互，从而学习到人如何操作物体，在物体的各个部分如何发生相互作用。近年来，随着视频的爆发式增长以及计算能力的显著提升，通过示教视频学习物体的可供性吸引了越来越多的关注。这些因素促进了这个领域的发展，研究者们相继发布了通过人类示教学习物体可供性的有效算法。

物体的可供性往往具有以下两个特点：(1)一个物体通常具有多重可供性属性。(2)多个不同类别的物体可能具有相同的可供性属性。

然而，目前物体可供性标定的研究，主要从图像或者视频中学习物体的可供性。目前的研究主要构造像素级别可供性标签的数据集，建立物体的表观特征到可供性之间的映射关系，从而学习到物体的可供性，这样的方法需要大量的像素级别的标注，并且不具有很强的泛化能力。

发明内容

针对现有的学习物体的可供性具有的难点，本发明提出的一种从示教视频学习物体的可供性的方法，本发明考虑到示教视频中人和物体发生的交互主要通过手来实现，利用手的位置以及动作作为线索，首先从示教视频中筛选能够体现人和物体相互作用的关键帧，滤除人未与物体交互的帧，然后利用筛选后的帧提取手的动作和位置信息，并利用蒸馏损失将视频中的人和物体交互的特征迁移到静态物体图像中，使得包含静态物体图像能够学习到物体的可供性，定位出人和物体发生交互的相关区域，能够很好地解决物体可供性具有的难点带来的挑战。

本发明保护一种从示教视频学习物体可供性的方法，该方法包括如下步骤：

步骤1，从示教视频帧中检测手部区域，得到手部检测结果。

步骤2，搭建手部相关选择网络，并利用示教视频数据和手部检测结果，对手部相关选择网络进行训练。

步骤3，利用训练好的手部相关选择网络提取手部检测数据中人与物体发生交互的关键帧。

步骤4，将关键帧中人和物体交互相关区域迁移到静态物体的图像中，并通过蒸馏损失将静态物体映射到人操作物体的状态；得到可供性标定网络。

步骤5，用挑选出的关键帧训练网络，优化参数，得到训练后的可供性标定网络。

步骤6，将待识别物体的静态物体的图像以及可供性标签输入到网络中，输出物体上能完成该相互作用的区域。

进一步地，从示教视频中检测手部区域方法为：

选择通用的目标检测网络Yolov3，并使用Oxford hand dataset(牛津手部数据集)对所述目标检测网络进行训练；

输入示教视频帧，用训练好的手部检测网络Yolov3将每一帧中的手部区域检测出来，得到手部检测结果。

进一步地，搭建手部相关选择网络并进行训练具体为：

首先利用Resnet50网络提取示教视频帧数据的特征并与检测手部区域的位置的mask相乘，得到手部相关的特征；对Resnet50网络提取到的特征和手部相关特征分别进行全局L2池化，再经过相加得到手部辅助增强模块的输出，完成对手部位置特征的增强；

然后将增强后的每一帧送入LSTM网络中进行动作识别，再经过全连接层，输出视频的可供性标签；

最后利用交叉熵损失函数对手部辅助增强模块网络进行训练。

进一步地，上述中利用训练好的手部相关选择网络提取上述手部检测数据中人与物体发生交互的关键帧过程为：输入视频数据，利用训练好的手部相关选择网络输出可供性标签，通过分类模型判断可供性标签的置信度，对于判断正确或者置信度满足某一个阈值(一般取0.3)的帧，保留下来。

进一步地，建立可供性标定网络，该过程包括：

首先，将每个视频从筛选出的关键帧中随机抽取三帧，以关键帧、手部检测结果和静态图像作为输入；

然后，利用Resnet50分别提取上述抽取的三帧视频帧和静态图像的特征，然后将视频帧和手部检测结果送入手部辅助增强模块中对手部相关区域进行增强，再将增强后的视频帧送入LSTM网络中，输出可供性标签；

接着，将提取后的静态图像送入映射层再经过L2池化层，将其映射到人与物体交互状态下的特征；

再计算每一帧视频的置信度，选择置信度最高的一帧，同时计算输入的三帧视频的平均特征，分别计算上述步骤4.3中映射后的特征与这二者之间的L2损失，两者相加得到蒸馏损失，同时学习人与物体正在交互的瞬间以及通过视频包含的动作信息，使得静态图像能够学习到视频中人如何使用物体，从而能够关注人操作物体的相关区域；

最后，利用一个蒸馏损失将映射后的特征与人物交互状态物体的特征拉近；将映射后的图像也送入LSTM网络中，同样输出可供性标签，使得LSTM能够兼容视频和图像分支。

进一步地，对建立的可供性标定网络训练过程为：

首先，训练过程中的损失主要由三部分组成，第一部分计算视频分支输出的交叉熵损失，第二部分计算图像分支输出的交叉熵损失，第三部分计算约束静态物体映射到人和物体相互作用的特征空间的蒸馏损失；用不同的超参数分别与三个损失相乘，随后加起来即为训练的总损失。

然后，针对上述的总损失，用Adam优化器进行训练，初始学习率为1e-4。

最后，权重初始化，加载数据、模型、优化器，进行训练。

进一步地，上述具体识别过程为：将静态物体的图像和可供性标签送入训练好的可供性标定网络中，然后利用Grad-CAM技术，由可供性标签进行梯度反传激活相关的区域，得到输出结果。

本发明的有益效果：1、利用可供性标定网络，以手作为线索挖掘物体的可供性，能够更好地定位人和物体发生交互的区域，并且仅利用示教视频的动作标签即可实现弱监督物体可供性标定，能够用于机器人抓取等场景任务中；2、本方法提供一种利用手的位置和动作作为线索消除来消除可供性的多重可能性问题，从而根据提供的可供性标签将图像中的相关区域标定出来；3、本方法可以从示教视频中学习物体的可供性，只需要提供视频中人和物体相互作用的标签即可，而不需要像素级别的标签，由于视频以及标签都很容易获取，并且机器人能够通过视频学习人操作物体的相关区域，因此本发明具有比较好的泛化能力，对于未见过的物体，也能根据物体上某些局部特征学习到相关相互作用的区域。

附图说明

图1(a)为从示教视频学习物体的可供性的方法的训练过程流程图；

图1(b)为从示教视频学习物体的可供性的方法的测试过程流程图；

图2(a)为训练手部相关选择网络的流程图；

图2(b)为利用训练后的手部相关选择网络提取关键帧流程图；

图3为手部辅助增强模块的流程图；

图4为可供性标定网络的流程图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细的说明。本发明的实施例是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显而易见的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

一种从示教视频学习物体的可供性的方法，如图1所示，该方法包括如下步骤1至6：

步骤1：从示教视频帧中检测手部区域，得到手部检测结果。

步骤2：搭建手部相关选择网络，并利用示教视频数据和手部检测数据，对手部相关选择网络进行训练。

步骤3：利用训练好的手部相关选择网络提取上述手部检测数据中人与物体发生交互的关键帧。

步骤4：将关键帧中人和物体交互相关区域迁移到静态物体的图像中，并通过蒸馏损失将静态物体映射到人操作物体的状态；得到可供性标定网络。

步骤5：用挑选出的关键帧训练网络，优化参数，得到训练后的可供性标定网络。

步骤6：将待识别物体的静态物体的图像以及可供性标签输入到网络中，输出物体上能完成该相互作用的区域。

具体地，上述步骤1中，从示教视频中检测手部区域方法为：

步骤1.1：选择通用的目标检测网络Yolov3，并使用Oxford hand dataset(牛津手部数据集)对所述目标检测网络进行训练；

步骤1.2：输入示教视频帧，用训练好的手部检测网络Yolov3将每一帧中的手部区域检测出来，得到手部检测结果。

上述步骤2中，如图2(a)所示，搭建手部相关选择网络进行训练具体步骤为：

步骤2.1：首先构造手部辅助增强模块，完成对手部位置特征的增强；

其中，如图3所示，手部辅助增强模块流程为：

步骤2.11：利用Resnet50网络提取示教视频帧数据的特征并与检测手部区域的位置的mask相乘，得到手部相关的特征；

步骤2.12：对上述Resnet50网络提取到的特征和手部相关特征分别进行全局L2池化，再经过相加得到手部辅助增强模块的输出，完成对手部位置特征的增强；

步骤2.2：将增强后的每一帧送入LSTM网络中进行动作识别，再经过全连接层，输出视频的可供性标签；

步骤2.3：利用交叉熵损失函数对手部相关选择网络进行训练。

具体来说，如图2(b)所示，上述步骤3中利用训练好的手部相关选择网络提取上述手部检测数据中人与物体发生交互的关键帧过程为：输入视频数据，利用训练好的手部相关选择网络输出可供性标签，通过分类模型判断可供性标签的置信度，对于判断正确或者置信度满足某一个阈值(一般取0.3)的帧，保留下来。

具体来说，如图4所示，上述步骤4中，建立可供性标定网络，包括如下步骤4.1至4.6：

步骤4.1：将每个视频从筛选出的关键帧中随机抽取三帧，以关键帧、手部检测结果和静态图像作为输入。

步骤4.2：利用Resnet50分别提取上述抽取的三帧视频帧和静态图像的特征，然后将视频帧和手部检测结果送入手部辅助增强模块中对手部相关区域进行增强，再将增强后的视频帧送入LSTM网络中，输出可供性标签。

步骤4.3：提取后的静态图像送入映射层再经过L2池化层，将其映射到人与物体交互状态下的特征。

步骤4.4：计算每一帧视频的置信度，选择置信度最高的一帧，同时计算输入的三帧视频的平均特征，分别计算上述步骤4.3中映射后的特征与这二者之间的L2损失，两者相加得到蒸馏损失，同时学习人与物体正在交互的瞬间以及通过视频包含的动作信息，使得静态图像能够学习到视频中人如何使用物体，从而能够关注人操作物体的相关区域。

步骤4.5：利用一个蒸馏损失将映射后的特征与人物交互状态物体的特征拉近。

步骤4.6：将步骤4.3中映射后的图像也送入LSTM网络中，同样输出可供性标签，使得LSTM能够兼容视频和图像分支。

具体来说，上述步骤5中，对建立的可供性标定网络训练过程为：

步骤5.1：训练过程中的损失主要由三部分组成，第一部分计算视频分支输出的交叉熵损失，第二部分计算图像分支输出的交叉熵损失，第三部分计算约束静态物体映射到人和物体相互作用的特征空间的蒸馏损失；用不同的超参数分别与三个损失相乘，随后加起来即为训练的总损失。

步骤5.2：针对上述的总损失，用Adam优化器进行训练，初始学习率为1e-4。

步骤5.3：权重初始化，加载数据、模型、优化器，进行训练。

上述步骤6中，具体识别过程为：将静态物体的图像和可供性标签送入训练好的可供性标定网络中，然后利用Grad-CAM技术，由可供性标签进行梯度反传激活相关的区域，得到输出结果。

进一步地，步骤5中用挑选出的关键帧训练网络，优化参数，得到训练后的可供性标定网络中的训练过程中的损失主要由三部分组成，第一部分计算视频分支输出的交叉熵损失，损失权重的超参数为1；第二部分计算图像分支输出的交叉熵损失，损失权重的参数为1；第三部分计算约束静态物体映射到人和物体相互作用的特征空间的蒸馏损失，蒸馏损失权重的超参数为0.1；用所述的超参数分别与三个损失相乘，随后加起来得到训练的总损失。针对上述的损失，用Adam优化器进行训练，初始学习率为1e-4。再经过权重初始化，加载数据、模型、优化器，进行训练，其中迭代3000次停止，批量大小为32。

显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域及相关领域的普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域及相关领域的普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

Claims

1.一种从示教视频学习物体的可供性方法，其特征在于，构建可供性标定网络，通过可供性标定网络定位到人和物体交互的相关区域，可供性标定网络构建，包括如下步骤：

步骤1，从示教视频帧中检测手部区域，得到手部检测结果；

步骤2，搭建手部相关选择网络，并利用示教视频数据和手部检测数据，对手部相关选择网络进行训练；

步骤3，利用训练好的手部相关选择网络提取手部检测数据中人与物体发生交互的关键帧；

步骤4，将关键帧中人和物体交互相关区域迁移到静态物体的图像中，并通过蒸馏损失将静态物体映射到人操作物体的状态；得到可供性标定网络，具体包括如下步骤：

步骤4.1，将每个视频从筛选出的关键帧中随机抽取三帧，以关键帧、手部检测结果和静态图像作为输入；

步骤4.2，利用Resnet50分别提取上述抽取的三帧视频帧和静态图像的特征，然后将视频帧和手部检测结果送入手部辅助增强模块中对手部相关区域进行增强，再将增强后的视频帧送入LSTM网络中，输出可供性标签；

步骤4.3，提取后的静态图像送入映射层再经过L2池化层，将其映射到人与物体交互状态下的特征；

步骤4.4，计算每一帧视频的置信度，选择置信度最高的一帧，同时计算输入的三帧视频的平均特征，分别计算上述步骤4.3中映射后的特征与这二者之间的L2损失，两者相加得到蒸馏损失，学习人与物体正在交互的瞬间以及通过视频包含的动作信息，使得静态图像能够学习到视频中人如何使用物体；

步骤4.5，利用一个蒸馏损失将映射后的特征与人物交互状态物体的特征拉近；

步骤4.6，将步骤4.3中映射后的图像也送入LSTM网络中，同样输出可供性标签，使得LSTM网络能够兼容视频和图像分支；

步骤5，训练可供性标定网络，优化参数，得到训练后的可供性标定网络。

2.根据权利要求1所述的从示教视频学习物体的可供性方法，其特征在于，所述步骤2中的手部相关选择网络的搭建包括如下步骤：

步骤2.1：利用Resnet50网络提取示教视频帧数据的特征并与检测手部区域的位置的mask相乘，得到手部相关的特征；

步骤2.2：对手部相关特征和Resnet50网络提取到的示教视频帧数据特征分别进行全局L2池化，再经过相加得到手部辅助增强模块的输出，完成对手部位置特征的增强；

步骤2.3：将增强后的每一帧送入LSTM网络中进行动作识别，再经过全连接层，进行输出。

3.根据权利要求2所述的从示教视频学习物体的可供性方法，其特征在于，所述步骤3中，利用训练好的手部相关选择网络提取上述手部检测数据中人与物体发生交互的关键帧过程为：输入视频数据和手部检测结果到训练好的手部相关选择网络，再通过分类模型判断可供性标签的置信度，对于判断正确和置信度符合阈值满足其一的帧，保留下来。

4.根据权利要求3所述的从示教视频学习物体的可供性方法，其特征在于，上述阈值为0.3。

5.根据权利要求1所述的从示教视频学习物体的可供性方法，其特征在于，步骤5中，训练可供性标定网络，优化参数，得到训练后的可供性标定网络，包括如下步骤5.1至5.3：

步骤5.1，训练过程中的损失主要由三部分组成，第一部分计算视频分支输出的交叉熵损失，第二部分计算图像分支输出的交叉熵损失，第三部分计算约束静态物体映射到人和物体相互作用的特征空间的蒸馏损失；用不同的超参数分别与三个损失相乘，随后加起来即为训练的总损失；

步骤5.2，针对上述的总损失，用Adam优化器进行训练，初始学习率为1e-4；

步骤5.3，权重初始化，加载数据、模型、优化器，进行训练。

6.根据权利要求1所述的从示教视频学习物体的可供性方法，其特征在于，所述步骤1中，从示教视频中检测手部区域的网络为Yolov3网络。