CN111191620B

CN111191620B - 一种人-物交互检测数据集的构建方法

Info

Publication number: CN111191620B
Application number: CN202010003871.4A
Authority: CN
Inventors: 谢雪梅; 李启越; 金星; 李科正
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2020-01-03
Filing date: 2020-01-03
Publication date: 2022-03-22
Anticipated expiration: 2040-01-03
Also published as: CN111191620A

Abstract

本发明提出了一种人‑物交互检测数据集的构建方法，用于解决现有技术中存在的因数据集中的图片之间缺少因果关系导致的人‑物动态交互检测精度较低的技术问题。实现步骤为：设置构建人‑物交互检测数据集所需的参数；采集每个场景S_i的原始视频并进行剪辑；获取原始视频段集合V'的总图像集合P；获取命名总图像集合P'及其总标注文件集合x；获取人‑物交互检测数据集。本发明可以应用于训练人‑物交互检测神经网络的类似场景。

Description

一种人-物交互检测数据集的构建方法

技术领域

本发明属于机器视觉处理技术领域，涉及数据集的构建方法，具体涉及一种人-物交互检测数据集的构建方法，可用于作为训练人-物交互检测神经网络的类似场景。

背景技术

信息时代发展下，摄像头及各种图像视频采集设备可以获得各个场景的画面，许多场景都需要对画面中的人-物交互进行检测。现有的人-物交互检测方法主要为基于深度学习的方法，而基于深度学习的人-物交互检测方法多为数据驱动方法，数据集构建的好坏对基于深度学习的人-物交互检测方法的检测精度至关重要，但由于数据集中的图像之间缺少因果关系，无法为基于深度学习的人-物交互检测方法提供推理人-物动态交互类别所需的因果信息，导致人-物交互检测精度较差。

例如，密歇根大学的Yu-Wei Chao,Yunfan Liu,Xieyang Liu,Jia Deng和华盛顿大学的Huayi Zeng在2018年IEEE Winter Conference on Applications of ComputerVision上发表了论文“Learning to Detect Human-Object Interactions”中，公开了一种人-物交互检测数据集的构建方法，该方法在对人-物交互检测数据集进行构建时，是在现有的人-物交互检测数据集的基础上，对每一张图像中没有标注的人-物交互类别进行补充标注，从而增加了数据集中的人-物交互数据集中的人-物交互类别的种类和数量，提高了人-物交互的检测精度。但是该方法构建的人-物交互检测数据集中的图像来源于静态图片，图像中只有人-物静态交互类别，没有动态人物交互类别，而且图像之间没有因果关系，因此通过该数据集训练出的网络的人-物动态交互的检测精度较低。

又如，伯克利大学的Saurabh Gupta和Jitendra Malik 2015年在arXiv平台发表的论文“Visual Semantic Role Labeling”中，公开了一种人-物交互检测数据集的构建方法，该方法是在COCO目标检测数据集基础上，对图片中的人-物交互类别进行标注，构建了基于COCO数据集的人-物交互检测数据集V-COCO。但该数据集中的图像来自于目标检测数据集中的静态图片，图片中只有人-物静态交互类别，没有人-物动态交互类别，图片之间没有基于深度学习的人-物交互检测方法学习和推理人-物动态交互类别所需的因果信息，通过该数据集训练出的网络的人-物动态交互检测精度较低。

综上所述，因为现有技术在构建人-物交互检测数据集的时候选取的图像来源于静态图片，而静态图片之间只有人-物静态交互类别，没有人-物动态交互类别，所以通过现有技术构建的数据集训练出的神经网络的人-物动态交互检测精度较低。

发明内容

本发明的目的是针对上述现有技术的不足，提供了一种人-物交互检测数据集的构建方法，用于解决现有技术中存在的因数据集中的图片之间缺少因果关系导致的人-物动态交互检测精度较低的技术问题。

为实现上述目的，本发明采取的技术方案包括如下步骤：

(1)设置构建人-物交互检测数据集所需的参数：

设置构建人-物交互检测数据集所需的参数，包括待检测人的类别编号、待检测物体的类别编号、待检测人-物动态交互的类别编号、场景S及场景编号、需采集的人员数量及人员编号、采集设备C及设备编号，S＝{S₁,S₂,...,S_i,...,S_n}，S_i表示第i个场景，n表示场景总数，n≥2，C＝{C₁,C₂,...,C_j,...,C_m}，C_j表示第j个采集设备，m表示采集设备的总数，m≥1；

(2)采集每个场景S_i的原始视频并进行剪辑：

(2a)通过每个采集设备C_j对每个场景S_i进行采集，得到场景S的原始视频集合V＝{V₁,V₂,...,V_i,...,V_n}，其中，V_i表示m个采集设备对S_i进行采集所得到场景的原始视频，V_i＝{V_i1,V_i2,...,V_ij,...,V_im}，V_ij表示采集设备C_j对场景S_i进行采集所得到的原始视频；

(2b)将每个原始视频V_ij剪辑为l_ij个视频段，得到场景S的原始视频段集合V'＝{V'₁,V'₂,...,V'_i,...,V'_n}，其中，V'_i表示S_i的原始视频段，V'_i＝{V'_i1,V'_i2,...,V'_ij,...,V'_im}，V'_ij表示V_ij对应的原始视频段，

表示总帧数为

且仅包含一个人员的一个人-物动态交互类别的第k_ij个视频段，l_ij≥5，

(3)获取原始视频段集合V'的总图像集合P：

以

为帧间隔对每个视频段

进行帧提取，得到原始视频段集合V'的总图像集合P＝{P₁,P₂,...,P_i,...,P_n}，其中，P_i表示原始视频段V'_i的图像集合，P_i＝{P_i1,P_i2,...,P_ij,...,P_im}，P_ij表示原始视频段V'_ij的图像

表示对视频段

进行帧提取得到的分图像集合，

表示第d_ij张图像，

表示总图像数，

(4)获取命名总图像集合P'及其总标注文件集合x：

(4a)对每张图像

进行命名，得到总图像集合P的命名总图像集合P'＝{P'₁,P'₂,...,P'_i,...,P'_n}，其中，P'_i表示图像集合P_i的命名图像集合，P'_i＝{P'_i1,P'_i2,...,P'_ij,...,P'_im}，P'_ij表示图像P_ij的命名图像，

表示分图像集合

的命名分图像集合，

表示对图像

命名得到的命名图像；

(4b)对每张命名图像

中存在的待检测人的类别编号及位置、待检测物体的类别编号及位置、以及待检测人-物动态交互的类别编号进行标注，得到命名总图像集合P'的总标注文件集合x＝{x₁,x₂,...,x_i,...,x_n}，其中，x_i表示命名图像集合P'_i的标注文件集合，x_i＝{x_i1,x_i2,...,x_ij,...,x_im}，x_ij表示命名图像P'_ij的标注文件，

表示命名分图像集合

的分标注文件集合，

表示对命名图像

标注得到的标注文件；

(5)获取人-物交互检测数据集：

(5a)以分标注文件集合

为基本单元，随机选取总标注文件集合x中半数以上的分标注文件集合作为第一标注文件集合x_train，其余分标注文件集合作为第二标注文件集合x_test，并通过x_train和x_test选取命名总图像集合P'的第一图像集合P_train和第二图像集合P_test，x＝x_train∪x_test，

(5b)将第一标注文件集合x_train和第一图像集合P_train组合为训练集，同时将第二标注文件集合x_test和第二图像集合P_test组合为测试集，训练集和测试集构成人-物交互检测数据集。

本发明与现有技术相比，具有以下优点：

本发明构建的人-物交互检测数据集，由于数据集中的图像是对视频段进行帧提取得到的，来自于同一个视频段的图像之间具有因果关系，并且在将数据集分为训练集和测试集的时候，并没有拆分开具有因果的图像，而是将其作为一个整体进行选取，保留了图片之间基于深度学习的人-物交互检测方法学习和推理人-物动态交互类别所需的因果信息，与现有技术相比，有效提升了人-物动态交互检测的精度。

附图说明

图1为本发明的实现流程图。

具体实施方式

下面将结合附图和具体实施案例，对本发明作进一步的详细描述：

参照图1，本发明包括如下步骤：

步骤1)设置构建人-物交互检测数据集所需的参数：

设置构建人-物交互检测数据集所需的参数，包括待检测人的类别编号、待检测12类物体的类别编号、待检测14类人-物动态交互的类别编号、场景S及场景编号、需采集的6个人员及人员编号、采集设备C及设备编号，S＝{S₁,S₂,...,S_i,...,S_n}，S_i表示第i个场景，n表示场景总数，n＝3，C＝{C₁,C₂,...,C_j,...,C_m}，C_j表示第j个采集设备，m表示采集设备的总数，m＝3；

产生人-物动态交互的场景很多，但是大多数场景产生人-物动态交互的频率低且不易于采集，因此从中选取了常见的3个场景，即取n＝3；取3个场景中频繁产生的14类人-物动态交互作为待检测人-物动态交互类别，取14类人-物动态交互涉及到的12类物体作为待检测物体；每个采集设备需要对每一个场景都进行采集，对于同一个场景，采集的原始视频应该足够多，且原始视频间应有明显差异，但过多的采集设备只会降低原始视频之间的差异性，所以取m＝3；

步骤2)采集每个场景S_i的原始视频并进行剪辑：

步骤2a)将m个采集设备分别放置到每个场景S_i中的m个不同高度的位置；

步骤2b)根据人员编号，依次让6个人员在每个场景S_i中进行14类人-物动态交互；

步骤2c)使用m个采集设备采集每个场景S_i中人-物动态交互视频，得到场景S_i的原始视频V_i＝{V_i1,V_i2,...,V_ij,...,V_im}，将n个场景的原始视频组合为场景S的原始视频集合V＝{V₁,V₂,...,V_i,...,V_n}，其中，V_ij表示采集设备C_j对场景S_i进行采集所得到的原始视频；

步骤2d)将每个原始视频V_ij剪辑为l_ij个视频段，得到V_ij对应的剪辑后的原始视频段

将场景S_i中m个采集设备的剪辑后的原始视频段组合为场景S_i对应的剪辑后的原始视频段V'_i＝{V'_i1,V'_i2,...,V'_ij,...,V'_im}，并将n个场景的剪辑后的原始视频段组合为场景S的剪辑后的原始视频段集合V'＝{V'₁,V'₂,...,V'_i,...,V'_n}，其中，

表示总帧数为

且仅包含一个人员的一个人-物动态交互类别的第k_ij个视频段，为保证在后续步骤中可以提取到足够多的图像，应取l_ij≥5，

步骤3)获取原始视频段集合V'的总图像集合P：

步骤3a)对每个视频段

以帧间隔

提取

帧图像，若视频段

的总帧数

为帧间隔

的整数倍，则从视频段

中均匀地提取

帧图像，

否则，从视频段

的前

帧均匀地提取

帧图像，剩余部分图像不予帧提取，得到视频段

对应的分图像集合

其中，

表示向下取整运算，

表示第d_ij张图像，

表示总图像数，为了确保分图像集合

中的图像之间存在因果关系，

步骤3b)将剪辑后的原始视频段V'_ij中l_ij个视频段的分图像集合组合为剪辑后的原始视频段V'_ij的图像

将剪辑后的原始视频段V'_i中m个剪辑后的原始视频段的图像组合为剪辑后的原始视频段V'_i的图像集合，并将剪辑后的原始视频段集合V'中n个剪辑后的原始视频段的图像集合组合为剪辑后的原始视频段集合V'的总图像集合P＝{P₁,P₂,...,P_i,...,P_n}；

步骤4)获取命名总图像集合P'及其总标注文件集合x：

步骤4a)以“场景编号+设备编号+人员编号+物体的类别编号+人-物动态交互的类别编号+帧顺序序列数字”的命名规则对每张图像

进行命名，得到命名分图像集合

表示对图像

命名得到的命名图像；

步骤4b)将图像P_ij中l_ij个分图像集合的命名分图像集合组合为图像P_ij的命名图像

将图像集合P_i中m个图像集合的命名图像组合为图像集合P_i的命名图像集合P'_i＝{P'_i1,P'_i2,...,P'_ij,...,P'_im}，并将总图像集合P中n个图像集合的命名图像集合组合为总图像集合P的命名总图像集合P'＝{P'₁,P'₂,...,P'_i,...,P'_n}；

步骤4c)对每张命名图像

中存在的待检测人的类别编号及位置、待检测物体的类别编号及位置、以及待检测人-物动态交互的类别编号进行标注，得到命名分图像集合

的分标注文件集合

表示对命名图像

标注得到的标注文件；

步骤4d)将命名图像P'_ij中l_ij个命名分图像集合的分标注文件集合组合为命名图像P'_ij的标注文件

将命名图像集合P'_i中m个命名图像的标注文件组合为命名图像集合P'_i的标注文件集合x_i＝{x_i1,x_i2,...,x_ij,...,x_im}，并将命名总图像集合P'中n个命名图像集合的标注文件集合组合为命名总图像集合P'的总标注文件集合x＝{x₁,x₂,...,x_i,...,x_n}；

步骤5)获取人-物交互检测数据集：

步骤5a)以分标注文件集合

为基本单元，随机选取总标注文件集合x中80％的分标注文件集合作为第一标注文件集合x_train，剩余20％的分标注文件集合作为第二标注文件集合x_test；

步骤5b)通过x_train和x_test选取命名总图像集合P'的第一图像集合P_train和第二图像集合P_test，要求x_train中的每一个分标注文件集合

都可以在P_train中找到对应的命名分图像集合，P_train中的每一个命名分图像集合

都可以在x_train中找到对应的分标注文件集合，同理，x_test中的每一个分标注文件集合

都可以在P_test中找到对应的命名分图像集合，P_test中的每一个命名分图像集合

都可以在x_test中找到对应的分标注文件集合，x＝x_train∪x_test，

步骤5c)将第一标注文件集合x_train和第一图像集合P_train组合为训练集，同时将第二标注文件集合x_test和第二图像集合P_test组合为测试集，训练集和测试集构成人-物交互检测数据集。

Claims

1.一种人-物交互检测数据集的构建方法，其特征在于，包括如下步骤：

(1)设置构建人-物交互检测数据集所需的参数：

(2)采集每个场景S_i的原始视频并进行剪辑：

(2a)通过每个采集设备C_j对每个场景S_i进行采集，得到场景S的原始视频集合V＝{V₁,V₂,...,V_i,...,V_n}，其中，V_i表示m个采集设备对场景S_i进行采集所得到的原始视频，V_i＝{V_i1,V_i2,...,V_ij,...,V_im}，V_ij表示采集设备C_j对场景S_i进行采集所得到的原始视频；