CN112784813A

CN112784813A - 基于图像检测的动作识别数据集生成方法及装置

Info

Publication number: CN112784813A
Application number: CN202110187621.5A
Authority: CN
Inventors: 周力; 安雪晖; 刘祖光; 李鹏飞; 李志伟
Original assignee: Tsinghua University; Chongqing Jiaotong University
Current assignee: Tsinghua University; Chongqing Jiaotong University
Priority date: 2021-02-18
Filing date: 2021-02-18
Publication date: 2021-05-11

Abstract

本发明提供了一种基于图像检测的动作识别数据集生成方法及装置，基于图像检测的动作识别数据集生成方法包括：确定预先采集的动作视频中每一帧中所有待检测目标的检测矩形；在所述每一帧中的每一待检测目标的检测矩形中进行标记；按照第一预设范围对所述每一帧进行裁剪；组装裁剪后的多帧，以生成动作视频数据或图像序列。本发明提供的基于图像检测的动作识别数据集生成方法及装置，较好的解决了现有技术中，针对建立识别目标动作专用的视频数据集耗时耗力的问题。

Description

基于图像检测的动作识别数据集生成方法及装置

技术领域

本发明涉及计算机视觉处理技术领域，特别是涉及动作检测类机器学习模型的训练数据集生成技术，具体涉及一种基于图像检测的动作识别数据集生成方法及装置。

背景技术

计算机视觉(computer vision，CV)技术发展了数十载，在2012年出现了一个重要的分水岭，那就是深度学习技术的应用及带来的突破。机器已经可以识别图像了，会分辨猫、狗、汽车、红绿灯等等静态图片，而感知动态行为可能是机器如何理解这个世界的一个巨大进步。这就是计算机视觉领域的视频理解任务。而视频理解，更核心的可以归为动作的理解。

对人、动物以及人生产出来的机械设备的动作的理解，也就是动作识别ActionRecognition，是指对视频中人的行为动作进行识别，即读懂视频。

可以理解的是，在深度学习领域，数据集的重要性与算法可以相提并论。一个大规模的、鲁棒性好的、泛化能力强的、标注质量高的数据集，对于整个领域的发展，包括算法的提升改进、新算法的提出等都有极大的促进作用。图像和视频的数据集的建立，在CV领域更是重要。

本领域技术人员在具有上述优点的图像/视频数据集的建立过程中，投入了大量的资源。数据集建立的投入，主要是在两方面，一是数据采集，再者是数据标注。

针对施工现场工人和机械设备的动作的识别，有利于提升现场管理水平、有利于对工人健康安全的保障。但是由于施工现场的一些特殊性，通用的数据集在施工现场很难取得较好的表现。原因有：施工现场遮挡多；施工现场背景混乱、复杂；施工现场背景独特；大多数工地工人都有分为特定工种、而特定工作则有特定的动作。正是这些因素导致了将通用的视频理解数据集应用到工作动作识别时效果并不理想。

综上所述，目前在施工领域，缺乏一个大规模的、公开的、具有较好鲁棒性和泛化能力的动作识别数据集建立方法。

发明内容

针对现有技术中的问题，本发明提供的基于图像检测的动作识别数据集生成方法及装置，较好的解决了现有技术中，针对建立识别目标动作专用的视频数据集耗时耗力的问题。

为解决上述技术问题，本发明提供以下技术方案：

第一方面，本发明提供一种基于图像检测的动作识别数据集生成方法，包括：

确定预先采集的动作视频中每一帧中所有待检测目标的检测矩形；

在所述每一帧中的每一待检测目标的检测矩形中进行标记；

按照第一预设范围对所述每一帧进行裁剪；

组装裁剪后的多帧，以生成动作视频数据或图像序列。

一实施例中，所述确定预先采集的动作视频中每一帧中所有待检测目标的检测矩形，包括：

利用CV算法，确定所述每一帧的检测矩形的初步形心位置；

根据所述初步形心位置确定当前帧的检测矩形的最终形心位置；

根据第二预设范围以及所述最终形心位置确定所述当前帧的检测矩形。

一实施例中，所述根据所述初步形心位置确定当前帧的检测矩形的最终形心位置，包括：

在时间域上，根据当前帧的检测矩形的初步形心位置以及当前帧附近多个帧的检测矩形的初步形心位置，确定所述当前帧的检测矩形的最终形心位置。

一实施例中，基于图像检测的动作识别数据集生成方法还包括：

在所述动作视频中对所有待检测目标的进行动作识别标注；

根据组装所得的视频/图像序列，以及对应的标注数据生成动作识别数据集；

所述在所述动作视频中对所有待检测目标的进行动作识别标注包括：

根据裁剪的计算规则及裁剪时裁剪规则所使用的参数生成标注信息；

根据所述标注信息进行动作识别标注。

第二方面，本发明提供一种基于图像检测的动作识别数据集生成装置，包括：

检测矩形确定单元，用于确定预先采集的动作视频中每一帧中所有待检测目标的检测矩形；

帧标记单元，用于在所述每一帧中的每一待检测目标的检测矩形中进行标记；

帧裁剪单元，用于按照第一预设范围对所述每一帧进行裁剪；

视频生成单元，用于组装裁剪后的多帧，以生成动作视频数据或图像序列。

一实施例中，所述检测矩形确定单元包括：

初步位置确定模块，用于利用CV算法，确定所述每一帧的检测矩形的初步形心位置；

最终位置确定模块，用于根据所述初步形心位置确定当前帧的检测矩形的最终形心位置；

检测矩形确定模块，用于根据第二预设范围以及所述最终形心位置确定所述当前帧的检测矩形。

一实施例中，所述最终位置确定模块具体用于在时间域上，根据当前帧的检测矩形的初步形心位置以及当前帧附近多个帧的检测矩形的初步形心位置，确定所述当前帧的检测矩形的最终形心位置。

一实施例中，基于图像检测的动作识别数据集生成装置还包括：

动作标注单元，用于在所述动作视频中对所有待检测目标的进行动作识别标注；

数据集生成单元，用于根据组装所得的视频/图像序列，以及对应的标注数据生成动作识别数据集；

所述动作标注单元包括：

标注信息生成模块，用于根据裁剪的计算规则及裁剪时裁剪规则所使用的参数生成标注信息；

动作标注模块，用于根据所述标注信息进行动作识别标注。

第三方面，本发明提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现基于图像检测的动作识别数据集生成方法的步骤。

第四方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现基于图像检测的动作识别数据集生成方法的步骤。

从上述描述可知，本发明实施例提供的基于图像检测的动作识别数据集生成方法及装置，首先确定预先采集的动作视频中每一帧中所有待检测目标的检测矩形；接着，按照时间顺序，在每一帧中的每一待检测目标的检测矩形中进行标记，以及按照第一预设范围对每一帧进行裁剪；最后组装裁剪后的多帧，以生成动作视频数据或图像序列。本发明可以解决现有技术中，针对建立识别目标动作专用的视频数据集耗时耗力的问题，具体地，本发明具有以下有益效果：

(1)可以快速得到diversity很好的数据集。

(2)通过优化样本的获得方式，降低了采样成本和标签获取的时间和经济成本，使得建立大规模的、具有很强鲁棒性和泛化性能的数据集成为可能。

(3)基于上述数据集，有利于机器学习模型的训练，提升了模型的预测能力，促进了机器学期和计算机视觉技术在建筑施工领域的发展，促进了自动化、智能化施工的发展。

(4)为其他行业、领域类似数据集建立提供了一个很好的思路。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的实施例中基于图像检测的动作识别数据集生成方法流程示意图一；

图2为本发明的实施例中对帧进行裁剪方法示意图一；

图3为本发明的实施例中对帧进行裁剪方法示意图二；

图4为本发明的实施例中步骤100的流程示意图；

图5为本发明的实施例中步骤102的流程示意图；

图6为本发明的实施例中基于图像检测的动作识别数据集生成方法流程示意图二；

图7为本发明的具体应用实例中基于图像检测的动作识别数据集生成方法的流程示意图；

图8为本发明的具体应用实例中确定检测矩形的形心位置方法示意图；

图9为本发明的具体应用实例中对帧进行裁剪方法示意图；

图10为本发明的具体应用实例中应用本申请所生成的视频数据集进行模型训练的方法示意图；

图11为本发明的具体应用实例中应用本申请所生成的视频数据集进行模型应用的方法示意图；

图12为本发明的实施例中基于图像检测的动作识别数据集生成装置的结构框图一；

图13为本发明的具体应用实例中检测矩形确定单元10结构示意图；

图14为本发明的实施例中基于图像检测的动作识别数据集生成装置的结构框图二；

图15为本发明的实施例中的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的实施例提供一种基于图像检测的动作识别数据集生成方法的具体实施方式，参见图1，该方法具体包括如下内容：

步骤100：确定预先采集的动作视频中每一帧中所有待检测目标的检测矩形。

可以理解的是，检测矩形(bounding box)也称为检测边界框，检测边框，检测边界矩形框等，其作用是对待检测目标的行为活动范围进行涵盖的一个区域，以方便更好的监视待检测目标。

另一方面，对于视频采集来说，需要根据视频采集的要求、现场的情况、采集设备的数量，对于同一个待检测目标工作的主要区域，可以在不同角度、不同高度布置摄像头。还可以采用穿戴式摄像头进行视频采集。对于每一个摄像头，调整期角度，使得待检测目标工作主要区域在视野范围内，以使其最好在视野中心附近。

步骤200：所述每一帧中的每一待检测目标的检测矩形中进行标记。

在步骤100的基础上，将同一待检测目标的在不同帧的bounding box打上标记，以进行不同帧间的追踪。优选地，可以按照时间顺序对每一帧中的每一待检测目标的检测矩形中进行标记。

另外需要说明的是，这里的待检测目标即包括人，也包括设备，对于人来说，可以监督其动作范围、动作趋势(将要发生的动作)，以对其进行安全保护，对于设备来说可以检测设备的工作效率。

步骤300：按照第一预设范围对所述每一帧进行裁剪。

可以理解的是，当采集视频中含有多个待检测目标时，需要将其中每个待检测目标单独裁剪出来，以利用本申请的方法对其进行处理。

具体地，根据bounding box的位置和大小，将视频所有待检测目标的boundingbox及附近一定范围内的区域裁剪出来，得到多条含有单个主要行为主体(动作的发出者)的施工动作的视频。优选地，参见图2(裁剪基准矩形的长边与目标数据集长边不一致的情况)，最小裁剪框：需要符合数据集规定的高宽比，且是包含全部裁剪基准矩形区域的所有框中最小的一个框。最大裁剪框：可以将最小裁剪框的对角线长度定义为最小裁剪直径(后面所有矩形框的对角线长度都定义为其的直径)，最小裁剪直径乘以固定系数(例如1.3)后，作为最大裁剪框的直径。另外，裁剪基准矩形的长边与目标数据集长边一致的情况参见图3。

步骤400：组装裁剪后的多帧，以生成动作视频数据或图像序列。

在步骤300的基础上，裁剪后，且被拆成单独一帧的视频数据，需要重新组成视频多条视频、和/或多条图像序列，在组装之后，其最大的作用是去训练“动作检测”的机器学习模型的。然后再用训练好的模型，来自动检测这些被“教过”的动作。比如上课有人打瞌睡等、工人违规操作等、足球运动员越位等。需要说明的是，同一行为主体(动作的发出者)各帧的被裁剪出来的区域需要按照原有顺序进行组装。

从上述描述可知，本发明实施例提供的基于图像检测的动作识别数据集生成方法，首先确定预先采集的动作视频中每一帧中所有待检测目标的检测矩形；接着，按照时间顺序，在每一帧中的每一待检测目标的检测矩形中进行标记，以及按照第一预设范围对每一帧进行裁剪；最后组装裁剪后的多帧，以生成动作视频数据或图像序列。本发明可以解决现有技术中，针对建立识别目标动作专用的视频数据集耗时耗力的问题。

一实施例中，参见图4，步骤100具体包括：

步骤101：利用CV算法，确定所述每一帧的检测矩形的初步形心位置

具体地，利用CV算法，确定所述每一帧的检测矩形，再由检测矩形确定初步形心位置；具体地，类似检测矩形的最终形心，检测矩形的最终宽、高也采用同样的方法确定。以得到最终形心、最终高度和最终宽度，由这三者共同确定裁剪基准矩形的大小的位置。

这里的CV算法是指计算机视觉算法，其可以用来对图像中的客观对象构建明确而有意义的描述，从一个或多个数字图像中计算三维世界的特性，以及基于感知图像做出对客观对象和场景有用的决策。

步骤102：根据所述初步形心位置确定当前帧的检测矩形的最终形心位置；

可以理解的是，利用传统的CV算法所检测出来的检测矩形的形心位置具有较大的误差，特别是针对类似于施工现象的应用场景(工人、施工设备有着较大的活动范围)。故本申请对利用传统方法确定的形心位置进行进一步精确定位，保证裁剪后组装形成的视频/图像序列有较好的连续性。优选地，利用正态分布方法，

步骤103：根据第二预设范围以及所述最终形心位置确定所述当前帧的检测矩形。

在确定了形心位置的基础上，根据检测矩形大小(第二预设范围)，即可以确定检测矩形。这里需要说明的是，检测矩形的大小以能最大程度的包括待检测目标为限。

一实施例中，参见图5，步骤102进一步包括：

步骤1021：在时间域上，根据当前帧的检测矩形的初步形心位置以及当前帧附近多个帧的检测矩形的初步形心位置，确定所述当前帧的检测矩形的最终形心位置。

实际上每一帧中待检测目标的bounding box形心的位置的变化来自两个因素(绝大部分的变化来自待检测目标的实际移动和相机位置的改变，微小的变化来自于boundingbox的误差(无论是人工、还是机器标注，均存在误差))。用一定数量的邻近帧的(包括该帧，或称为当前帧，邻近帧，可以是当前帧前、后一定数量的帧数，也可以是当前帧前、后一定的时间范围内所有的帧)的bounding box的形心位置来确定当前帧的裁剪框的形心位置，即加权平均。即距离当前帧越近的帧的bounding box的形心占的权重越高；更进一步地，在实际计算过程中，当前帧和附近最近的数帧相对来说，应占很大权重。

一实施例中，参见图6，基于图像检测的动作识别数据集生成方法还包括：

步骤500：在所述动作视频中对所有待检测目标的进行动作识别标注；

对人、机械设备动作的理解，也就是动作识别(Action Recognition)，是指对视频中人以及机械设备的行为动作进行识别，即读懂视频。根据要处理的动作类别和真正要处理的任务不同，在各种情况下所说的动作识别的任务略有差异，首先对两组概念进行对比和区分。

手势动作(原子动作)，动作，活动的区别。手势动作(原子动作)：集中于处理视频片段中单人的手势；动作：短时间的行为动作，场景往往是短视频片段的单人行为，比如扔、抓、拍等；活动：持续时间较长的行为，场景往往是较长视频中的单人或多人行为，例如读书，打电话，两人相互交谈，打篮球等。一般而言动作和活动的主要区别在于动作是指单个行为主体的动作，活动是指时空范围更广的行为，可以认为动作的粒度更细，而活动的粒度更粗，也可以说动作是活动的子集。但其实在实际的算法中，有时候也没必要将二者完全区分开。

分类，检测的区别。分类：给定预先裁剪好的视频片段，预测其所属的行为类别；检测：视频是未经过裁剪的，需要先进行人的空间位置检测(where)和时域行为定位(分析行为的始末时间、when)，再进行行为的分类；本发明里所涉及到的动作识别ActionRecognition可能是手势动作(原子动作)，动作，活动和分类，检测任意组合的一种和/或多种情况，不作绝对的区分。这里需要说明的是，在本申请中的视频片段可以是其中一种或者多种的组合。另外，对于同一条视频或者图像序列，不同任务，它们对应的标注数据是不同的。

根据任务需求对视频裁剪出来的含有单个主要行为主体(动作的发出者)进行标注。标注的方式包括：1)动作分类：根据数据集分类，将长视频裁剪为单个动作，并给出每一个视频的动作类型标签，对应的任务类型为动作的分类(classification)；2)动作检测：根据数据集分类(视频可以裁剪，也可以不裁剪，根据原始视频长度决定，每个视频可以包含一个或者多个动作)，标注整个视频中所有动作开始时间(这里所有的时间，也可以是视频帧的序号，图像序列的顺序号等)、结束时间、并对每个动作进行分类，对应的任务类型为动作的检测(detection)；3)动作检测：根据数据集分类(视频可以裁剪，也可以不裁剪，根据原始视频长度决定，每个视频不必须且只能包含一个动作)，标注整个视频中所有的肯定有动作发生的开始时间、结束时间、过渡时间、并对每个区段打上分类的标签，除此之外，标注动作过度区的起止时间，再标注肯定没有动作的区段，对应的任务类型为动作的检测(detection)或者重点动作检测(detection)(比如足球比赛中的越位、进球等在整个视频中，时间占比不多的但又非常重要的动作)。上述所有的起止时间的标注、也可以标注为相应的视频的帧的起止序号或者图像序列的起止序号。当然最基本的，标注数据里还应该记录这条标注数据对应的视频/图像序列。

步骤600：根据组装所得的视频/图像序列，以及对应的标注数据生成动作识别数据集；

进一步地，步骤600包括：

步骤601：根据裁剪的计算规则及裁剪时裁剪规则所使用的参数生成标注信息；

步骤602：根据所述标注信息进行动作识别标注。

在步骤601以及步骤602中，具体地，可以在原视频上对各个检测目标的进行动作识别标注，在原始视频上的标注信息可以根据裁剪的计算规则及裁剪时裁剪规则所使用的的参数，转换为被裁剪后组装而得的视频/图像序列的标注信息。

为进一步地说明本方案，本发明以某施工现场为例，提供基于图像检测的动作识别数据集生成方法的具体应用实例，该具体应用实例具体包括如下内容，参见图7。

需要说明的是，在本具体应用实例中，需要有以下前提：

1、视频理解包括动作识别的数据集横向和纵向的像素均在500pixel以下；

2、视频理解包括动作识别的数据集主要包含一个主要的动作发出者，也就是视频内只有一个人(或者虽然有多个人，但是只有一个人作为前景可以识别动作，其余都是背景，不考虑识别)；

3、相机(包括视频监控设备)和视频的分辨率已经达到4K(大概可以理解横向或者纵向的像素数量为4000pixel)级别；

4、施工现场通常会有多个工人在某一特定区域进行不同的作业，且相互之间遮挡并不多；

5、施工现场工人和机械设备活动的视频，并不像其他通用数据集中的视频那样可以容易的从互联网上获取，一般只能到现场采集或者通过现场的监控视频获取。

S1：采集视频。

首先需要对视频采集设备布置，具体地，根据视频采集的要求、现场的情况、采集设备的数量，对于同一个工人工作的主要区域，可以在不同角度、不同高度布置摄像头。还可以采用穿戴式摄像头进行视频采集。对于每一个摄像头，调整期角度，使得工人工作主要区域在视野范围内，最好在视野中心附近。调整焦距和分辨率，使得视野中大多数工人的影像高度在视频图像中占据某一个范围内的像素，比如150-250pixel。根据需要布置一台或者多台视频采集设备。

优选地，每个摄像头单独采集至少一个目标的动作，采集工作应该以长视频为主，因为长视频可以裁剪得到短视频，而短视频无法在保证含有连续temporal information的前提下拼接为长视频。

S2：根据采集的视频确定初始的检测矩形。

具体地，采用传统CV算法(computer vision)，获取视频中所有工人的boundingbox，并将同一个工人的在不同帧的bounding box打上标记进行不同帧间的视觉目标跟踪(需要注意的是，获取bounding box时，每一帧的同一检测目标的bounding box的形心和框的大小是不可能完全一致的)。另一种获得bounding box的方法是人工标注。

S3：确定检测矩形。

可以理解的是，如果视频采集设备的位姿、或者工人的位置在视频中发生了较大的变化，通过传统的CV算法并不能获取有效的包含工人动作的图像(视频)区域，因为每一帧工人的位置在图像中都可能发生较大的变化，相应的其bounding box的形心也会发生变化，那么固定形心的情况下，就裁剪不到有效的工人的图像信息了。针对此，有如下设计：

对于没有要求分辨率必须一致的数据集：有以下两种方法。

a)采用“正态分布”的思想来加权，参见图8。假设钟型曲线在时间T内曲线下面积为1，当前帧序号为M，分别向前和向后取N帧，进行加权计算当前帧boundingbox的形心，通过检测detection算法计算的各帧的boundingbox的形心坐标为(Xi，Yi)，则当前帧的裁剪框的形心坐标为：

这里的可以使原始帧率的视频的各帧组成的图像序列，也可以是抽帧以后的图像序列

b)采用抽帧的方式加权，距离当前帧近的抽帧频次高、距离远的频次低，然后所有抽出来的帧的形心位置等权重求裁剪框形心位置；

将一个人工人的所有裁剪出来的图像(这些所有图像尺寸是一致的，只是在原图像中形心的位置是不同的)再按照原时序还原为视频。可以采用追踪或者重定位算法确定哪些boundingbox是属于同一个对象的。显然上面的处理方法存在一个问题：在视频开头和结尾附近，当前帧向前或者向后找M-N或者M+N帧时，因为在视频的开始或者结尾，无法取到，所以对于结尾和开头，一种处理办法是从第N帧开始，到T-N帧结束，T为该视频总帧数。简言之，在由一段长视频，进行操作时，因为开头和结尾没有办法确定其裁剪框的形心，所以“掐头去尾”把这部分去掉。

另外，部分工人(机械设备)可能会因为自身移动或者摄像头位姿的变化而移动到画面外，进而导致上述问题，同样对于该对象(工人、机械设备)，也可以采取同样的处理办法，仅仅是改变了N和T-N的值。

如果目标数据集要求视频/图像序列统一分辨率，可以根据数据集最终的视频高宽比(比如320:180)为裁剪区域的高宽比，详见图2，根据图2裁剪出来后，再将裁剪出来的图像降低或者提高分辨率至目标分辨率。具体地，帧得到每一个工人的bounding box，按照图2得到裁剪框尺寸(可不得到形心)，按照上述加权取形心的思想，得到每一个工人每一帧的裁剪框的形心；然后裁剪。将一个工人的所有裁剪出来的图像(这些所有图像尺寸是一致的，只是在原图像中形心的位置是不同的)再按照原时序还原为视频或者排成图像序列。

S4：进行视频裁剪。

根据boundingbox的位置和大小，将视频所有工人的boundingbox及附近一定范围内的区域裁剪出来，得到多条含有单个主要行为主体(动作的发出者)的施工动作的视频。一种裁剪方式见图9，实线框即为裁剪后保留的区域。则由一条视频，得到五条含有单个主要行为主体(动作的发出者)的视频。这种裁剪方式主要针对摄像头位姿固定、工人在视频中位置变化不大的情况。另一种裁剪方式见图2。

S5：数据重构。

被拆成单独一帧的视频的每一帧，被裁剪以后，需要重新组成视频多条视频及/或多条图像序列。数据集可根据需要划分为训练集、测试集和验证集，具体地，参见图10以及图11，在训练过程中，将由步骤S5所得到的部分数据(该数据是经过编码的视频/图像序列数据)作为模型(根据数据特征搭建的机器学习模型，进一步，更具体的是深度学习模型)的输入，另一部分数据作为监督数据(经过编码的标注数据)，其进一步可分为视频动作分类标注数据、时序动作检测标注数据….(根据不同目标任务，对应不同的标注数据)。在模型应用过程中(实时检测过程)：把待检测数据进行预处理之后，输入至上述被训练好的模型中，以生成与训练时所用监督的标签数据形式相同的输出数据，以实现对目标的动作的识别。

从上述描述可知，本发明实施例提供的基于图像检测的动作识别数据集生成方法，首先确定预先采集的动作视频中每一帧中所有待检测目标的检测矩形；接着，按照时间顺序，在每一帧中的每一待检测目标的检测矩形中进行标记，以及按照第一预设范围对每一帧进行裁剪；最后组装裁剪后的多帧，以生成动作视频数据或图像序列。本发明可以解决现有技术中，针对建立识别目标动作专用的视频数据集耗时耗力的问题，具体地，本发明具有以下有益效果：

(1)可以快速得到diversity很好的数据集。

基于同一发明构思，本申请实施例还提供了基于图像检测的动作识别数据集生成装置，可以用于实现上述实施例所描述的方法，如下面的实施例。由于基于图像检测的动作识别数据集生成装置解决问题的原理与基于图像检测的动作识别数据集生成方法相似，因此基于图像检测的动作识别数据集生成装置的实施可以参见基于图像检测的动作识别数据集生成方法实施，重复之处不再赘述。以下所使用的，术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的系统较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

本发明的实施例提供一种能够实现基于图像检测的动作识别数据集生成方法的基于图像检测的动作识别数据集生成装置的具体实施方式，参见图12，基于图像检测的动作识别数据集生成装置具体包括如下内容：

检测矩形确定单元10，用于确定预先采集的动作视频中每一帧中所有待检测目标的检测矩形；

帧标记单元20，用于在所述每一帧中的每一待检测目标的检测矩形中进行标记；

帧裁剪单元30，用于按照第一预设范围对所述每一帧进行裁剪；

视频生成单元40，用于组装裁剪后的多帧，以生成动作视频数据或图像序列。

一实施例中，参见图13，所述检测矩形确定单元10包括：

初步位置确定模块101，用于利用CV算法，确定所述每一帧的检测矩形的初步形心位置；

最终位置确定模块102，用于根据所述初步形心位置确定当前帧的检测矩形的最终形心位置；

检测矩形确定模块103，用于根据第二预设范围以及所述最终形心位置确定所述当前帧的检测矩形。

一实施例中，参见图14，基于图像检测的动作识别数据集生成装置还包括：

动作标注单元50，用于在所述动作视频中对所有待检测目标的进行动作识别标注；

数据集生成单元60，用于根据组装所得的视频/图像序列，以及对应的标注数据生成动作识别数据集；

所述动作标注单元包括：

动作标注模块，用于根据所述标注信息进行动作识别标注。

从上述描述可知，本发明实施例提供的基于图像检测的动作识别数据集生成装置，首先确定预先采集的动作视频中每一帧中所有待检测目标的检测矩形；接着，按照时间顺序，在每一帧中的每一待检测目标的检测矩形中进行标记，以及按照第一预设范围对每一帧进行裁剪；最后组装裁剪后的多帧，以生成动作视频数据或图像序列。本发明可以解决现有技术中，针对建立识别目标动作专用的视频数据集耗时耗力的问题，具体地，本发明具有以下有益效果：

(1)可以快速得到diversity很好的数据集。

本申请的实施例还提供能够实现上述实施例中的基于图像检测的动作识别数据集生成方法中全部步骤的一种电子设备的具体实施方式，参见图15，电子设备具体包括如下内容：

处理器(processor)1201、存储器(memory)1202、通信接口(CommunicationsInterface)1203和总线1204；

其中，处理器1201、存储器1202、通信接口1203通过总线1204完成相互间的通信；通信接口1203用于实现服务器端设备、传感器以及客户端设备等相关设备之间的信息传输。

处理器1201用于调用存储器1202中的计算机程序，处理器执行计算机程序时实现上述实施例中的基于图像检测的动作识别数据集生成方法中的全部步骤，例如，处理器执行计算机程序时实现下述步骤：

步骤100：确定预先采集的动作视频中每一帧中所有待检测目标的检测矩形；

步骤200：在所述每一帧中的每一待检测目标的检测矩形中进行标记；

步骤300：按照第一预设范围对所述每一帧进行裁剪；

本申请的实施例还提供能够实现上述实施例中的基于图像检测的动作识别数据集生成方法中全部步骤的一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中的基于图像检测的动作识别数据集生成方法的全部步骤，例如，处理器执行计算机程序时实现下述步骤：

步骤300：按照第一预设范围对所述每一帧进行裁剪；

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于硬件+程序类实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于图像检测的动作识别数据集生成方法，其特征在于，包括：

在所述每一帧中的每一待检测目标的检测矩形中进行标记；

按照第一预设范围对所述每一帧进行裁剪；

组装裁剪后的多帧，以生成动作视频数据或图像序列。

2.如权利要求1所述的基于图像检测的动作识别数据集生成方法，其特征在于，所述确定预先采集的动作视频中每一帧中所有待检测目标的检测矩形，包括：

利用CV算法，确定所述每一帧的检测矩形的初步形心位置；

3.如权利要求2所述的基于图像检测的动作识别数据集生成方法，其特征在于，所述根据所述初步形心位置确定当前帧的检测矩形的最终形心位置，包括：

4.如权利要求1所述的基于图像检测的动作识别数据集生成方法，其特征在于，还包括：

在所述动作视频中对所有待检测目标的进行动作识别标注；

根据所述标注信息进行动作识别标注。

5.一种基于图像检测的动作识别数据集生成装置，其特征在于，包括：

6.如权利要求5所述的基于图像检测的动作识别数据集生成装置，其特征在于，所述检测矩形确定单元包括：

7.如权利要求6所述的基于图像检测的动作识别数据集生成装置，其特征在于，所述最终位置确定模块具体用于在时间域上，根据当前帧的检测矩形的初步形心位置以及当前帧附近多个帧的检测矩形的初步形心位置，确定所述当前帧的检测矩形的最终形心位置。

8.如权利要求5所述的基于图像检测的动作识别数据集生成装置，其特征在于，还包括：

所述动作标注单元包括：

动作标注模块，用于根据所述标注信息进行动作识别标注。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至4任一项所述基于图像检测的动作识别数据集生成方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至4任一项所述基于图像检测的动作识别数据集生成方法的步骤。