CN113920354A

CN113920354A - 一种基于事件相机的动作识别方法

Info

Publication number: CN113920354A
Application number: CN202111075801.0A
Authority: CN
Inventors: 颜成钢; 戴振宇; 路荣丰; 孙垚棋; 张继勇; 李宗鹏
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2021-09-14
Filing date: 2021-09-14
Publication date: 2022-01-11

Abstract

本发明公开了一种基于事件相机的动作识别方法，首先搭建事件相机数据采集系统，然后对事件数据进行处理；再搭建软件框架，通过搭建的事件相机数据采集系统采集人类动作数据对模型进行训练；最后将待识别的人类动作事件流进行处理，然后将处理后的输送到步骤四训练好的动作识别网络，通过训练好的动作识别网络进行动作识别，输出对应的动作类别。本发明使用先进的DAVIS346相机作为采集设备，事件数据流具有很强的时间信息，可以有效地捕捉动作的变化。本方法鲁棒性强，对极端光照情况具有免疫力，同时实时性强，冗余小。

Description

一种基于事件相机的动作识别方法

技术领域

本发明涉及计算机视觉领域，使用深度学习方法利用事件相机的事件流数据对动作进行识别分类。

背景技术

事件相机是一款新型传感器。不同于传统相机拍摄一幅完整的图像，事件相机拍摄的是“事件”，可以简单理解为“像素亮度的变化”，即事件相机输出的是像素亮度的变化情况。

传统相机，无论是CMOS传感器，还是CCD传感器，亦或是RGBD相机，都有一个参数：帧率。它们是以恒定的频率拍摄获取图像。这样，即使帧率能够达到1KHz，那也具有1ms的延时。所以传统相机存在一定的延迟问题。

事件摄像机是一种异步传感器，在获取视觉信息的方式上造成了范式的转变。事件相机的工作机制是当某个像素所处位置的亮度值发生变化达到所设定的阈值时，相机就会回传一个事件，每一个事件数据有四个属性，其中前两项为事件的像素坐标，第三项为事件发生的时间戳，最后一项取值为极性0、1(或者-1、1)，代表亮度是由低到高还是由高到低，也常被称作Positive or Negtive Event。就这样，在整个相机视野内，只要有一个像素值变化，就会回传一个事件，这些所有的事件都是异步发生的(再小的时间间隔也不可能完全同时)，所以事件的时间戳均不相同，由于回传很简单，所以和传统相机相比，它具有低时延的特性，可以捕获很短时间间隔内的像素变化。事件相机的优点是:非常高的时间分辨率和低延迟(都是微秒级的)，非常高的动态范围(140dB vs.60dB的标准摄像头)，低功耗。因此，事件相机在机器人和可穿戴设备应用方面有很大的潜力。

识别人的动作是一项具有挑战性的动作，这一任务受到了计算机视觉研究人员的广泛关注。分析一个人的动作不仅仅是要对身体不同部位的动作进行建模，可能还要考虑人的意图、情感和想法。因此，动作识别已经成为人类行为分析和理解的一个重要组成部分，在监控、机器人、医疗保健、视频搜索、人机交互等各个领域都是必不可少的。

最近这些年，计算机视觉研究人员在不同领域做了大量工作，包括视频分类，分辨率和分割等。目前的动作识别主要是基于视频进行处理，包括基于RGB图像的和基于骨骼建模的分类方法。基于视频流的动作识别可以描述为使用具有最少人机交互的模式识别系统来自动地识别人类动作。但是，基于传统视频流的输入数据量相对较大，网络训练困难，落地部署难度极大，具有极大的不可操作性。

在过去的这几年，基于深度学习的方法在视频处理领域变得非常流行，因为它可以从多个层次学习特征，并自动构建原始输入的高级表示。而且，与传统方法不同的是，深度学习可以完全自动地提取特征，例如深度学习使用的局部感知、权重共享、多卷积核、下采样等方法。从图像的一部分而不是整个图像中学习局部特征，且最终的识别结果由多个卷积层的结果决定。用于处理图像/帧的一种流行的深度学习方法是卷积神经网络(CNN)。和传统的方法相比，深度学习方法的主要优势是能够识别具有复杂结构的高级活动，所以，研究人员更喜欢使用深度学习的方法来实现对人类动作的识别分类。深度学习方法的良好性能、特征提取的鲁棒性和泛化能力是其日益流行的主要原因。

为了分层识别高级活动，在人类行为识别的早期研究阶段引入了多层隐马尔科夫模型，随着近些年硬件设备的升级发展，深度学习的方法成为主流。不同类型的深度学习技术应用于动作识别领域。

因为事件相机数据的优越特性，目前有越来越多的研究人员开始关注事件流和深度学习网络的结合，使用事件相机的动态数据，可以有效地关注动作的变化，同时可以抵抗环境光强的干扰，是一个极具前景的研究方向和产业化方向。

发明内容

针对现有技术中存在的不足，本发明提供一种基于事件相机的动作识别方法。该方法可以有效识别人的各种动作，包括手势动作，体育运动等。本方明的方法可以广泛应用于自动驾驶，视频监督等领域，可以有效克服极端场景的光照问题，对于过曝或欠曝等问题具有极强的鲁棒性，同时事件相机的输出具有低冗余性，数据量较小，对深度学习网络的要求较低，具备落地的条件。

视频流的爆炸式增长给要求高准确率和低计算量的视频理解领域带来了挑战。虽然2D CNN方法计算成本比较低，但是依然具有极大的计算量，同时视频帧的背景信息具有很大的冗余，浪费了计算资源；同时视频帧率是毫秒级的，对于一些要求时间延迟很低的系统来说，难以满足要求。

对于人类的动作识别，我们对人的动作行为进行检测，识别模型理应具有以下四种特性：

1.高准确性。

2.低冗余性。

3.高鲁棒性。

4.低延时性

对于人的动作信息，最重要的是运动在时间上的变化，事件相机提供的事件流数据就具备这种信息。所以，基于以上要求，我们结合目前已有的动作识别技术，综合考量四个关键指标，选择了使用基于事件相机的Resnet34算法作为网络的识别模型。下面，将详细结合算法对本专利进行阐述。

一种基于事件相机的动作识别方法，步骤如下：

步骤一：搭建事件相机数据采集系统。

在室内场景中使用三脚架固定住事件相机，并将事件相机通过USB接口连接到电脑端，使用DV平台收集数据。动作的采集时间为两秒，对于每一种动作分别采集过曝、正常、欠曝三种光照的情况，以验证事件相机对光照强度的非敏感性。

动作采集的类别为C类，根据不同任务的需求进行具体的约束。

步骤二；事件数据处理；

对于收集到的一段事件流数据，时长共两秒。沿时间维度将事件流均匀划分为N份，将每一份事件流分别对正负极性累加求和，共得到2N通道的事件帧。

步骤三：软件框架搭建；

使用Resnet34作为模型的主干网络，并且根据事件帧的通道维度对Resnet网络的第一层输入参数通道数修改为2N，根据所需动作分类的类别数对网络的最后一个FC层类别参数同样进行修改，改为C。

步骤四：模型训练；

通过搭建的事件相机数据采集系统，采集人类动作数据，将获得的人类动作数据分为训练集和测试集，通过步骤二的方法对获得的人类动作数据进行处理，然后通过训练集对步骤三搭建的神经网络进行训练，获得训练好后模型参数，获得训练好的动作识别网络，并通过测试集验证效果。

步骤五：动作识别；

将待识别的人类动作事件流通过步骤二的方法进行处理，然后将处理后的输送到步骤四训练好的动作识别网络，通过训练好的动作识别网络进行动作识别，输出对应的动作类别。

进一步的，所述的事件相机采用DAVIS346相机。

本专利的创新点：

1.使用先进的DAVIS346相机作为采集设备，事件数据流具有很强的时间信息，可以有效地捕捉动作的变化。

2.本方法鲁棒性强，对极端光照情况具有免疫力，同时实时性强，冗余小。

3.将事件数据转化为图像帧，直接使用已有的CNN卷积方法。

附图说明

图1为基于事件的网络结构图；

图2为本发明实施例动作识别流程图。

具体实施方式

以下结合附图与实施例对本发明方法进行进一步描述：

如图1、图2所示，一种基于事件相机的动作识别方法，步骤如下：

步骤一：采集硬件搭建。

本专利使用DAVIS346事件相机作为采集设备，在室内场景中使用三脚架固定住相机，并将相机通过USB接口连接到电脑端，使用DV平台收集数据。动作的采集时间为两秒，对于每一种动作可以分别采集过曝、正常、欠曝三种光照的情况，以验证事件相机对光照强度的非敏感性，每一类动作都应由不同的人在不同的场景下多次完成。

步骤二：处理硬件搭建。

数据处理系统即深度学习网络的训练系统部署在服务器端，服务器使用八块RTX1080TI对神经网络进行并行训练计算。

步骤三；事件数据处理

一般来说，目前CNN网络处理图像取得了很好的分类效果，大量针对卷积层的研究使CNN网络具有优越的识别性能和可靠的稳定性能，所以本专利提出的事件相机数据是基于CNN卷积网络来处理的，本发明选择使用Resnet34作为骨干网络，但是因为事件相机输出的是异步的事件数据，不能直接使用卷积网络来处理，所以需要首先对数据进行转换。

对于收集到的一段事件流数据，时长共两秒。沿时间维度将事件流均匀划分为N份，将每一份事件流分别对正负极性累加求和，共得到2N通道的事件帧，这样得到的数据就类似于图像帧，但是事件帧具有更小的数据量和更好的时间信息。将得到的图像帧进行尺寸变换，由346*260变为224*224，以适应神经网络的要求。

步骤四：软件框架搭建

整体的算法思想基于CNN网络框架，鉴于Resnet网络在图像分类领域具有极好的性能，同时考虑网络的复杂度，所以本专利使用Resnet34作为模型的主干网络，并且根据事件帧的通道维度对Resnet网络的第一层输入参数通道数修改为2N，根据所需动作分类的类别数对网络的最后一个FC层类别参数同样进行修改，改为C。

整个神经网络网络的算法通过pytorch实现。

步骤五：模型训练

通过搭建的事件相机数据采集系统，采集人类动作数据，将获得的人类动作数据分为训练集和测试集，通过步骤三的方法对获得的人类动作数据进行处理，然后通过训练集对步骤四搭建的神经网络进行训练，获得训练好后模型参数，获得训练好的动作识别网络，并通过测试集验证效果。

步骤六：动作识别

将待识别的人类动作事件流通过步骤二的方法进行处理，然后将处理后的输送到步骤五训练好的动作识别网络，通过训练好的动作识别网络进行动作识别，输出对应的动作类别。

Claims

1.一种基于事件相机的动作识别方法，其特征在于，步骤如下：

步骤一：搭建事件相机数据采集系统；

在室内场景中使用三脚架固定住事件相机，并将事件相机通过USB接口连接到电脑端，使用DV平台收集数据；动作的采集时间为两秒，对于每一种动作分别采集过曝、正常、欠曝三种光照的情况，以验证事件相机对光照强度的非敏感性；

动作采集的类别为C类，根据不同任务的需求进行具体的约束；

步骤二；事件数据处理；

对于收集到的一段事件流数据，时长共两秒；沿时间维度将事件流均匀划分为N份，将每一份事件流分别对正负极性累加求和，共得到2N通道的事件帧；

步骤三：软件框架搭建；

使用Resnet34作为模型的主干网络，并且根据事件帧的通道维度对Resnet网络的第一层输入参数通道数修改为2N，根据所需动作分类的类别数对网络的最后一个FC层类别参数同样进行修改，改为C；

步骤四：模型训练；

通过搭建的事件相机数据采集系统，采集人类动作数据，将获得的人类动作数据分为训练集和测试集，通过步骤二的方法对获得的人类动作数据进行处理，然后通过训练集对步骤三搭建的神经网络进行训练，获得训练好后模型参数，获得训练好的动作识别网络，并通过测试集验证效果；

步骤五：动作识别；

2.根据权利要求1所述的一种基于事件相机的动作识别方法，其特征在于，所述的事件相机采用DAVIS346相机。