CN112418164A

CN112418164A - 一种多任务学习网络对警犬动作进行动态识别的方法

Info

Publication number: CN112418164A
Application number: CN202011429866.6A
Authority: CN
Inventors: 徐虎; 李�杰; 方绍勤; 黎立光; 李细牯; 徐陶; 马卫国
Original assignee: KUNMING POLICE DOG BASE OF MINISTRY OF PUBLIC SECURITY
Current assignee: KUNMING POLICE DOG BASE OF MINISTRY OF PUBLIC SECURITY
Priority date: 2020-12-07
Filing date: 2020-12-07
Publication date: 2021-02-26

Abstract

本发明公开了一种多任务学习网络对警犬动作进行动态识别的方法，属于警犬训练领域，所述的多任务学习网络对警犬动作进行动态识别的方法包括以下步骤，步骤1.对生成骨架序列的片段；步骤2.模型训练；步骤3.利用深度CNN从生成的每一帧剪辑图片中提取一个紧凑的表示数据，步骤4.对提取的剪辑图片预先训练好的VGG19模型提取每一帧的CNN特征，警犬的关节时间序列可用于探索骨骼序列的空间结构和时间结构，用于动作识别。为了识别警犬的实时动作，需要利用序列的识别信息来理解警犬的动态行为。

Description

一种多任务学习网络对警犬动作进行动态识别的方法

技术领域

本发明属于警犬训练领域，更具体的说涉及一种多任务学习网络对警犬动作进行动态识别的方法。

背景技术

3D骨骼数据记录着生命体骨骼关节的轨迹，其中，对警犬的动作进行动态识别，可以实时捕捉行为信息，对训练及公安部们具有重要意义。随着人工智能技术的普及，基于3D骨骼序列的动态识别，越来越受到关注。在本研究中，我们的主要内容是基于警犬的动作识别。

警犬的关节时间序列可用于具有长-短记忆(LSTM)神经元的递归神经网络(RNNs)，探索骨骼序列的空间结构和时间结构，用于动作识别。为了识别警犬的实时动作，需要利用序列的识别信息来理解警犬的动态行为。然而，常规技术对关节的序列识别存在着以下问题：

虽然LSTM网络的设计是为了探索长期的时间依赖性问题，但LSTM仍然很难记住具有多个时间步长的整个序列的信息。

此外，构造深层LSTM来提取高级特征也很困难。

卷积神经网络(CNNs)在图像分类方面取得了巨大的成功，但是对于视频动作的识别，它缺乏对整个视频的长期时间依赖性建模的能力。

发明内容

本文提出利用多任务学习网络(MTLN)利用不同特征向量之间的内在联系进行动作识别。提出将每个骨架序列转换成一个新的表示，即三个剪辑，通过使用深层CNN从帧图像中学习层次特征，允许骨架序列的全局长期时序建模。引入一个MTLN来处理生成的片段中所有帧的CNN特征，从而学习骨架序列的空间结构和时间信息。MTLN通过利用生成片段的不同帧之间的内在关系来提高性能。实验结果表明，MTLN比连接或池化帧的特征要好。该方法在三个骨架数据集(包括大型NTU RGB+D数据集)上达到了最先进的性能。

为了实现上述目的，本发明是通过以下技术方案实现的：所述的多任务学习网络对警犬动作进行动态识别的方法包括以下步骤，步骤1.对生成骨架序列的片段；步骤2.模型训练；步骤3.利用深度CNN从生成的每一帧剪辑图片中提取一个紧凑的表示数据，步骤4.对提取的剪辑图片预先训练好的VGG19模型提取每一帧的CNN特征。

优选的，所述的步骤1.对生成骨架序列的片段，其中，将一个任意长度的骨架序列被转换成三个剪辑，每个剪辑由几个灰度图像组成，将生成的剪辑输入到深度CNN模型中提取CNN特征，用于MTLN的动作识别，将原始骨架序列转换为一组包含多幅图像的视频剪辑，从而实现深度神经网络的时空特征学习，直观地将骨架序列中每一帧的内容表示为图像，生成视频。

优选的，所述的步骤2.模型训练将每个特征向量的分类视为一个单独的任务，由一个特征向量联合学习多个分类器，输出多个预测，每个预测对应一个任务，同一骨架序列的所有特征向量具有与骨架序列相同的标签，在训练过程中，每个任务的损失值都是用自己的分数单独计算出来的，然后对所有任务的损耗值进行求和，定义网络的总损耗，并以此来学习网络参数。

优选的，步骤3.利用深度CNN从生成的每一帧剪辑图片中提取一个紧凑的表示数据，首先使用一个深度的CNN来提取每一帧剪辑的紧凑表示，由于每一帧都描述了骨骼序列的时间动态，因此每一帧的CNN空间不变特征可以代表骨骼序列的鲁棒时间信息。

优选的，使用步骤2中预先训练好的VGG19模型提取每一帧的CNN特征，预训练的VGG19模型包含5组卷积层conv1,conv2，…,conv5，每个集合包括一个由2或4个卷积层组成的堆栈，具有相同的卷积核大小，该网络共有16个卷积层和3个全连接层，使用ImageNet预训练的模型提取的CNN特征非常强大，因此可以将预训练的CNN模型用作特征提取器。

本发明有益效果：

附图说明

图1为用于视频分类的残留网络体系结构。

图中、(a)R2D是2D ResNet；(b)MCx是具有混合卷积的ResNet(此图中显示了MC3)；(c)rMCx使用反向混合卷积(此处显示rMC3)；(d)R3D是3D ResNet；(e)R(2+1)D是具有(2+1)D卷积的ResNet。

具体实施方式

为了便于本领域一般技术人员理解和实现本发明，现结合附图及具体实施例进一步描述本发明的技术方案。

所述的多任务学习网络对警犬动作进行动态识别的方法包括以下步骤，步骤1.对生成骨架序列的片段；步骤2.模型训练；步骤3.利用深度CNN从生成的每一帧剪辑图片中提取一个紧凑的表示数据，步骤4.对提取的剪辑图片预先训练好的VGG19模型提取每一帧的CNN特征。

一个任意长度的骨架序列被转换成三个剪辑，每个剪辑由几个灰度图像组成。然后将生成的剪辑输入到深度CNN模型中提取CNN特征，用于MTLN的动作识别。将原始骨架序列转换为一组包含多幅图像的视频剪辑，从而实现深度神经网络的时空特征学习。直观地将骨架序列中每一帧的内容表示为图像，生成视频。我们提出在一帧图像中表示骨骼序列的时间动态，然后使用多帧来包含关节之间的不同空间关系。所生成的片段的每一帧描述了骨架序列的所有帧和一帧的时间动态.特定的空间关系的骨骼关节在一个通道的柱坐标。生成的视频片段的不同帧描述了不同的空间关系，它们之间存在着内在的关系。

其次利用深度CNN从生成的每一帧剪辑中提取一个紧凑的表示，以利用骨骼序列的长期时间信息。为了学习生成的剪辑的特征，首先使用一个深度的CNN来提取每一帧剪辑的紧凑表示。由于每一帧都描述了骨骼序列的时间动态，因此每一帧的CNN空间不变特征可以代表骨骼序列的鲁棒时间信息。对于生成的剪辑，使用预先训练好的VGG19模型提取每一帧的CNN特征。预训练的VGG19模型包含5组卷积层conv1,conv2，…,conv5。每个集合包括一个由2或4个卷积层组成的堆栈，具有相同的卷积核大小。该网络共有16个卷积层和3个全连接层。使用ImageNet预训练的模型提取的CNN特征非常强大，因此可以将预训练的CNN模型用作特征提取器。

所述的步骤2.模型训练多任务学习旨在通过联合训练多个相关任务并利用它们之间的内在关系来提高泛化性能。该方法将每个特征向量的分类视为一个单独的任务，由一个特征向量联合学习多个分类器，输出多个预测，每个预测对应一个任务。同一骨架序列的所有特征向量具有与骨架序列相同的标签。在训练过程中，每个任务的损失值都是用自己的分数单独计算出来的。然后对所有任务的损耗值进行求和，定义网络的总损耗，并以此来学习网络参数。在测试过程中，对所有任务的分数进行平均，形成对action类的最终预测。多任务学习通过权值共享同时解决多个任务，可以提高单个任务的性能。

基于LSTM网络以及卷积神经网络建构的模型不足以满足我们的需求，在本文中，我们首先将骨架序列表示为仅有的几帧剪辑，而不是直接从骨架序列中提取长期的时间信息。对于生成的剪辑，利用深度神经网络对生成的剪辑帧图像进行处理，可以有效地学习警犬骨骼序列的长期时间结构。此外，警犬骨骼的空间结构信息可以从整个片段中挖掘出来。

更具体地说，对于每个骨架序列，我们生成三个剪辑对应于骨架序列柱坐标的三个通道。每个剪辑由四帧组成，通过计算关节与四个参考关节的相对位置来生成。片段的每一帧描述了整个骨骼序列的时间信息，并包含了关节之间的一个特定的空间关系。不同时间特征向量代表不同的空间关系，它们之间有内在的联系。

使用步骤2中预先训练好的VGG19模型提取每一帧的CNN特征，预训练的VGG19模型包含5组卷积层conv1,conv2，…,conv5，每个集合包括一个由2或4个卷积层组成的堆栈，具有相同的卷积核大小，该网络共有16个卷积层和3个全连接层，使用ImageNet预训练的模型提取的CNN特征非常强大，因此可以将预训练的CNN模型用作特征提取器。

如图1所示，3D卷积是一种能够获取时空特征的直观手段，能够有效应用于有关video的任务领域，例如action location，action recognition，action detection，videodetection，video tracking等领域。对于用3D卷积构建的网络，要避免在前几层用2D卷积和2D池化的方式构建，应该选用3D卷积搭建。网络的输入c×l×h×w(通道×帧数×高×宽)，视频序列被压缩到128×171，帧数设为16，因为是从头训练，数据增强很重要。利用2D识别的经验，大多数卷积大小为3×3，因此需要确定时间维度的大小，作者做了两种实验，一个是所有卷积都是一样的，有相同的temporal depth。二个是变化temporal depth。通过对比实验，得出3×3×3卷积核效果最好。网络有8个卷积层(filter:3×3×3，stride:1×1×1)，5个池化层(filter:2×2×2，stride:2×2×2，除了第一个filter:1×2×2，stride:1×2×2)，2个全链接层(4096)，和1个softmax分类层。3d卷积被解耦为2d空间卷积和1d时间卷积，得益于分解，可以将其放置在resnet的残差block中，设计多种P3D模块。这样做的话，2d空间卷积可以利用imagenet上预训练模型做迁移学习。作者依据空间卷积与时间卷积操作先后和如何对output的影响这两点，主要设计P3D-A，P3D-B，P3D-C三种block。P3D-A:采用级联的方式，时间卷积作用于空间卷积之后。时间卷积的输出作为最终输出。P3D-B:采用并联的方式，时间卷积和空间卷积分别对输入操作，然后加和作为最终输出。P3D-C:采用混合的方式，融合上述两种模块。该模块认为3D卷积可以利用2D卷积和1D卷积来逼近，但要保证参数相同，因此作者设计了2d卷积和1d卷积filter个数的匹配公式。相比于R3D，虽然参数没变，但由于R(2+1)D添加更多Relu激活层，模型的表达能力应该更强，同时也更容易训练优化。相比于P3D，R(2+1)D更接近P3D-A，把R(2+1)D都设计为相同的block，但P3D的第一层使用的是2d卷积。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的仅为本发明的优选例，并不用来限制本发明，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种多任务学习网络对警犬动作进行动态识别的方法，其特征在于：所述的多任务学习网络对警犬动作进行动态识别的方法包括以下步骤，步骤1.对生成骨架序列的片段；步骤2.模型训练；步骤3.利用深度CNN从生成的每一帧剪辑图片中提取一个紧凑的表示数据，步骤4.对提取的剪辑图片预先训练好的VGG19模型提取每一帧的CNN特征。

2.根据权利要求1所述的一种多任务学习网络对警犬动作进行动态识别的方法，其特征在于：所述的步骤1.对生成骨架序列的片段，其中，将一个任意长度的骨架序列被转换成三个剪辑，每个剪辑由几个灰度图像组成，将生成的剪辑输入到深度CNN模型中提取CNN特征，用于MTLN的动作识别，将原始骨架序列转换为一组包含多幅图像的视频剪辑，从而实现深度神经网络的时空特征学习，直观地将骨架序列中每一帧的内容表示为图像，生成视频。

3.根据权利要求2所述的一种多任务学习网络对警犬动作进行动态识别的方法，其特征在于：所述的步骤2.模型训练将每个特征向量的分类视为一个单独的任务，由一个特征向量联合学习多个分类器，输出多个预测，每个预测对应一个任务，同一骨架序列的所有特征向量具有与骨架序列相同的标签，在训练过程中，每个任务的损失值都是用自己的分数单独计算出来的，然后对所有任务的损耗值进行求和，定义网络的总损耗，并以此来学习网络参数。

4.根据权利要求3所述的一种多任务学习网络对警犬动作进行动态识别的方法，其特征在于：步骤3.利用深度CNN从生成的每一帧剪辑图片中提取一个紧凑的表示数据，首先使用一个深度的CNN来提取每一帧剪辑的紧凑表示，由于每一帧都描述了骨骼序列的时间动态，因此每一帧的CNN空间不变特征可以代表骨骼序列的鲁棒时间信息。

5.根据以上任意一条权利要求所述的一种多任务学习网络对警犬动作进行动态识别的方法，其特征在于：使用步骤2中预先训练好的VGG19模型提取每一帧的CNN特征，预训练的VGG19模型包含5组卷积层conv1,conv2，…,conv5，每个集合包括一个由2或4个卷积层组成的堆栈，具有相同的卷积核大小，该网络共有16个卷积层和3个全连接层，使用ImageNet预训练的模型提取的CNN特征非常强大，因此可以将预训练的CNN模型用作特征提取器。