CN108921047B

CN108921047B - 一种基于跨层融合的多模型投票均值动作识别方法

Info

Publication number: CN108921047B
Application number: CN201810598988.4A
Authority: CN
Inventors: 罗会兰; 严源
Original assignee: Jiangxi University of Science and Technology
Current assignee: Jiangxi University of Science and Technology
Priority date: 2018-06-12
Filing date: 2018-06-12
Publication date: 2021-11-26
Anticipated expiration: 2038-06-12
Also published as: CN108921047A

Abstract

一种基于跨层融合的多模型投票均值动作识别方法，通过改进动作识别模型，借助多种参数设置，构建多模型投票均值的动作识别系统。利用近似排序池化方法，聚集视频中的运动信息生成一张RGB图像即近似动态图像。对近似动态图像进行水平翻转操作，使得视频数据量翻倍。将视频数据输入到卷积神经网络模型前，对模型进行改进。同时，在将卷积神经网络模型提取到的卷积特征输入全连接层前，对卷积特征进行水平翻转操作，直接增加卷积特征的数据量。多次设置多个不同的参数对模型进行训练，得到多个不同的预训练模型，采用集成学习的思想，构造多模型投票均值的识别系统。本发明多模型投票均值系统可增强系统的鲁棒性，进一步提高识别率。在工程领域中具有现实的应用价值。

Description

一种基于跨层融合的多模型投票均值动作识别方法

技术领域

本发明属于计算机视觉领域，涉及动作类视频的预处理、动作识别模型的改进、多个动作动作识别模型的融合以及动作识别。

背景技术

作为计算机视觉中的重要分支，动作识别主要是采用一系列方法识别视频中的某一动作。目前，对动作识别的研究及应用发展较快，特别是传统的动作识别方法经过几十年的发展，变得更加成熟。比较经典的传统方法可大致分为以下几类：流形学习法、轨迹法和重叠法。而在近些年借助硬件GPU等的快速发展，深度动作识别取得了飞快的发展。比较著名的用于动作识别的模型有AlexNet模型、VGGNet模型、Google Inception Net模型以及ResNet模型，等等。当今许多更高效率的动作识别系统及其应用正在研究和不断探索中。

相对于传统的动作识别方法，基于跨层融合的多模型投票动作识别方法中的动作识别模型是深度动作模型，更适合用于提取更有效的人体动作的特征，并且提取的动作特征泛化能力强、更加有利于识别视频中的动作。相对于深度模型相比，本发明的跨层融合模型可保证特征在传输过程完整性，即通过跨层融合结构识别前面层的特征直接传输到后面去。此外，在动作识别中，单个动作识别模型的识别率对动作的预处理比较敏感，预处理结果细微的差异或者动作类模糊等等，其动作的识别准确率也会相差甚远，特别是动作类间相似性较高的动作如快跑和慢跑。而基于跨层融合的多模型投票动作识别方法由于是融合了多个动作识别模型，识别的准确率是多个模型的平均值，因此多模型具有较强的鲁棒性。

发明内容

本发明的目的是提出跨层融合的多模型投票系统的动作识别设计方法。

本发明通过近似排序池化的方法，将视频压缩成一张RGB图像即近似动态图像，该方法可有效压缩视频数据，减少冗余的视频数据。为避免过度压缩视频数据，并增加卷积神经网络模型训练的数据量，对近似动态图像进行水平翻转操作。同时为增加动作识别模型中全连接层训练的数据量，对模型提取到的卷积特征进行水平翻转，使得全连接的参数可得到充分的训练，为便于描述称此模型为无融合模型。在无融合模型的基础上，参考残差网络模型的等值映射结构，构造跨层融合模型。采用三种视频数据划分方式以及两种生成近似动态图像的顺序在无融合模型以及跨层融合模型上分别进行训练，得到多个不同的分类器。通过集成的思想将所有分类器进行融合，构成多模型投票的动作识别系统。事实上，多模型投票的识别系统比其它单个动作识别系统鲁棒性更强，更具有现实意义，因此其具有重要的实际应用价值。

本发明通过以下技术方案实现的。

本发明所述的一种基于跨层融合的多模型投票均值动作识别方法，包括以下步骤：

步骤(1)：在排序池化操作的基础上，构建近似排序池化的方法聚集视频中的动作信息，生成近似动态图像；

步骤(2)：对近似动态图像进行水平翻转操作，使得图像的数据量翻倍；

步骤(3)：在动态网络模型的基础上，对卷积神经网络提取到的动作特征进行水平翻转操作，使得可区别的动作特征数据量翻倍，为便于区分，将此模型定义为无融合模型；

步骤(4)：对无融合模型添加跨层融合结构，即将模型第二层的输出与模型第五层的输出进行融合，构建跨层融合模型；

步骤(5)：采用三种数据划分方式以及两种生成近似动态图像的顺序在无融合模型以及跨层融合模型上分别进行训练，得到多个不同的分类器；

步骤(6)：采用集成学习的思想将多个已训练好的动作模型进行融合，同时借助投票的方法，构成多模型投票均值的动作识别系统；

步骤(7)：随机抽取验证集中的视频数据，按照步骤(1)的方法生成近似动态图像，并将近似动态图像输入到多模型投票均值的识别系统中，即可得到动作类的识别准确率。

所述的近似排序池化是指通过视频的编码函数聚集一段视频中的运动信息。由于相同的动作视频都可用同一个函数近似表示，因此我们可以通过一个函数来表示一类动作。这个函数可聚集视频中的运动信息，将这些运动信息映射到一张RGB图像即可得到动态图像。鉴于卷积神经网络模型中具有大量的归一化操作，因此加快视频的预处理，不对运动信息进行归一化，即可得到近似动态图像。

所述三种数据划分方式是指将训练集中的视频数据按照不重叠的方式进行划分，例如：某一动作类有十五个视频数据，第一种数据划分方式是将前十个视频数据当作训练集，后五个视频数据用作验证集；第二种数据划分方式是前五个和后五个视频数据用作训练集，中间五个视频数据用作验证集；第三种数据划分方式是将后十个视频数据用作训练集，前五个视频数据用作验证集。

所述的两种生成近似动态图像的顺序是指在将视频帧聚集成近似动态图像时，可以按视频帧的顺序输入，也可以将视频帧按反序输入，这两种方式都可生成近似动态图像，而且生成的近似动态图像都不一样。

更进一步地，本发明所述的跨层融合的多模型投票均值动作识别系统方法，其具体步骤如下：

(S1)：近似动态图像设计。

在排序池化的基础上：

假设有一段共包含N帧的视频I₁,I₂,...,I_t,...,I_N，其中I_t表示视频I中的第t帧图像。用式(1)计算从第一帧到第t帧的平均特征向量Vt，其中

表示第t帧图像的特征向量。

通过优化式(2)学习一个参数向量d^*来表示视频信息，其中S(t|d)＝d^T·V_t用于计算视频第t帧的得分，即用向量d与到t时刻为止的动作特征向量平均值V_t的点积作为I_t的得分。

学习到的最优参数向量d^*包含了可对视频帧进行排序的信息，同时也聚集了视频帧中所有的运动信息，因此d^*可看作是视频的描述符。向量d^*具有与每帧特征向量相同的维度，可以看成是一个特征图像，称为视频的动态图像。虽然借助现代高性能的计算机可进行精确的动态图像运算，但会导致程序的运行时间长且内存消耗大。Bilen等人对排序池化操作进行优化，提出近似排序池化方法，该方法可有效地加快视频动态图像的生成。近似排序池化操作是利用式(2)梯度优化的第一步实现的。设初始

通过应用一次梯度下降得到

可得

其中β_t是尺度系数，由推导可知β_t＝2t-N-1。

将平均特征向量V_t用特征向量ψ_t的平均值形式表达，d^*可改写为ψ_t的线性组合形式，即

推导可得系数α_t为式(6)所示：

α_t＝2(N-t+1)-(N+1)(H_N-H_t-1) (6)

式(6)中

H₀＝0。

通过式(5)构建了一个产生近似动态图像的系统，对其进行分析，并通过Matlab数值仿真，确定近似动态图像的有效性。

(S2)：近似动态图像水平翻转，在(S1)基础上对近似动态图像进行水平翻转操作。该方法直接增加近似动态图像的数据量，使得卷积神经网络模型的参数可得到充分训练。

(S3)：无融合模型。

对卷积神经网络模型提取到的卷积特征信息进行水平翻转操作，为便于描述将此模型称为无融合模型。该方法直接增加具有动作可区别性的动作特征信息。

(S4)：设计跨层融合模型。

若卷积神经网络模型的中间层的某一个输入数据是x，期望的输出结果是H(x)，如果直接将输入的数据x传到输出作为一个新的初始结果，此时需要学习训练的目标就是F(x)＝H(x)-x。即不再学习一个完整的输出H(x)，而是学习模型的输出与输入的差H(x)-x。因此这里提出跨层融合模型的融合方法如下：

依据卷积网络模型提取到的特征可视化分析方法可知，网络模型的前两层卷积层可提取到的特征主要为颜色和边缘等最底层的特征信息，而第三个卷积层提取到的特征以纹理特征信息为主，第四个卷积层提取的特征开始比较有可区别性，第五层提取到特征最完整，而且是比较关键的判别性特征。依据网络模型各层提取到的特征信息的特点，为解决深度卷积神经网络模型传输过程中的特征损失问题，因而将第二个卷积层的输出特征与第五个卷积层的输出特征相融合，保证特征信息的完整性。鉴于相融合的两张特征图含有的特征信息不一样，对特征图融合的权重问题进行了实验分析和探讨。

(S5)：多模型参数设计。

设计模型训练的参数图。对同一个模型框架采用多种不同的训练数据训练即可得到多种不同的模型。通过采用三种视频数据划分方式以及两种生成近似动态图像的顺序在无融合模型以及跨层融合模型上分别进行训练，可得到多个不同的分类器。

(S6)多模型投票识别系统及仿真实验。

对(S5)中的多个不同的分类器采用集成的思想，并借助投票的策略进行融合，构成多模型投票的动作识别系统。

通过随机抽取验证集中的视频数据通过(S1)生成近似动态图像以及(S2)进行水平翻转后，输入到多模型中进行动作识别。

有益效果

本发明中的基于跨层融合的多模型投票动作识别方法，其中添加了第二层和第五层融合结构的跨层融合模型与原模型相比，可以有效地降低模型特征在网络模型中传输时的损失问题，保证特征的完整性，而且跨层融合模型中在预处理前和全连接层分别对生成的近似动态图像和提取到的特征信息进行水平翻转操作，直接增加了图像的数据量和有效特征的数据量，有利于提高模型的动作识别率，特别是增加有效可区别的特征信息的数据量直接降低了模型的过拟合现象；而多模型投票的方法可以集成多个动作识别模型，通过多个模型计算同一个动作类的识别率，降低深度学习中单一动作识别模型识别率的随机性，因此多模型的动作识别模型分类更加可靠且具有更强的鲁棒性，识别率比其它动作识别方法如基于时间流和空间流的双流网络模型更加优越。

附图说明

图1为本发明多模型投票均值识别的流程图。

图2为本发明无融合模型框架图。

图3为本发明跨层融合模型框架图。

图4为本发明多模型参数生成图。

图5为本发明多模型投票均值识别框架图。

图6为本发明多种融合权重准确率对比图。

图7为本发明UCF101数据集中五类经典近似动态图像图。

图8为本发明近似动态图像正反序对比图。

具体实施方式

以下将结合附图对本发明作进一步详细描述，本发明的多模型投票均值识别的流程图如图1所示。

1：近似动态图像设计。

在近似动态图像公式基础上，选取一段长为100帧的转呼啦圈的动作视频，部分参数：T＝100，t＝10，其余皆选择为0，则近似动态图像公式变为：

依据式(7)以及上述参数，借助Matlab进行编程，可得这段视频总共可生成10张转呼啦圈动作的近似动态图像。部分经典动作类的近似动态图像如图7所示。

2.近似动态图像水平翻转。

对生成的10张转呼啦圈动作的近似动态图像进行水平翻转操作，即在Matlab中，借助fliplr()函数可对转呼啦圈动作近似动态图像进行水平翻转操作，如图8所示。翻转前后该视频总共可得20张不同的转呼啦圈动作近似动态图像。

3.无融合模型设计。

翻转前后的转呼啦圈动作近似动态图像经过卷积神经网络模型的卷积层后，可提取到具有动作区分性的动作特征信息。这些动作特征信息数据量较少，而动作识别网络模型的参数主要集中在全连接层，因此为使全连接层参数可得到充分训练，本发明在将转呼啦圈动作特征信息输入到全连接层前对其进行水平翻转操作，即在模型最后的一个卷积层与第一个全连接层之间添加一个水平翻转的结构。为便于描述，本发明将此模型结构称为无融合模型，如图2所示。同样，借助fliplr()函数对转呼啦圈动作特征信息进行水平翻转操作。

4.跨层融合模型设计。

在无融合模型中，将无融合模型的第二个卷积层的输出特征与第五个卷积层的输出特征相融合，即第五层最终的输出特征信息为第二层特征信息与第五层特征信息的融合，融合后的特征信息继续向后传输识别。为便于描述，此模型为融合模型，如图3所示。由于每个卷积层输出的特征信息不一样，为得到更好的识别效果，图6对跨层融合的权重参数进行了探讨。

5.多模型参数设计。

在训练模型阶段，采用三种视频数据划分方式以及两种生成近似动态图像的顺序在无融合模型以及跨层融合模型上分别进行训练，得到12个不同的分类器，如图4所示。

6.多模型投票识别系统鲁棒性分析。

将步骤2中的20张转呼啦圈动作近似动态图像输入到多模型投票系统中进行系统鲁棒性分析，多模型如图5所示。比较多种模型的平均动作识别准确率，如表1所示。

表1三种相似框架模型转呼啦圈动作平均识别率

模型	动态网络	跨层融合	多模型
				平均识别率	70.9％	83.03％	83.87％

由于本发明所选取的转呼啦圈动作视频数据是随机抽取的，故理论上证明多模型动作识别系统鲁棒性较好。

在表1中的转呼啦圈动作的实验结果是经过多次实验得到的，因此多次实验结果表明，本发明的跨层融合模型能很好地将前面层的特征信息直接传输到后面去，保证特征信息在传输过程的完整性；本发明的多模型投票的动作识别系统比跨层融合模型的识别准确率好，高0.84％。即通过多模型的投票机制不仅可以克服多个模型的随机性，在一定程度上保证动作的识别率。

Claims

1.一种基于跨层融合的多模型投票均值动作识别方法，包括以下步骤：

步骤(7)：随机抽取验证集中的视频数据，按照步骤(1)的方法生成近似动态图像，并将近似动态图像输入到多模型投票均值的识别系统中，即可得到动作类的识别准确率；

所述三种数据划分方式是指将训练集中的视频数据按照不重叠的方式进行划分，某一动作类有十五个视频数据，第一种数据划分方式是将前十个视频数据当作训练集，后五个视频数据用作验证集；第二种数据划分方式是前五个和后五个视频数据用作训练集，中间五个视频数据用作验证集；第三种数据划分方式是将后十个视频数据用作训练集，前五个视频数据用作验证集；

所述的两种生成近似动态图像的顺序是指在将视频帧聚集成近似动态图像时，按视频帧的顺序输入，将视频帧按反序输入，这两种方式都可生成近似动态图像，而且生成的近似动态图像都不一样。

2.如权利要求1所述的一种基于跨层融合的多模型投票均值动作识别方法，其特征在于：所述的近似排序池化是指通过视频的编码函数聚集一段视频中的运动信息；由于相同的动作视频都可用同一个函数近似表示，因此我们可以通过一个函数来表示一类动作；这个函数可聚集视频中的运动信息，将这些运动信息映射到一张RGB图像即可得到动态图像，鉴于卷积神经网络模型中具有大量的归一化操作，因此加快视频的预处理，不对运动信息进行归一化，即可得到近似动态图像。