CN109978013A

CN109978013A - 一种用于人物动作识别的深度聚类方法

Info

Publication number: CN109978013A
Application number: CN201910166016.2A
Authority: CN
Inventors: 吴永贤; 李金德; 王婷
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2019-03-06
Filing date: 2019-03-06
Publication date: 2019-07-05
Anticipated expiration: 2039-03-06
Also published as: CN109978013B

Abstract

本发明公开了一种用于人物动作识别的深度聚类方法，包括步骤：1)给定人物动作识别视频数据库提取的特征点数据集；2)构建多堆叠自编码器网络和深度神经网络组成的深度聚类网络；3)训练深度聚类网络；4)使用训练好的深度聚类网络进行聚类；5)使用聚类的结果构建词向量，用于人物动作识别。本发明联合多堆叠自编码器网络和深度神经网络组成深度聚类网络执行聚类任务，使用聚类中心软分配策略构建更好的词向量，有效提高人物动作识别的正确率。

Description

一种用于人物动作识别的深度聚类方法

技术领域

本发明涉及视频动作检测和分类的技术领域，尤其是指一种用于人物动作识别的深度聚类方法。

背景技术

人物动作识别是计算机视觉领域最基础的研究主题之一。局部表征方法由于较好的性能，经常被用于人物动作识别以及其他的计算机视觉领域。局部特征提取器从每个视频提取出来的局部特征点的数目往往是不一样，不能直接用于分类任务。局部表征方法可以用来解决这个问题，其主要思想是将特征点数目不一的视频表示成定长的向量，以适应分类任务的需求。词向量模型是最常用的局部表征方法，被广泛应用在语义分析、图像匹配以及人物动作识别等计算机视觉任务上。

传统聚类算法kMeans是最常用的构建词向量模型的算法，其简单高效，但是本身有一些局限性。首先，由于kMeans的空间复杂度和时间复杂度与聚类中心的个数和聚类样本的个数成正比，故而无法应用在具有大规模样本的数据集和大量聚类中心的任务上。其次，一般应用kMeans算法来构建词向量模型的时候，为了规避维度灾难，会选择少部分样本进行聚类，这样会造成重要信息的丢失，直接影响后续的人物动作识别任务的性能。最后，在用kMeans算法为视频构建词向量的时候，使用聚类中心硬分配策略，即对视频所有的特征点所属的聚类中心进行计数，但不考虑其他聚类中心，这样会造成信息的不连续性，也会影响后续人物动作识别任务的性能。

深度神经网络在监督学习任务如图像分类上获得了卓越的性能，而且被广泛应用于特征学习和数据降维的无监督学习任务中。聚类和分类从本质上来说是相同的，区别在于分类的目标是预测样本属于哪一个标签，聚类的任务是预测样本属于哪一个聚类中心。故而我们可以将用于分类的深度神经网络进行适当的修改就可以用于聚类任务中。相比于kMeans聚类算法，使用深度聚类网络有以下一些优点：首先，当聚类中心的个数确定时，深度聚类的时间复杂度和空间复杂度为常数，与数据集的样本个数无关；其次，通过迭代，我们可以使用数据集的所有样本进行聚类，这样避免了信息丢失。最后，由于深度聚类最后的输出是特征点属于每一个聚类中心的概率，在为视频构建词向量模型的时候，使用聚类中心软分配策略，除了考虑特征点所属聚类中心的信息，也考虑了其他聚类中心的信息，这样避免了信息的不连续性。因此，在用于百万甚至更多数量级特征点的视频数据集上，使用深度聚类来替代kMeans算法来构建词向量模型在人物动作识别中具有重要的应用价值，如何更好地选择深度聚类网络的结构也具有重要的研究价值。

本发明提供一种用于人物动作识别的深度聚类方法，将多堆叠自编码器网络和深度神经网络联合起来组成深度聚类网络执行聚类任务，使用端到端的方法同时优化多堆叠自编码器网络和深度神经网络的参数来训练深度聚类网络，使用聚类中心软分配策略构建更好的词向量，从而有效提高人物动作识别的正确率。

发明内容

本发明的目的在于克服用于构建词向量模型的传统聚类算法kMeans的缺点和不足，提出了一种用于人物动作识别的深度聚类方法，突破kMeans算法存在的时间复杂度和空间复杂度太高、关键特征点丢失以及聚类中心硬分配策略构建词向量模型造成信息不连续等问题，联合多堆叠自编码器网络和深度神经网络组成深度聚类网络执行聚类任务减少时间复杂度和空间复杂度，使用聚类中心软分配策略构建更好的词向量，提高人物动作识别的正确率。

为实现上述目的，本发明所提供的技术方案为：一种用于人物动作识别的深度聚类方法，包括以下步骤：

1)给定人物动作识别视频数据库提取的特征点数据集；

2)构建多堆叠自编码器网络和深度神经网络组成的深度聚类网络；

3)训练深度聚类网络；

4)使用训练好的深度聚类网络进行聚类；

5)使用聚类的结果构建词向量，用于人物动作识别。

在步骤1)中，所述特征点数据集是指通过视频局部特征提取器，提取得到的人物动作识别视频数据库的局部特征点集合；每个视频可能提取到不同数目的特征点，但特征点的维度保持一致。

在步骤2)中，所述多堆叠自编码器网络由多个堆叠自编码器组成，每个自编码器使用相同的网络结构，但是使用不同的激活函数；多堆叠自编码器网络中每一个自编码器的输入均为特征点数据集中的每一个样本，输出为输入样本的重建样本；将每个自编码器的最后一层编码层的输出进行连结操作得到新的特征向量；将新的特征向量作为深度神经网络的输入，得到聚类的结果；深度神经网络的最后一层的激活函数是softmax，其作用是预测深度聚类网络的输入属于每一个聚类中心的概率。

在步骤3)中，训练深度聚类网络时所使用的损失函数公式如下：

L(REC,CLU,W)＝L(REC)+αL(CLU)+βL(W)

其中，L(REC)为多堆叠自编码器网络的重建损失，L(CLU)为深度神经网络的聚类损失，L(W)为权重衰减；α为聚类损失L(CLU)的平衡系数，β为权重衰减L(W)的平衡系数；

所述多堆叠自编码器网络的重建损失的计算公式如下：

深度神经网络的聚类损失的计算公式如下：

权重衰减的计算公式如下：

其中，X和X'分别为自编码器的输入样本和重建样本；p_ij为样本i属于聚类中心j的预测概率，q_ij为样本i属于聚类中心j的期望概率；N为视频数据库的特征点数据集的样本数目，K为指定的聚类中心的数目；W是深度聚类网络中所有的权重参数；对于多堆叠自编码器网络的重建损失，采用输入自身X和经过网络重建的结果X'做最小二乘运算；对于深度神经网络的聚类损失，由深度神经网络输出的预测概率P通过非线性转换得到目标概率Q，再对预测概率P和目标概率Q求聚类损失，预测概率P为由p_ij组成的矩阵，目标概率Q为由q_ij组成的矩阵；由预测概率P得到目标概率Q的非线性转换的具体做法如下：

其中，m为使用小批量随机梯度算法时每次迭代采用的小批量特征点的个数；p_ik为样本i属于聚类中心k的预测概率，q_ik为样本i属于聚类中心k的期望概率；同理，p_ik'为样本i属于聚类中心k'的预测概率，p_i'k'为样本i'属于聚类中心k'的预测概率；对于权重衰减的计算中，先对W的所有元素进行平方，再对W的平方后的所有元素进行求和；

在网络训练阶段，使用端到端的方法，同时优化多堆叠自编码器网络和深度神经网络；在正向传播过程中，多堆叠自编码器网络中通过正向传播，分别得到每个自编码器的重建样本；将多堆叠自编码器网络的最后一层编码层的输出进行拼接，得到的新向量作为深度神经网络的输入，通过正向传播，获得新向量属于每一个聚类中心的预测概率以及目标概率；在反向传播过程中，通过计算重建损失，聚类损失以及权重衰减，同时更新两个自编码器网络和深度神经网络；重复交替前向传播和反向传播过程，直到整体损失收敛后停止训练；在每轮的训练过程中，采用小批量随机梯度下降算法，同时优化两个自编码器网络和深度神经网络的参数。

在步骤4)中，由于深度聚类网络的多堆叠自编码器网络中每一个自编码器的输入均为特征点数据集中的每一个样本，输出为输入样本的重建样本；将每个自编码器的最后一层编码层的输出进行连结操作得到新的特征向量；将新的特征向量作为深度神经网络的输入，得到聚类的结果；深度神经网络的最后一层的激活函数是softmax，其作用是预测深度聚类网络的输入属于每一个聚类中心的概率。

在步骤5)中，词向量的构建使用聚类中心软分配策略，构建方法具体如下：

其中，v_j是当前视频的词向量v第j个聚类中心对应的分量，n是当前视频特征点的个数，p_ij为样本i属于聚类中心j的预测概率；构建得到的词向量经过归一化后，进行分类器的训练和预测；归一化的方法具体如下：

v＝(v/v_max+1)/2

其中，v_max为当前视频的词向量v中元素的最大值。

本发明与现有技术相比，具有如下优点与有益效果：

1、本发明首次使用深度聚类算法替代传统聚类算法kMeans执行聚类任务，使用聚类中心软分配策略，构建更好的词向量，有效提高了人物动作识别的正确率。

2、本发明联合多堆叠自编码器网络和深度神经网络组成深度聚类网络执行聚类任务；通过多堆叠自编码器网络，将原始输入映射到多个特征空间，再将多个特征空间的特征进行组合，得到的新特征具有更好的稳健性和判别性。

3、本发明同时训练多堆叠自编码器网络和深度神经网络，使多堆叠自编码器网络能够学习到更有利于聚类任务的特征。

4、本发明使用小批量随机梯度下降算法训练多堆叠自编码器网络和深度神经网络组成的深度聚类网络，解决了kMeans算法存在的时间复杂度和空间复杂度太高以及关键特征点丢失的问题。

5、本发明使用聚类中心软分配策略构建词向量，解决了聚类中心硬分配策略构建词向量模型造成的信息不连续问题。

附图说明

图1为本发明逻辑流程示意图。

图2为本发明所使用的深度聚类网络结构示意图。

具体实施方式

下面结合具体实施例对本发明作进一步说明。

如图1所示，本实施例所提供的用于人物动作识别的深度聚类方法，包括以下步骤：

1)给定人物动作识别视频数据库提取的特征点数据集；其中，所述特征点数据集是指通过视频局部特征提取器，提取得到的人物动作识别视频数据库的局部特征点集合；每个视频可能提取到不同数目的特征点，但特征点的维度保持一致；本实例采用STIP视频特征提取器，得到长度为162维的视频特征点。

2)如图2所示，构建多堆叠自编码器网络和深度神经网络组成的深度聚类网络；其中，多堆叠自编码器网络由多个堆叠自编码器组成，每个自编码器使用相同的网络结构，但是使用不同的激活函数；多堆叠自编码器网络中每一个自编码器的输入均为特征点数据集中的每一个样本，输出为输入样本的重建样本；将每个自编码器的最后一层编码层的输出进行连结操作得到新的特征向量；将新的特征向量作为深度神经网络的输入，得到聚类的结果；深度神经网络的最后一层的激活函数是softmax，其作用是预测深度聚类网络的输入属于每一个聚类中心的概率；本实例采用两个堆叠自编码器，激活函数分别为tanh函数和sigmoid函数。

3)训练深度聚类网络；训练深度聚类网络时所使用的损失函数公式如下：

L(REC,CLU,W)＝L(REC)+αL(CLU)+βL(W)

其中，L(REC)为多堆叠自编码器网络的重建损失，L(CLU)为深度神经网络的聚类损失，L(W)为权重衰减；α为聚类损失的平衡系数L(CLU)，β为权重衰减L(W)的平衡系数；

所述多堆叠自编码器网络的重建损失的计算公式如下：

深度神经网络的聚类损失的计算公式如下：

权重衰减的计算公式如下：

其中，X和X'分别为自编码器的输入样本和重建样本；p_ij为样本i属于聚类中心j的预测概率，q_ij为样本i属于聚类中心j的期望概率；N为视频数据库的特征点数据集的样本数目，K为指定的聚类中心的数目；W是深度聚类网络中所有的权重参数；对于多堆叠自编码器网络的重建损失，采用输入自身X和经过网络重建的结果X'做最小二乘运算；对于深度神经网络的聚类损失，由深度神经网络输出的预测概率P(由p_ij组成的矩阵)通过非线性转换得到目标概率Q(由q_ij组成的矩阵)，再对预测概率P和目标概率Q求聚类损失；由预测概率P得到目标概率Q的非线性转换具体做法如下：

其中，m为使用小批量随机梯度算法时每次迭代采用的小批量特征点的个数；p_ik为样本i属于聚类中心k的预测概率，q_ik为样本i属于聚类中心k的期望概率；p_ik'为样本i属于聚类中心k'的预测概率，p_i'k'为样本i'属于聚类中心k'的预测概率；对于权重衰减的计算中，先对W的所有元素进行平方，再对W的平方后的所有元素进行求和；本实例中，K指定为4000，α和β分别为0.01和0.0001。

在网络训练阶段，使用端到端的方法，同时优化多堆叠自编码器网络和深度神经网络；在正向传播过程中，多堆叠自编码器网络中通过正向传播，分别得到每个自编码器的重建样本；将多堆叠自编码器网络的最后一层编码层的输出进行拼接，得到的新向量作为深度神经网络的输入，通过正向传播，获得新向量属于每一个聚类中心的预测概率以及目标概率；在反向传播过程中，通过计算重建损失，聚类损失以及权重衰减，同时更新两个自编码器网络和深度神经网络；重复交替前向传播和反向传播过程，直到整体损失收敛后停止训练；在每轮的训练过程中，采用小批量随机梯度下降算法，同时优化两个自编码器网络和深度神经网络的参数；本实例中，小批量随机梯度下降算法中的学习率和动量分别为0.01和0.9。

4)使用训练好的深度聚类网络进行聚类；多堆叠自编码器网络中每一个自编码器的输入均为特征点数据集中的每一个样本，输出为输入样本的重建样本；将每个自编码器的最后一层编码层的输出进行连结操作得到新的特征向量；将新的特征向量作为深度神经网络的输入，得到聚类的结果。深度神经网络的最后一层的激活函数是softmax，其作用是预测深度聚类网络的输入属于每一个聚类中心的概率。

5)使用聚类的结果构建词向量，用于人物动作识别；词向量的构建使用聚类中心软分配策略，构建方法具体如下：

其中，v_j是当前视频的词向量v第j个聚类中心对应的分量，n是当前视频特征点的个数。构建得到的词向量经过归一化后，进行分类器的训练和预测；归一化的方法具体如下：

v＝(v/v_max+1)/2

其中，v_max为当前视频的词向量v中元素的最大值。本实例使用径向基函数神经网络作为人物动作识别任务的分类器。

以上所述实施例只为本发明之较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围内。

Claims

1.一种用于人物动作识别的深度聚类方法，其特征在于，包括以下步骤：

1)给定人物动作识别视频数据库提取的特征点数据集；

3)训练深度聚类网络；

4)使用训练好的深度聚类网络进行聚类；

5)使用聚类的结果构建词向量，用于人物动作识别。

2.根据权利要求1所述的一种用于人物动作识别的深度聚类方法，其特征在于：在步骤1)中，所述特征点数据集是指通过视频局部特征提取器，提取得到的人物动作识别视频数据库的局部特征点集合；每个视频可能提取到不同数目的特征点，但特征点的维度保持一致。

3.根据权利要求1所述的一种用于人物动作识别的深度聚类方法，其特征在于：在步骤2)中，所述多堆叠自编码器网络由多个堆叠自编码器组成，每个自编码器使用相同的网络结构，但是使用不同的激活函数；多堆叠自编码器网络中每一个自编码器的输入均为特征点数据集中的每一个样本，输出为输入样本的重建样本；将每个自编码器的最后一层编码层的输出进行连结操作得到新的特征向量；将新的特征向量作为深度神经网络的输入，得到聚类的结果；深度神经网络的最后一层的激活函数是softmax，其作用是预测深度聚类网络的输入属于每一个聚类中心的概率。

4.根据权利要求1所述的一种用于人物动作识别的深度聚类方法，其特征在于：在步骤3)中，训练深度聚类网络时所使用的损失函数公式如下：

L(REC,CLU,W)＝L(REC)+αL(CLU)+βL(W)

所述多堆叠自编码器网络的重建损失的计算公式如下：

深度神经网络的聚类损失的计算公式如下：

权重衰减的计算公式如下：

5.根据权利要求1所述的一种用于人物动作识别的深度聚类方法，其特征在于：在步骤4)中，由于深度聚类网络的多堆叠自编码器网络中每一个自编码器的输入均为特征点数据集中的每一个样本，输出为输入样本的重建样本；将每个自编码器的最后一层编码层的输出进行连结操作得到新的特征向量；将新的特征向量作为深度神经网络的输入，得到聚类的结果；深度神经网络的最后一层的激活函数是softmax，其作用是预测深度聚类网络的输入属于每一个聚类中心的概率。

6.根据权利要求1所述的一种用于人物动作识别的深度聚类方法，其特征在于：在步骤5)中，词向量的构建使用聚类中心软分配策略，构建方法具体如下：

v＝(v/v_max+1)/2

其中，v_max为当前视频的词向量v中元素的最大值。