CN115147864A

CN115147864A - 一种基于协同异质深度学习网络的红外人体行为识别方法

Info

Publication number: CN115147864A
Application number: CN202210612060.3A
Authority: CN
Inventors: 唐超; 童安炀
Original assignee: Hefei University
Current assignee: Hefei University
Priority date: 2022-05-31
Filing date: 2022-05-31
Publication date: 2022-10-04

Abstract

本发明公开了一种基于协同异质深度学习网络的红外人体行为识别方法，属于计算机视觉领域，包括如下步骤：首先，构建基于红外图像的动作的视图表征，分别构建同一动作的红外图像空间信息视图和红外光流时间信息视图；其次，分别搭建卷积神经网络和长短时记忆网络，构建出两个异质深度网络进行基于视图差异的异质网络协同训练，训练过程中采用基于多次输出一致性和置信度评估两种方法来挑选未标签数据；最后，通过协同训练好的异质网络模型进行特征提取并进行特征融合，然后输入到随机森林进行训练及分类识别，有效克服了深度学习和半监督学习在行为识别中存在的弊端，将深度学习和半监督学习结合进行人体行为完美识别。

Description

一种基于协同异质深度学习网络的红外人体行为识别方法

技术领域：

本发明涉及计算机视觉领域，尤其涉及一种基于协同异质深度学习网络的红外人体行为识别方法。

背景技术：

行为识别的目的是模拟人类的视觉感知功能，在不同的环境下准确的识别出行为的类别。目前，人体行为识别方法主要分为两类：手工特征提取方法[1]和深度学习方法[2]。

手工特征提取方法因其设计复杂、普适性低等原因逐渐被深度学习方法取代，随着深度学习在图像识别领域的成功应用，以及传统行为识别方法的弊端日益明显，研究者自然的将深度学习引入行为识别[3]。Karpathy等人[4]将视频的连续帧输入到卷积神经网络(Convolution Neural Network，CNN)，但CNN仅是对动作的空间信息进行理解，未对视频中动作的时序信息进行分析。但深度学习取得的优异成绩往往依靠大量的有标签数据。在现实生活中，数据集的标记往往需要消耗大量的人力、物力资源，难以获取。如何减少模型对有标签数据的依赖是行为识别一项挑战。

另外，随着视频行业的快速发展，含有丰富语义信息的无标签数据的获取日益便捷。如何通过挖掘大量无标记样本中的语义信息来提升识别系统的性能成为行为识别的另一项挑战。

人们为了解决标记数据带来的人力、物力损耗，同时充分利用未标记样本中的潜在信息，提出半监督学习(Semi-Supervised Learning,SSL)[5]，即使用少量的有标记样本，利用大量未标记样本来提升模型的识别性能。

半监督学习是结合监督学习和无监督学习的一种学习范式，在机器学习和数据挖掘等领域应用广泛，但与行为识别结合后主要出现两点限制：一方面是传统方法的特征提取复杂且不充分，另一方面是少量数据训练深度模型会产生过拟合。

目前，单独传统半监督解决人体行为识别的不足，主要体现在如下几方面：

传统的半监督学习解决人体行为识别往往依靠专家手工设计的特征点，这类特征点主要是凭借人们对几何学以及数学上的一些认识，对图像中的某一块特殊区域进行建模得到描述函数。典型的比如SIFT，利用差分高斯金字塔计算图像中比较特殊的点，再通过该点的领域信息对其进行描述，得到最终的描述函数。在对行为提取特征点时，通常会出现特征点扎堆的现象。显然，对于图像、视频中空间信息里纹理多的地方，特征点自然会提取得多。这将导致图像某一块位置提取到的特征点特别多，而其他区域提取到的点特别少，甚至是没有。

另一方面，手工特征提取方法难以提取深层特征，对行为的表征能力不强，在对无标记数据进行标记时预测准确度不高，往往会产生较多的错误标记，从而在分类器进行训练时会引入较多的噪声数据，导致模型没有较好的识别效率。

目前，单独深度学习解决人体行为识别的不足，主要体现在如下方面：

解释性差：传统特征提取算法总是有着良好的可解释性，即对每个算法都较好的提出优化目标，并可以给出几何表示；深度学习虽然是逐步进行提取，但是中间的神经元输出往往不呈现规律，输入与输出之间更没有因果性的表征。

模型设计及优化：深度学习的模型设计非常复杂，需要投入大量的人力、物力和时间进行开发新的算法和模型，目前大部分人只能使用现成的模型去解决人体行为识别问题；而且深度学习过程中会遇到梯度消失、爆炸等问题，除此之外，还会遇到局部最优值的问题，给训练带来了相当的困难。

训练速度：为了追求识别准确率的提升，神经网络层数不断增长、数据集不断扩充，导致计算强度大大增加，训练速度问题突出，需要在硬件和软件的不断更新中才能改善，其中所需成本越来越高。

数据集要求高：深度学习的性能好坏一方面取决于数据集的大小，如果不能进行大量有效的训练，往往会导致过拟合问题的出现；另外一方面依赖于训练数据的平衡性，当训练数据不平衡时，模型会把训练数据少的类别误识别为训练数据多的类别。

综上述，要解决行为识别中弊端，如何将深度学习和半监督学习结合进行人体行为识别，是目前亟待解决的难题。

参考文献如下：

1.Tang,C.,et al.,Using a Multilearner to Fuse Multimodal Features forHuman Action Recognition.Mathematical Problems in Engineering,2020.2020:p.4358728.

2.Das,B.and A.Saha,A Survey on Current Trends in Human ActionRecognition. 2021:Advances in Medical Physics and Healthcare Engineering.

3.Zyer,T.,D.S.Ak,and R.Alhajj,Human action recognition approacheswith video datasets—A survey.Knowledge-Based Systems,2021.222(6):p.106995.

4.Karpathy,A.,et al.Large-Scale Video Classification withConvolutional Neural Networks.in 2014IEEE Conference on Computer Vision andPattern Recognition. 2014.

5.Hady,M.and F.Schwenker,Semi-Supervised Learning.Journal of theRoyal Statistical Society,2006.172(2):p.530-530.

发明内容：

为了弥补现有技术问题，本发明的目的是提供一种基于协同异质深度学习网络的红外人体行为识别方法，将深度学习和半监督学习结合进行人体行为识别，有效克服了深度学习和半监督学习在行为识别中存在的弊端。

本发明的技术方案如下：

一种基于协同异质深度学习网络的红外人体行为识别方法，其特征在于，包括如下步骤：

步骤一、构建协同异质深度学习网络中的动作视图：基于红外图像的动作视图表征，分别构建同一动作的红外图像视图和红外光流视图；

步骤二，构建基于红外图像视图和红外光流视图的协同异质深度学习网络：分别搭建卷积神经网络和长短时记忆网络，构建出两个异质深度网络进行基于视图差异的异质网络协同训练，协同训练后获得两个异质的深度网络模型，分别是卷积神经网络模型和长短时记忆网络模型；

步骤三，对未标记样本评估：在两个异质的深度网络模型的协同训练过程中，采用一致性和置信度评估两种评估标准，多次输出选取可信度高的无标签数据纳入对方网络的训练集中，提高模型对动作潜在信息的理解能力，稳定的选取无标签数据添加伪标签；

步骤四：进行特征融合：协同训练后的两个异质的深度网络模型对全连接层的输出进行归一化，得到两个网络对同一动作预测出的不同结果，选取决策级融合中采用不同比例的加权融合进行分类，对比最大值融合，提高模型的泛化能力。

所述的基于协同异质深度学习网络的红外人体行为识别方法，其特征在于，所述的红外图像视图为红外图像空间信息视图，是直接获得的红外图像数据本身；

红外光流视图具体为红外光流时间信息视图，需通过红外图像视频构建出来。

所述的基于协同异质深度学习网络的红外人体行为识别方法，其特征在于: 所述红外光流视图构建过程如下，

给定基于红外图像视图的少量有标签数据

和大量无标签数据

从以下三个步骤构建红外光流视图：

1)、通过Farneback光流法Flow()，即公式(1)提取相邻两帧红外图像

间动作运动的x方向位移

和y方向位移

2)、使用Polar(),即公式(2)对

进行笛卡尔坐标转化极坐标，将得到的极径

和极角

通过Color()，即公式(3)进行颜色空间转化为灰度图

消除杂乱背景对行为识别的影响：

3)、对

使用直方图正规化方法进行图像增强，自动的调整灰度级范围以提高对比度和局部特征的表征能力，得到

对应的光流图

其中，I_max、I_min分别为

的最大、最小灰度级，[O_min,O_max]为

的灰度级范围；

构建出具有红图图像视图和红外光流视图的数据集

和

其中，view∈{Infra,Flow}。

所述的基于协同异质深度学习网络的红外人体行为识别方法，其特征在于: 所述协同异质深度学习网络的学习过程：

(a)、在有标记红外图像视图数据集和有标记红外光流视图数据集上分别训练卷积神经网络和长短时记忆网络，获得初始的卷积神经网络模型和长短时记忆网络模型；

(b)、初始化训练好的卷积神经网络模型对未标记红外图像视图数据集中部分子集进行预测标记，并从中挑选置信度较高的红外图像视图标记样本对应的红外光流视图数据加入到红外光流视图有标记样本集中用于训练更新长短时记忆网络模型；与此同时，初始化训练好的长短时记忆网络模型对未标记红外光流视图数据集中部分子集进行预测标记，并从中挑选置信度较高的红外光流视图标记样本对应的红外图像视图数据加入到红外图像视图有标记样本集中用于训练更新卷积神经网络模型；上述两个并行的协同训练过程通过多次迭代达到停机条件；

(c)、经过协同训练后，可以获得两个异质的深度网络模型，分别是卷积神经网络模型和长短时记忆网络模型，在预测的时候，通过对两个网络的进行加权决策级融合预测输出结果。

所述的基于协同异质深度学习网络的红外人体行为识别方法，其特征在于: 对未标记样本评估具体分别使用基于随机Dropout技术的卷积神经网络和长短时记忆网络对无标签数据进行多次输出，通过对模型多次输出的预测结果进行分析，依据置信度和一致性两种评估方法，稳定的选取无标签数据添加伪标签。

所述的基于协同异质深度学习网络的红外人体行为识别方法，其特征在于: 稳定的选取无标签数据步骤，

给定一个无标签样本

重复M次输入网络，基于随机失活技术得到M个部分神经元组成的子模型对

的N个类别的预测结果；其中，第m次的预测结果为P^(m)：

设定阈值τ，对

进行置信度评估

第m次预测的结果H^(m)＞τ时，conf^(m)＝1；当M次预测的最大概率H^(m)都超过阈值τ时，

证明

具有一定的可信度；否则

表明无标签样本

的可信度较低；

为避免模型对错误标记仍有较高置信度，以及模型的不确定性、偶然性因素的干扰，进一步对M次预测结果进行一致性评估

第m次预测结果

和第m+1次预测结果

一致时，cons^(m)＝1；当M个子模型的预测类别一致时，即

认为模型整体对

的预测是稳定、可信任的。

所述的基于协同异质深度学习网络的红外人体行为识别方法，其特征在于: 所述协同训练后的两个网络对全连接层的输出进行归一化，得到两个网络对同一动作预测出的不同结果P^view：

将P^RGB、P^Flow按比例α:β进行融合，其中，α+β＝1，得到测试集数据x的预测类别

与现有技术相比，本发明的优点如下：

1、本发明提出一种新的构建两个(或多个)近似代表充分独立的动作视图的协同异质深度网络学习方法，进而可以有效的训练出两个具有差异性的异质深度网络模型，有效解决了在协同半监督学习框架下，如果直接对同一个视频数据集训练两个同一类型深度网络，协同训练会使得两个深度网络在训练过程中趋于一致，使得协同深度学习训练失效的问题；

2、本发明在协同的深度模型在训练时，通过两种评估标准选取可信度高的无标签数据纳入训练集，提高模型对动作潜在信息的理解能力，挑选可靠且稳定的无标记样本加入训练集，确保了协同训练的有效性；

本发明具体使用基于随机Dropout技术的卷积神经网络(ResNet18)和长短时记忆网络对无标签数据进行多次输出，通过对模型多次输出的预测结果进行分析，依据置信度和一致性两种评估方法，稳定的选取无标签数据添加伪标签。

3、本发明基于不同动作视图协同训练后的两个异质网络可以得到同一行为的不同特征表征形式，协同训练结束的两个异质网络在决策层采用不同比例的加权融合进行分类，解决了单个网络无法从不同的角度对动作的类别进行评估，分类效果并不理想的缺陷。

附图说明：

图1为本发明的基于同一动作红外图像视图和红外光流视图的协同异质深度学习网络原理图。

具体实施方式：

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

步骤一、协同异质深度学习网络中动作视图构建技术：

在人体行为识别中，对于动作视频数据可以从多种不同的角度对其进行描述，例如：RGB视频图像数据，深度视频图像数据，或者红外视频图像数据，这多种描述构成事物的多个视图(Multi-view)。动作视频的多视图表示方法还能够发挥各个视图的优势。我们方法首先构建协同深度学习网络中两种动作视图，分别是红外图像视图和红外光流视图。红外图像视图就是红外图像数据本身，可以直接获得，而红外光流视图需要通过红外图像视频构建出来。

给定基于红外图像视图的少量有标签数据

和大量无标签数据

从以下三个步骤构建光流视图：

间动作运动的x方向位移

和y方向位移

2)、使用Polar(),即公式(2)对

进行笛卡尔坐标转化极坐标，将得到的极径

和极角

通过Color()，即公式(3)进行颜色空间转化为灰度图

消除杂乱背景对行为识别的影响：

3)、对

对应的光流图

其中，I_max、I_min分别为

的最大、最小灰度级，[O_min,O_max]为

的灰度级范围；

构建出具有红图图像视图和红外光流视图的数据集

和

其中，view∈{Infra,Flow}。

步骤二、协同异质深度学习网络设计

如图1所示，该网络的学习过程如下：

(b)、初始化训练好的卷积神经网络模型对未标记红外图像视图数据集中部分子集进行预测标记，并从中挑选置信度较高的红外图像视图标记样本对应的红外光流视图数据加入到红外光流视图有标记样本集中用于训练更新长短时记忆网络模型。与此同时，初始化训练好的长短时记忆网络模型对未标记红外光流视图数据集中部分子集进行预测标记，并从中挑选置信度较高的红外光流视图标记样本对应的红外图像视图数据加入到红外图像视图有标记样本集中用于训练更新卷积神经网络模型。上述两个并行的协同训练过程通过多次迭代达到停机条件；

(c)经过协同训练后，可以获得两个异质的深度网络模型，分别是卷积神经网络模型和长短时记忆网络模型，在预测的时候，通过对两个网络的进行加权决策级融合预测输出结果。

步骤三、未标记样本评估技术

设计出一种可靠的基于双视图协同异质深度学习网络算法，通过两种评估标准选取可信度高的无标签数据纳入对方网络的训练集中，提高模型对动作潜在信息的理解能力。具体分别使用基于随机Dropout技术的卷积神经网络(ResNet18) 和长短时记忆网络对无标签数据进行多次输出，通过对模型多次输出的预测结果进行分析，依据置信度和一致性两种评估方法，稳定的选取无标签数据添加伪标签。

给定一个无标签样本

的N个类别的预测结果；其中，第m次的预测结果为P^(m)：

设定阈值τ，对

进行置信度评估

证明

具有一定的可信度；否则

表明无标签样本

的可信度较低；

第m次预测结果

和第m+1次预测结果

一致时，cons^(m)＝1；当M个子模型的预测类别一致时，即

认为模型整体对

的预测是稳定、可信任的。

通过置信度和一致性两种评估方法，模型挑选出可靠的无标签数据，挖掘动作的潜在信息，减少错误标记对模型的影响，提高泛化能力。

步骤四、特征融合

基于不同视图协同训练后的多个网络可以得到同一行为的不同表征形式，而单个网络无法从不同的角度对动作的类别进行评估，分类效果并不理想。大量文献[6,7]证明，特征融合可以基于分类器学习到动作的不同信息表征进行互补从而提高识别的准确率。目前，主流的特征融合方法分为3种：像素级融合、特征级融合、决策级融合[8]。我们选取决策级融合中的加权融合方法，对比最大值融合，提高模型的泛化能力。

协同训练后的两个网络对全连接层的输出进行归一化，得到两个网络对同一动作预测出的不同结果P^view：

综上述，针对夜间行为识别问题，本发明首先构建基于红外图像的动作的视图表征，分别构建同一动作的红外图像空间信息视图和红外光流时间信息视图。其次，分别搭建卷积神经网络和长短时记忆网络，构建出两个异质深度网络进行基于视图差异的异质网络协同训练(Co-training)[9]，训练过程中采用基于多次输出一致性和置信度评估两种方法来挑选未标签数据。最后，通过协同训练好的异质网络模型进行特征提取并进行特征融合，然后输入到随机森林进行训练及分类识别，有效克服了深度学习和半监督学习在行为识别中存在的弊端。

本发明采用深度学习结合半监督学习，具有明显的优势：

1)、深度学习的出色性能往往依靠大量的有标记数据，然而，在现实生活中，有标记的数据集采集往往会消耗大量的人力物力损耗。我们将半监督学习引入深度学习中，依靠少量的无标记数据和大量的有标记数据，结合伪标签编辑、一致性正则化等半监督学习方法挖掘无标签数据中大量的潜在信息，用于训练深度学习的训练。

2)、同时，我们也解决了标记数据而带来的人力、物力损耗问题。在协同训练的思想上，通过不同视图的互补信息来提高动作的预测准确性，极大的降低在标记无标签数据过程中出现错误的概率。

参考文献：

6.Wang,H.,et al.,Dense Trajectories and Motion Boundary Descriptorsfor Action Recognition.International Journal of Computer Vision,2013.103(1):p.60-79.

7.Dollár,P.,et al.Behavior recognition via sparse spatio-temporalfeatures.in 2005 IEEE International Workshop on Visual Surveillance andPerformance Evaluation of Tracking and Surveillance.2005.IEEE.

8.Yang,J.,et al.,Feature fusion:parallel strategy vs.serialstrategy.Pattern recognition,2003.36(6):p.1369-1381.

9.Blum,A.and T.Mitchell.Combining Labeled and Unlabeled Data with Co-Training.in Proceedings of the 11th Annual Conference on ComputationalLearning Theory.1998.

以上所述的，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。