CN115147864A - 一种基于协同异质深度学习网络的红外人体行为识别方法 - Google Patents

一种基于协同异质深度学习网络的红外人体行为识别方法 Download PDF

Info

Publication number
CN115147864A
CN115147864A CN202210612060.3A CN202210612060A CN115147864A CN 115147864 A CN115147864 A CN 115147864A CN 202210612060 A CN202210612060 A CN 202210612060A CN 115147864 A CN115147864 A CN 115147864A
Authority
CN
China
Prior art keywords
infrared
view
collaborative
network
deep learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210612060.3A
Other languages
English (en)
Inventor
唐超
童安炀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University
Original Assignee
Hefei University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University filed Critical Hefei University
Priority to CN202210612060.3A priority Critical patent/CN115147864A/zh
Publication of CN115147864A publication Critical patent/CN115147864A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于协同异质深度学习网络的红外人体行为识别方法,属于计算机视觉领域,包括如下步骤:首先,构建基于红外图像的动作的视图表征,分别构建同一动作的红外图像空间信息视图和红外光流时间信息视图;其次,分别搭建卷积神经网络和长短时记忆网络,构建出两个异质深度网络进行基于视图差异的异质网络协同训练,训练过程中采用基于多次输出一致性和置信度评估两种方法来挑选未标签数据;最后,通过协同训练好的异质网络模型进行特征提取并进行特征融合,然后输入到随机森林进行训练及分类识别,有效克服了深度学习和半监督学习在行为识别中存在的弊端,将深度学习和半监督学习结合进行人体行为完美识别。

Description

一种基于协同异质深度学习网络的红外人体行为识别方法
技术领域:
本发明涉及计算机视觉领域,尤其涉及一种基于协同异质深度学习网络的红外人体行为识别方法。
背景技术:
行为识别的目的是模拟人类的视觉感知功能,在不同的环境下准确的识别出行为的类别。目前,人体行为识别方法主要分为两类:手工特征提取方法[1]和深度学习方法[2]。
手工特征提取方法因其设计复杂、普适性低等原因逐渐被深度学习方法取代,随着深度学习在图像识别领域的成功应用,以及传统行为识别方法的弊端日益明显,研究者自然的将深度学习引入行为识别[3]。Karpathy等人[4]将视频的连续帧输入到卷积神经网络(Convolution Neural Network,CNN),但CNN仅是对动作的空间信息进行理解,未对视频中动作的时序信息进行分析。但深度学习取得的优异成绩往往依靠大量的有标签数据。在现实生活中,数据集的标记往往需要消耗大量的人力、物力资源,难以获取。如何减少模型对有标签数据的依赖是行为识别一项挑战。
另外,随着视频行业的快速发展,含有丰富语义信息的无标签数据的获取日益便捷。如何通过挖掘大量无标记样本中的语义信息来提升识别系统的性能成为行为识别的另一项挑战。
人们为了解决标记数据带来的人力、物力损耗,同时充分利用未标记样本中的潜在信息,提出半监督学习(Semi-Supervised Learning,SSL)[5],即使用少量的有标记样本,利用大量未标记样本来提升模型的识别性能。
半监督学习是结合监督学习和无监督学习的一种学习范式,在机器学习和数据挖掘等领域应用广泛,但与行为识别结合后主要出现两点限制:一方面是传统方法的特征提取复杂且不充分,另一方面是少量数据训练深度模型会产生过拟合。
目前,单独传统半监督解决人体行为识别的不足,主要体现在如下几方面:
传统的半监督学习解决人体行为识别往往依靠专家手工设计的特征点,这类特征点主要是凭借人们对几何学以及数学上的一些认识,对图像中的某一块特殊区域进行建模得到描述函数。典型的比如SIFT,利用差分高斯金字塔计算图像中比较特殊的点,再通过该点的领域信息对其进行描述,得到最终的描述函数。在对行为提取特征点时,通常会出现特征点扎堆的现象。显然,对于图像、视频中空间信息里纹理多的地方,特征点自然会提取得多。这将导致图像某一块位置提取到的特征点特别多,而其他区域提取到的点特别少,甚至是没有。
另一方面,手工特征提取方法难以提取深层特征,对行为的表征能力不强,在对无标记数据进行标记时预测准确度不高,往往会产生较多的错误标记,从而在分类器进行训练时会引入较多的噪声数据,导致模型没有较好的识别效率。
目前,单独深度学习解决人体行为识别的不足,主要体现在如下方面:
解释性差:传统特征提取算法总是有着良好的可解释性,即对每个算法都较好的提出优化目标,并可以给出几何表示;深度学习虽然是逐步进行提取,但是中间的神经元输出往往不呈现规律,输入与输出之间更没有因果性的表征。
模型设计及优化:深度学习的模型设计非常复杂,需要投入大量的人力、物力和时间进行开发新的算法和模型,目前大部分人只能使用现成的模型去解决人体行为识别问题;而且深度学习过程中会遇到梯度消失、爆炸等问题,除此之外,还会遇到局部最优值的问题,给训练带来了相当的困难。
训练速度:为了追求识别准确率的提升,神经网络层数不断增长、数据集不断扩充,导致计算强度大大增加,训练速度问题突出,需要在硬件和软件的不断更新中才能改善,其中所需成本越来越高。
数据集要求高:深度学习的性能好坏一方面取决于数据集的大小,如果不能进行大量有效的训练,往往会导致过拟合问题的出现;另外一方面依赖于训练数据的平衡性,当训练数据不平衡时,模型会把训练数据少的类别误识别为训练数据多的类别。
综上述,要解决行为识别中弊端,如何将深度学习和半监督学习结合进行人体行为识别,是目前亟待解决的难题。
参考文献如下:
1.Tang,C.,et al.,Using a Multilearner to Fuse Multimodal Features forHuman Action Recognition.Mathematical Problems in Engineering,2020.2020:p.4358728.
2.Das,B.and A.Saha,A Survey on Current Trends in Human ActionRecognition. 2021:Advances in Medical Physics and Healthcare Engineering.
3.Zyer,T.,D.S.Ak,and R.Alhajj,Human action recognition approacheswith video datasets—A survey.Knowledge-Based Systems,2021.222(6):p.106995.
4.Karpathy,A.,et al.Large-Scale Video Classification withConvolutional Neural Networks.in 2014IEEE Conference on Computer Vision andPattern Recognition. 2014.
5.Hady,M.and F.Schwenker,Semi-Supervised Learning.Journal of theRoyal Statistical Society,2006.172(2):p.530-530.
发明内容:
为了弥补现有技术问题,本发明的目的是提供一种基于协同异质深度学习网络的红外人体行为识别方法,将深度学习和半监督学习结合进行人体行为识别,有效克服了深度学习和半监督学习在行为识别中存在的弊端。
本发明的技术方案如下:
一种基于协同异质深度学习网络的红外人体行为识别方法,其特征在于,包括如下步骤:
步骤一、构建协同异质深度学习网络中的动作视图:基于红外图像的动作视图表征,分别构建同一动作的红外图像视图和红外光流视图;
步骤二,构建基于红外图像视图和红外光流视图的协同异质深度学习网络:分别搭建卷积神经网络和长短时记忆网络,构建出两个异质深度网络进行基于视图差异的异质网络协同训练,协同训练后获得两个异质的深度网络模型,分别是卷积神经网络模型和长短时记忆网络模型;
步骤三,对未标记样本评估:在两个异质的深度网络模型的协同训练过程中,采用一致性和置信度评估两种评估标准,多次输出选取可信度高的无标签数据纳入对方网络的训练集中,提高模型对动作潜在信息的理解能力,稳定的选取无标签数据添加伪标签;
步骤四:进行特征融合:协同训练后的两个异质的深度网络模型对全连接层的输出进行归一化,得到两个网络对同一动作预测出的不同结果,选取决策级融合中采用不同比例的加权融合进行分类,对比最大值融合,提高模型的泛化能力。
所述的基于协同异质深度学习网络的红外人体行为识别方法,其特征在于,所述的红外图像视图为红外图像空间信息视图,是直接获得的红外图像数据本身;
红外光流视图具体为红外光流时间信息视图,需通过红外图像视频构建出来。
所述的基于协同异质深度学习网络的红外人体行为识别方法,其特征在于: 所述红外光流视图构建过程如下,
给定基于红外图像视图的少量有标签数据
Figure RE-GDA0003808199250000041
和大量无标签数据
Figure RE-GDA0003808199250000042
从以下三个步骤构建红外光流视图:
1)、通过Farneback光流法Flow(),即公式(1)提取相邻两帧红外图像
Figure RE-GDA0003808199250000043
Figure RE-GDA0003808199250000044
间动作运动的x方向位移
Figure RE-GDA0003808199250000045
和y方向位移
Figure RE-GDA0003808199250000046
Figure RE-GDA0003808199250000047
2)、使用Polar(),即公式(2)对
Figure RE-GDA0003808199250000048
进行笛卡尔坐标转化极坐标,将得到的极径
Figure RE-GDA0003808199250000049
和极角
Figure RE-GDA00038081992500000410
通过Color(),即公式(3)进行颜色空间转化为灰度图
Figure RE-GDA00038081992500000411
消除杂乱背景对行为识别的影响:
Figure RE-GDA00038081992500000412
Figure RE-GDA00038081992500000413
3)、对
Figure RE-GDA00038081992500000414
使用直方图正规化方法进行图像增强,自动的调整灰度级范围以提高对比度和局部特征的表征能力,得到
Figure RE-GDA00038081992500000415
对应的光流图
Figure RE-GDA00038081992500000416
Figure RE-GDA00038081992500000417
其中,Imax、Imin分别为
Figure RE-GDA00038081992500000418
的最大、最小灰度级,[Omin,Omax]为
Figure RE-GDA00038081992500000419
的灰度级范围;
构建出具有红图图像视图和红外光流视图的数据集
Figure RE-GDA00038081992500000420
Figure RE-GDA00038081992500000421
其中,view∈{Infra,Flow}。
所述的基于协同异质深度学习网络的红外人体行为识别方法,其特征在于: 所述协同异质深度学习网络的学习过程:
(a)、在有标记红外图像视图数据集和有标记红外光流视图数据集上分别训练卷积神经网络和长短时记忆网络,获得初始的卷积神经网络模型和长短时记忆网络模型;
(b)、初始化训练好的卷积神经网络模型对未标记红外图像视图数据集中部分子集进行预测标记,并从中挑选置信度较高的红外图像视图标记样本对应的红外光流视图数据加入到红外光流视图有标记样本集中用于训练更新长短时记忆网络模型;与此同时,初始化训练好的长短时记忆网络模型对未标记红外光流视图数据集中部分子集进行预测标记,并从中挑选置信度较高的红外光流视图标记样本对应的红外图像视图数据加入到红外图像视图有标记样本集中用于训练更新卷积神经网络模型;上述两个并行的协同训练过程通过多次迭代达到停机条件;
(c)、经过协同训练后,可以获得两个异质的深度网络模型,分别是卷积神经网络模型和长短时记忆网络模型,在预测的时候,通过对两个网络的进行加权决策级融合预测输出结果。
所述的基于协同异质深度学习网络的红外人体行为识别方法,其特征在于: 对未标记样本评估具体分别使用基于随机Dropout技术的卷积神经网络和长短时记忆网络对无标签数据进行多次输出,通过对模型多次输出的预测结果进行分析,依据置信度和一致性两种评估方法,稳定的选取无标签数据添加伪标签。
所述的基于协同异质深度学习网络的红外人体行为识别方法,其特征在于: 稳定的选取无标签数据步骤,
给定一个无标签样本
Figure RE-GDA0003808199250000051
重复M次输入网络,基于随机失活技术得到M个部分神经元组成的子模型对
Figure RE-GDA0003808199250000052
的N个类别的预测结果;其中,第m次的预测结果为P(m)
Figure RE-GDA0003808199250000053
设定阈值τ,对
Figure RE-GDA0003808199250000054
进行置信度评估
Figure RE-GDA0003808199250000055
Figure RE-GDA0003808199250000056
Figure RE-GDA0003808199250000057
Figure RE-GDA0003808199250000058
第m次预测的结果H(m)>τ时,conf(m)=1;当M次预测的最大概率H(m)都超过阈值τ时,
Figure RE-GDA0003808199250000061
证明
Figure RE-GDA0003808199250000062
具有一定的可信度;否则
Figure RE-GDA0003808199250000063
表明无标签样本
Figure RE-GDA0003808199250000064
的可信度较低;
为避免模型对错误标记仍有较高置信度,以及模型的不确定性、偶然性因素的干扰,进一步对M次预测结果进行一致性评估
Figure RE-GDA0003808199250000065
Figure RE-GDA0003808199250000066
Figure RE-GDA0003808199250000067
Figure RE-GDA0003808199250000068
第m次预测结果
Figure RE-GDA0003808199250000069
和第m+1次预测结果
Figure RE-GDA00038081992500000610
一致时,cons(m)=1;当M个子模型的预测类别一致时,即
Figure RE-GDA00038081992500000611
认为模型整体对
Figure RE-GDA00038081992500000612
的预测是稳定、可信任的。
所述的基于协同异质深度学习网络的红外人体行为识别方法,其特征在于: 所述协同训练后的两个网络对全连接层的输出进行归一化,得到两个网络对同一动作预测出的不同结果Pview
Figure RE-GDA00038081992500000613
将PRGB、PFlow按比例α:β进行融合,其中,α+β=1,得到测试集数据x的预测类别
Figure RE-GDA00038081992500000614
Figure RE-GDA00038081992500000615
与现有技术相比,本发明的优点如下:
1、本发明提出一种新的构建两个(或多个)近似代表充分独立的动作视图的协同异质深度网络学习方法,进而可以有效的训练出两个具有差异性的异质深度网络模型,有效解决了在协同半监督学习框架下,如果直接对同一个视频数据集训练两个同一类型深度网络,协同训练会使得两个深度网络在训练过程中趋于一致,使得协同深度学习训练失效的问题;
2、本发明在协同的深度模型在训练时,通过两种评估标准选取可信度高的无标签数据纳入训练集,提高模型对动作潜在信息的理解能力,挑选可靠且稳定的无标记样本加入训练集,确保了协同训练的有效性;
本发明具体使用基于随机Dropout技术的卷积神经网络(ResNet18)和长短时记忆网络对无标签数据进行多次输出,通过对模型多次输出的预测结果进行分析,依据置信度和一致性两种评估方法,稳定的选取无标签数据添加伪标签。
3、本发明基于不同动作视图协同训练后的两个异质网络可以得到同一行为的不同特征表征形式,协同训练结束的两个异质网络在决策层采用不同比例的加权融合进行分类,解决了单个网络无法从不同的角度对动作的类别进行评估,分类效果并不理想的缺陷。
附图说明:
图1为本发明的基于同一动作红外图像视图和红外光流视图的协同异质深度学习网络原理图。
具体实施方式:
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
一种基于协同异质深度学习网络的红外人体行为识别方法,其特征在于,包括如下步骤:
步骤一、协同异质深度学习网络中动作视图构建技术:
在人体行为识别中,对于动作视频数据可以从多种不同的角度对其进行描述,例如:RGB视频图像数据,深度视频图像数据,或者红外视频图像数据,这多种描述构成事物的多个视图(Multi-view)。动作视频的多视图表示方法还能够发挥各个视图的优势。我们方法首先构建协同深度学习网络中两种动作视图,分别是红外图像视图和红外光流视图。红外图像视图就是红外图像数据本身,可以直接获得,而红外光流视图需要通过红外图像视频构建出来。
给定基于红外图像视图的少量有标签数据
Figure RE-GDA0003808199250000071
和大量无标签数据
Figure RE-GDA0003808199250000072
从以下三个步骤构建光流视图:
1)、通过Farneback光流法Flow(),即公式(1)提取相邻两帧红外图像
Figure RE-GDA0003808199250000073
Figure RE-GDA0003808199250000081
间动作运动的x方向位移
Figure RE-GDA0003808199250000082
和y方向位移
Figure RE-GDA0003808199250000083
Figure RE-GDA0003808199250000084
2)、使用Polar(),即公式(2)对
Figure RE-GDA0003808199250000085
进行笛卡尔坐标转化极坐标,将得到的极径
Figure RE-GDA0003808199250000086
和极角
Figure RE-GDA0003808199250000087
通过Color(),即公式(3)进行颜色空间转化为灰度图
Figure RE-GDA0003808199250000088
消除杂乱背景对行为识别的影响:
Figure RE-GDA0003808199250000089
Figure RE-GDA00038081992500000810
3)、对
Figure RE-GDA00038081992500000811
使用直方图正规化方法进行图像增强,自动的调整灰度级范围以提高对比度和局部特征的表征能力,得到
Figure RE-GDA00038081992500000812
对应的光流图
Figure RE-GDA00038081992500000813
Figure RE-GDA00038081992500000814
其中,Imax、Imin分别为
Figure RE-GDA00038081992500000815
的最大、最小灰度级,[Omin,Omax]为
Figure RE-GDA00038081992500000816
的灰度级范围;
构建出具有红图图像视图和红外光流视图的数据集
Figure RE-GDA00038081992500000817
Figure RE-GDA00038081992500000818
其中,view∈{Infra,Flow}。
步骤二、协同异质深度学习网络设计
如图1所示,该网络的学习过程如下:
(a)、在有标记红外图像视图数据集和有标记红外光流视图数据集上分别训练卷积神经网络和长短时记忆网络,获得初始的卷积神经网络模型和长短时记忆网络模型;
(b)、初始化训练好的卷积神经网络模型对未标记红外图像视图数据集中部分子集进行预测标记,并从中挑选置信度较高的红外图像视图标记样本对应的红外光流视图数据加入到红外光流视图有标记样本集中用于训练更新长短时记忆网络模型。与此同时,初始化训练好的长短时记忆网络模型对未标记红外光流视图数据集中部分子集进行预测标记,并从中挑选置信度较高的红外光流视图标记样本对应的红外图像视图数据加入到红外图像视图有标记样本集中用于训练更新卷积神经网络模型。上述两个并行的协同训练过程通过多次迭代达到停机条件;
(c)经过协同训练后,可以获得两个异质的深度网络模型,分别是卷积神经网络模型和长短时记忆网络模型,在预测的时候,通过对两个网络的进行加权决策级融合预测输出结果。
步骤三、未标记样本评估技术
设计出一种可靠的基于双视图协同异质深度学习网络算法,通过两种评估标准选取可信度高的无标签数据纳入对方网络的训练集中,提高模型对动作潜在信息的理解能力。具体分别使用基于随机Dropout技术的卷积神经网络(ResNet18) 和长短时记忆网络对无标签数据进行多次输出,通过对模型多次输出的预测结果进行分析,依据置信度和一致性两种评估方法,稳定的选取无标签数据添加伪标签。
给定一个无标签样本
Figure RE-GDA0003808199250000091
重复M次输入网络,基于随机失活技术得到M个部分神经元组成的子模型对
Figure RE-GDA0003808199250000092
的N个类别的预测结果;其中,第m次的预测结果为P(m)
Figure RE-GDA0003808199250000093
设定阈值τ,对
Figure RE-GDA0003808199250000094
进行置信度评估
Figure RE-GDA0003808199250000095
Figure RE-GDA0003808199250000096
Figure RE-GDA0003808199250000097
Figure RE-GDA0003808199250000098
第m次预测的结果H(m)>τ时,conf(m)=1;当M次预测的最大概率H(m)都超过阈值τ时,
Figure RE-GDA0003808199250000099
证明
Figure RE-GDA00038081992500000910
具有一定的可信度;否则
Figure RE-GDA00038081992500000911
表明无标签样本
Figure RE-GDA00038081992500000912
的可信度较低;
为避免模型对错误标记仍有较高置信度,以及模型的不确定性、偶然性因素的干扰,进一步对M次预测结果进行一致性评估
Figure RE-GDA00038081992500000913
Figure RE-GDA00038081992500000914
Figure RE-GDA00038081992500000915
Figure RE-GDA00038081992500000916
第m次预测结果
Figure RE-GDA0003808199250000101
和第m+1次预测结果
Figure RE-GDA0003808199250000102
一致时,cons(m)=1;当M个子模型的预测类别一致时,即
Figure RE-GDA0003808199250000103
认为模型整体对
Figure RE-GDA0003808199250000104
的预测是稳定、可信任的。
通过置信度和一致性两种评估方法,模型挑选出可靠的无标签数据,挖掘动作的潜在信息,减少错误标记对模型的影响,提高泛化能力。
步骤四、特征融合
基于不同视图协同训练后的多个网络可以得到同一行为的不同表征形式,而单个网络无法从不同的角度对动作的类别进行评估,分类效果并不理想。大量文献[6,7]证明,特征融合可以基于分类器学习到动作的不同信息表征进行互补从而提高识别的准确率。目前,主流的特征融合方法分为3种:像素级融合、特征级融合、决策级融合[8]。我们选取决策级融合中的加权融合方法,对比最大值融合,提高模型的泛化能力。
协同训练后的两个网络对全连接层的输出进行归一化,得到两个网络对同一动作预测出的不同结果Pview
Figure RE-GDA0003808199250000105
将PRGB、PFlow按比例α:β进行融合,其中,α+β=1,得到测试集数据x的预测类别
Figure RE-GDA0003808199250000106
Figure RE-GDA0003808199250000107
综上述,针对夜间行为识别问题,本发明首先构建基于红外图像的动作的视图表征,分别构建同一动作的红外图像空间信息视图和红外光流时间信息视图。其次,分别搭建卷积神经网络和长短时记忆网络,构建出两个异质深度网络进行基于视图差异的异质网络协同训练(Co-training)[9],训练过程中采用基于多次输出一致性和置信度评估两种方法来挑选未标签数据。最后,通过协同训练好的异质网络模型进行特征提取并进行特征融合,然后输入到随机森林进行训练及分类识别,有效克服了深度学习和半监督学习在行为识别中存在的弊端。
本发明采用深度学习结合半监督学习,具有明显的优势:
1)、深度学习的出色性能往往依靠大量的有标记数据,然而,在现实生活中,有标记的数据集采集往往会消耗大量的人力物力损耗。我们将半监督学习引入深度学习中,依靠少量的无标记数据和大量的有标记数据,结合伪标签编辑、一致性正则化等半监督学习方法挖掘无标签数据中大量的潜在信息,用于训练深度学习的训练。
2)、同时,我们也解决了标记数据而带来的人力、物力损耗问题。在协同训练的思想上,通过不同视图的互补信息来提高动作的预测准确性,极大的降低在标记无标签数据过程中出现错误的概率。
参考文献:
6.Wang,H.,et al.,Dense Trajectories and Motion Boundary Descriptorsfor Action Recognition.International Journal of Computer Vision,2013.103(1):p.60-79.
7.Dollár,P.,et al.Behavior recognition via sparse spatio-temporalfeatures.in 2005 IEEE International Workshop on Visual Surveillance andPerformance Evaluation of Tracking and Surveillance.2005.IEEE.
8.Yang,J.,et al.,Feature fusion:parallel strategy vs.serialstrategy.Pattern recognition,2003.36(6):p.1369-1381.
9.Blum,A.and T.Mitchell.Combining Labeled and Unlabeled Data with Co-Training.in Proceedings of the 11th Annual Conference on ComputationalLearning Theory.1998.
以上所述的,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (7)

1.一种基于协同异质深度学习网络的红外人体行为识别方法,其特征在于,包括如下步骤:
步骤一、构建协同异质深度学习网络中的动作视图:基于红外图像的动作视图表征,分别构建同一动作的红外图像视图和红外光流视图;
步骤二,构建基于红外图像视图和红外光流视图的协同异质深度学习网络:分别搭建卷积神经网络和长短时记忆网络,构建出两个异质深度网络进行基于视图差异的异质网络协同训练,协同训练后获得两个异质的深度网络模型,分别是卷积神经网络模型和长短时记忆网络模型;
步骤三,对未标记样本评估:在两个异质的深度网络模型的协同训练过程中,采用一致性和置信度评估两种评估标准,多次输出选取可信度高的无标签数据纳入对方网络的训练集中,提高模型对动作潜在信息的理解能力,稳定的选取无标签数据添加伪标签;
步骤四:进行特征融合:协同训练后的两个异质的深度网络模型对全连接层的输出进行归一化,得到两个网络对同一动作预测出的不同结果,选取决策级融合中采用不同比例的加权融合进行分类,对比最大值融合,提高模型的泛化能力。
2.根据权利要求1所述的基于协同异质深度学习网络的红外人体行为识别方法,其特征在于,所述的红外图像视图为红外图像空间信息视图,是直接获得的红外图像数据本身;红外光流视图具体为红外光流时间信息视图,通过红外图像视频构建出来。
3.根据权利要求1或2所述的基于协同异质深度学习网络的红外人体行为识别方法,其特征在于:所述红外光流视图构建过程如下,
给定基于红外图像视图的少量有标签数据
Figure RE-FDA0003808199240000011
和大量无标签数据
Figure RE-FDA0003808199240000012
从以下三个步骤构建红外光流视图:
1)、通过Farneback光流法Flow(),即公式(1)提取相邻两帧红外图像
Figure RE-FDA0003808199240000013
Figure RE-FDA0003808199240000014
间动作运动的x方向位移
Figure RE-FDA0003808199240000015
和y方向位移
Figure RE-FDA0003808199240000016
Figure RE-FDA0003808199240000017
2)、使用Polar(),即公式(2)对
Figure RE-FDA0003808199240000018
进行笛卡尔坐标转化极坐标,将得到的极径
Figure RE-FDA0003808199240000021
和极角
Figure RE-FDA0003808199240000022
通过Color(),即公式(3)进行颜色空间转化为灰度图
Figure RE-FDA0003808199240000023
消除杂乱背景对行为识别的影响:
Figure RE-FDA0003808199240000024
Figure RE-FDA0003808199240000025
3)、对
Figure RE-FDA0003808199240000026
使用直方图正规化方法进行图像增强,自动的调整灰度级范围以提高对比度和局部特征的表征能力,得到
Figure RE-FDA0003808199240000027
对应的光流图
Figure RE-FDA0003808199240000028
Figure RE-FDA0003808199240000029
其中,Imax、Imin分别为
Figure RE-FDA00038081992400000210
的最大、最小灰度级,[Omin,Omax]为
Figure RE-FDA00038081992400000211
的灰度级范围;
构建出具有红图图像视图和红外光流视图的数据集
Figure RE-FDA00038081992400000212
Figure RE-FDA00038081992400000213
其中,view∈{Infra,Flow}。
4.根据权利要求1所述的基于协同异质深度学习网络的红外人体行为识别方法,其特征在于:所述协同异质深度学习网络的学习过程:
(a)、在有标记红外图像视图数据集和有标记红外光流视图数据集上分别训练卷积神经网络和长短时记忆网络,获得初始的卷积神经网络模型和长短时记忆网络模型;
(b)、初始化训练好的卷积神经网络模型对未标记红外图像视图数据集中部分子集进行预测标记,并从中挑选置信度较高的红外图像视图标记样本对应的红外光流视图数据加入到红外光流视图有标记样本集中用于训练更新长短时记忆网络模型;与此同时,初始化训练好的长短时记忆网络模型对未标记红外光流视图数据集中部分子集进行预测标记,并从中挑选置信度较高的红外光流视图标记样本对应的红外图像视图数据加入到红外图像视图有标记样本集中用于训练更新卷积神经网络模型;上述两个并行的协同训练过程通过多次迭代达到停机条件;
(c)、经过协同训练后,可以获得两个异质的深度网络模型,分别是卷积神经网络模型和长短时记忆网络模型,在预测的时候,通过对两个网络的进行加权决策级融合预测输出结果。
5.根据权利要求1所述的基于协同异质深度学习网络的红外人体行为识别方法,其特征在于:对未标记样本评估具体分别使用基于随机Dropout技术的卷积神经网络和长短时记忆网络对无标签数据进行多次输出,通过对模型多次输出的预测结果进行分析,依据置信度和一致性两种评估方法,稳定的选取无标签数据添加伪标签。
6.根据权利要求1或5所述的基于协同异质深度学习网络的红外人体行为识别方法,其特征在于:稳定的选取无标签数据步骤,
给定一个无标签样本
Figure RE-FDA0003808199240000031
重复M次输入网络,基于随机失活技术得到M个部分神经元组成的子模型对
Figure RE-FDA0003808199240000032
的N个类别的预测结果;其中,第m次的预测结果为P(m)
Figure RE-FDA0003808199240000033
设定阈值τ,对
Figure RE-FDA0003808199240000034
进行置信度评估
Figure RE-FDA0003808199240000035
Figure RE-FDA0003808199240000036
Figure RE-FDA0003808199240000037
Figure RE-FDA0003808199240000038
第m次预测的结果H(m)>τ时,conf(m)=1;当M次预测的最大概率H(m)都超过阈值τ时,
Figure RE-FDA0003808199240000039
证明
Figure RE-FDA00038081992400000310
具有一定的可信度;否则
Figure RE-FDA00038081992400000311
表明无标签样本
Figure RE-FDA00038081992400000312
的可信度较低;
为避免模型对错误标记仍有较高置信度,以及模型的不确定性、偶然性因素的干扰,进一步对M次预测结果进行一致性评估
Figure RE-FDA00038081992400000313
Figure RE-FDA00038081992400000314
Figure RE-FDA00038081992400000315
Figure RE-FDA00038081992400000316
第m次预测结果
Figure RE-FDA00038081992400000317
和第m+1次预测结果
Figure RE-FDA00038081992400000318
一致时,cons(m)=1;当M个子模型的预测类别一致时,即
Figure RE-FDA00038081992400000319
认为模型整体对
Figure RE-FDA00038081992400000320
的预测是稳定、可信任的。
7.根据权利要求1所述的基于协同异质深度学习网络的红外人体行为识别方法,其特征在于:
所述协同训练后的两个网络对全连接层的输出进行归一化,得到两个网络对同一动作预测出的不同结果Pview
Figure RE-FDA0003808199240000041
将PRGB、PFlow按比例α:β进行融合,其中,α+β=1,得到测试集数据x的预测类别
Figure RE-FDA0003808199240000042
Figure RE-FDA0003808199240000043
CN202210612060.3A 2022-05-31 2022-05-31 一种基于协同异质深度学习网络的红外人体行为识别方法 Pending CN115147864A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210612060.3A CN115147864A (zh) 2022-05-31 2022-05-31 一种基于协同异质深度学习网络的红外人体行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210612060.3A CN115147864A (zh) 2022-05-31 2022-05-31 一种基于协同异质深度学习网络的红外人体行为识别方法

Publications (1)

Publication Number Publication Date
CN115147864A true CN115147864A (zh) 2022-10-04

Family

ID=83406298

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210612060.3A Pending CN115147864A (zh) 2022-05-31 2022-05-31 一种基于协同异质深度学习网络的红外人体行为识别方法

Country Status (1)

Country Link
CN (1) CN115147864A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116844241A (zh) * 2023-08-30 2023-10-03 武汉大水云科技有限公司 基于着色的红外视频行为识别方法、系统和电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116844241A (zh) * 2023-08-30 2023-10-03 武汉大水云科技有限公司 基于着色的红外视频行为识别方法、系统和电子设备
CN116844241B (zh) * 2023-08-30 2024-01-16 武汉大水云科技有限公司 基于着色的红外视频行为识别方法、系统和电子设备

Similar Documents

Publication Publication Date Title
Yan Computational methods for deep learning
Hu et al. Learning structured inference neural networks with label relations
Bertasius et al. Semantic segmentation with boundary neural fields
CN112307995B (zh) 一种基于特征解耦学习的半监督行人重识别方法
CN110866542B (zh) 一种基于特征可控融合的深度表示学习方法
CN111310672A (zh) 基于时序多模型融合建模的视频情感识别方法、装置及介质
Aamir et al. An optimized architecture of image classification using convolutional neural network
CN114492574A (zh) 基于高斯均匀混合模型的伪标签损失无监督对抗域适应图片分类方法
Li et al. Adaptive metric learning for saliency detection
CN114972213A (zh) 一种基于机器视觉的两阶段主板图像缺陷检测及定位方法
CN111738054A (zh) 一种基于时空自编码器网络和时空cnn的行为异常检测方法
CN113780003A (zh) 时空数据变分编解码跨模态增强方法
Saqib et al. Intelligent dynamic gesture recognition using CNN empowered by edit distance
CN115147864A (zh) 一种基于协同异质深度学习网络的红外人体行为识别方法
Wang Robust embedding framework with dynamic hypergraph fusion for multi-label classification
Jiang et al. A unified object counting network with object occupation prior
He et al. Salient region segmentation
Asil et al. A new approach to image classification based on a deep multiclass AdaBoosting ensemble
CN115240271A (zh) 基于时空建模的视频行为识别方法与系统
Lei et al. Student action recognition based on multiple features
Raju et al. Remote Sensing Image Classification Using CNN-LSTM Model
Cao et al. A multi-label classification method for vehicle video
Gray et al. Low-shot, semi-supervised, uncertainty quantification enabled model for high consequence hsi data
Liu et al. A discriminative structural model for joint segmentation and recognition of human actions
Wang et al. Research on Image Segmentation Algorithm Based on Multimodal Hierarchical Attention Mechanism and Genetic Neural Network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination