CN114565970A - 一种基于深度学习的高精度多角度行为识别方法 - Google Patents
一种基于深度学习的高精度多角度行为识别方法 Download PDFInfo
- Publication number
- CN114565970A CN114565970A CN202210103411.8A CN202210103411A CN114565970A CN 114565970 A CN114565970 A CN 114565970A CN 202210103411 A CN202210103411 A CN 202210103411A CN 114565970 A CN114565970 A CN 114565970A
- Authority
- CN
- China
- Prior art keywords
- picture frames
- video data
- neural network
- deep learning
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明为一种基于深度学习的高精度多角度行为识别方法,首先,收集原始视频数据,对原始视频数据进行数据预处理;其次,基于对比学习的思想应用深度神经网络构建深度学习模型;然后通过深度前馈网络对预处理得到的数据进行特征提取,提取完成后进一步进行动作分类;最后反馈分类后的结果。本发明使用对比学习方法构建自监督模型对数据进行动作分类,有效增强数据特征提取的鲁棒性,使模型学习到更有利于行为分类的知识,并满足了在实际场景下对视频数据中目标行为分类的高准确度需求,为后续依据分类结果进行的其他操作提供良好基础。
Description
技术领域
本发明属于人工智能技术领域,涉及数据处理、特征提取及动作分类,特别涉及一种基于深度学习的高精度多角度行为识别方法。
背景技术
目前,人体行为识别是计算机视觉领域的研究热点之一,主要应用于视频监控、人机交互、医疗看护等多个领域。因此,对基于视频的动作识别方法进行分析研究有十分重要的意义。
最近几年人们对行为识别的研究,其主要都集中于特征的提取。行为是发生在一定时空的事件,特征不仅仅具有空间性,也具有时间性。如何有效描述时间空间特征是行为识别问题的关键。针对以上问题,行为识别方法目前已有多种解决方法。双流卷积模型考虑时间和空间两方面的特点,分别对其进行编码和融合;3D时空卷积方法在时间序列和空间序列上同时进行计算;也有改变特征的描述手段的方法,SIFT算法具有尺度不变性,可用于在图片中检测行为关键点;光流利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系,从而计算出相邻帧之间物体的运动信息;还有将图使用到行为识别中的方法。这些方法在视频角度单一、背景较为简单的情况下获得了不错的精度,然而随着科学技术的进步,经济的发展,在实际生活中同一地点通常有着多台摄像机器多角度进行人体动作抓取,如何将收集到的多角度数据进行更好的融合成为亟待解决的问题。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供一种基于深度学习的高精度多角度行为识别方法,使用对比学习方法构建自监督模型对数据进行动作分类,有效增强数据特征提取的鲁棒性,学习到更有利于行为分类的知识,并满足了在实际场景下对视频数据中目标行为分类的高准确度需求,为后续依据分类结果进行的其他操作提供良好基础。
为了实现上述目的,本发明采用的技术方案是:
一种基于深度学习的高精度多角度行为识别方法,其特征在于,包括:
步骤1,以摄像设备作为边缘缓存节点,多台摄像设备同一时段从同一高度不同的水平角度收集同一行为的原始视频数据,并上传至服务器,对原始视频数据进行预处理,得到按时间顺序的图片帧;
步骤2,基于步骤1所得图片帧,应用对比学习思想搭建用于动作分类的卷积神经网络模型;
步骤3,使用训练好的卷积神经网络模型对预处理完的图片帧进行动作分类得到并反馈行为识别结果。
在一个实施例中,所述步骤1原始视频数据处理过程包括:首先,将视频按时间顺序切割成图片帧;其次,对得到的图片帧进行区别性命名;最后,将不同角度的图片帧放在同一文件夹中,图片帧的时序顺序不变。
在一个实施例中,所述将不同角度的图片帧放在同一文件夹中是指:
以每个水平角度收集的原始视频数据得到的图片帧为一组,将每两组图片帧独立地放在一个文件夹中,每个文件夹中的每组图片帧中,图片帧的时序顺序不变。
在一个实施例中,所述对比学习思想,是在欧氏空间中将正样本距离拉近,将正样本与负样本距离拉远,在视频数据中,以同一时间不同角度的任意两个图片帧数据x1和x2为一对正样本,经过神经网络编码后提取出一对特征表示对,分别最小化其负余弦相似性以达到拉近正样本距离的目的。
在一个实施例中,所述卷积神经网络模型基于Siamese network孪生神经网络框架进行搭建,包括输入层、隐藏层和输出层,所述输入层的输入为若干对所述的正样本,所述隐藏层分别对所述一对正样本进行编码,处理后由输出层输出数据。
在一个实施例中,所述隐藏层由编码函数f(·)和编码函数g(·)组成,编码函数f(·)包括一个主干网络和一个投影头,每一对所述的正样本在编码函数f(·)编码时共享权重,编码函数g(·)作为预测头;
编码函数f(·)的编码结果表示为:
编码函数g(·)的编码结果表示为:
其中,ω1和b1为编码函数f(·)的训练参数,ω2和b2为编码函数g(·)的训练参数。
在一个实施例中,所述卷积神经网络模型的损失L的计算过程:
最小化p1和z2的负余弦相似性:
最小化p2和z1的负余弦相似性:
D(p1,z2)为p1和z2间的欧式距离,D(p2,z1)为p2和z1间的欧式距离,||·||2是L2范数;
整体损失定义为:
其中stopgrad(·)为停止梯度操作;
最后利用深度神经网络进行迭代训练,得到使得损失函数最小的压缩自动编码器参数θ={w,b},其中b为偏置项,w为训练参数。
与现有技术相比,本发明从多个设备上收集同一行为视频数据,对多个方位的数据进行处理,高效地利用了多角度数据,针对多角度数据的特点,将对比学习方法引入行为识别模型,搭建的自监督模型在空间上更好地融合多角度数据特征,提取出与时间维度上互补的动作信息。
附图说明
图1是本发明流程图。
具体实施方式
下面结合附图和实施例详细说明本发明的实施方式。
如图1所示,本发明为一种基于深度学习的高精度多角度行为识别方法,包括:
步骤1,以摄像设备作为边缘缓存节点,多台摄像设备同一时段从同一高度的不同水平角度收集同一行为的原始视频数据,并上传至服务器,对原始视频数据进行预处理,得到按时间顺序的图片帧,以利于行为特征提取。
在本发明中,多台摄像设备的垂直高度均相同,但水平角度不同,其原因在于,人在做动作的时候,多台水平角度不同的相机拍摄可以收集到动作的多个不同角度下的数据。目的在于模拟实际场景中摄像机收集的数据为不同角度下人体姿态的动作。以三台摄像设备为例,水平角度可分别设置为-45°、0°和45°。
本发明的原始视频数据处理过程包括:首先,将视频按时间顺序切割成图片帧;其次,对得到的图片帧进行区别性命名;最后,将不同角度的图片帧放在同一文件夹中,图片帧的时序顺序不变。具体地,以每个水平角度收集的原始视频数据得到的图片帧为一组,将每两组图片帧独立地放在一个文件夹中,每个文件夹中的每组图片帧中,图片帧的时序顺序不变。
例如,有两个不同的水平角度,对提取的n张图片帧以10001、10002、……、1000n和20001、20002、……2000n的方式命名,用以区分不同角度。
再例如,有三个不同的水平角度,角度一获取的图片帧为(a1~a9),角度二获取的图片帧为(b1~b9);角度三获取的图片帧为(c1~c9)。则每两组图片帧放一个文件夹,一共放三个文件夹,文件夹一:[(a1~a9),(b1~b9)],文件夹二:[(b1~b9),(c1~c9)],文件夹三:[(a1~a9),(c1~c9)]。以文件夹一为例,在进行模型训练时,输入顺序为(a1~a9)~(b1~b9),也可(b1~b9)~(a1~a9)。
步骤2,对于多角度这一特点进行针对性的模型构建,以此提高多角度数据的利用并获得行为识别的高精度结果。具体地,基于步骤1所得图片帧,本发明应用对比学习思想搭建用于动作分类的卷积神经网络模型。
所谓对比学习思想,是在欧氏空间中将正样本距离拉近,将正样本与负样本距离拉远,本发明中,以同一时间不同角度的任意两个图片帧数据x1和x2为一对正样本,经过神经网络编码后提取出一对特征表示对,分别最小化其负余弦相似性以达到拉近正样本距离的目的。当有n个水平角度时,进行排列组合,以两个不同角度组成一组正样本。
本发明卷积神经网络模型基于Siamese network孪生神经网络框架进行搭建,包括输入层、隐藏层和输出层,输入层的输入即为若干对所述的正样本,每一对正样本从输入层的两个数据层输入,隐藏层分别对输入的每一对正样本进行编码,处理后由输出层输出数据。
示例地,隐藏层由编码函数f(·)和编码函数g(·)组成,编码函数f(·)包括一个主干网络和一个投影头,每一对所述的正样本在编码函数f(·)编码时共享权重,编码函数g(·)作为预测头;
编码函数f(·)的编码结果表示为:
编码函数g(·)的编码结果表示为:
其中,ω1和b1为编码函数f(·)的训练参数,ω2和b2为编码函数g(·)的训练参数。
本发明卷积神经网络参数值确定过程为:
预训练卷积神经网络,从而确定参数的初始值,通过计算损失L来训练参数,损失L的计算过程:
最小化p1和z2的负余弦相似性:
最小化p2和z1的负余弦相似性:
D(p1,z2)为p1和z2间的欧式距离,D(p2,z1)为p2和z1间的欧式距离,||·||2是L2范数;
整体损失定义为:
其中stopgrad(·)为停止梯度操作;
最后利用深度神经网络进行迭代训练,得到使得损失函数最小的压缩自动编码器参数θ={w,b},其中b为偏置项(偏置参数),w为训练参数(权重参数),即为前述参数(ω1和b1、ω2和b2)训练结束的最终值。当网络模型训练到收敛时,认为该神经网络能很好地提取输入数据的特征信息。
步骤3,使用训练好的卷积神经网络模型,即可对预处理完的图片帧进行特征提取,提取完成后进一步进行动作分类,得到并反馈分类后的行为识别结果。
在本发明的一个具体实施例中,采用NTU RGB+D行为识别数据集进行训练,NTURGB+D是由南洋理工大学的Rose Lab实验室提出来的人体(骨架)行为识别数据集,该数据集包含56880个数据样本,一共60类动作,前面50类动作是单人动作,后面10类动作是双人交互动作,数据集样本文件格式如下::S001C003P008R002A058。其中:
S:设置号,“NTU RGB+D”数据集包括设置号在S001和S017之间的文件/文件夹,而“NTU RGB+D 120”数据集包括设置号在S001和S032之间的文件/文件夹;
C:相机ID,共有三架;
P:人物ID,P001表示一号动作执行人,但并非每个人都执行了所有动作;
R:同一个动作的表演次数;
A:动作类别,A001到A060种动作类别。
现有的行为识别方式为:对单一的原始视频数据进行预处理,通过训练深度神经网络提取图片帧时间或空间上的特征信息,利用特征信息进行有监督的行为分类。
本发明识别方式为:利用多角度视频数据的多方位特点,将其与Siamese network孪生神经网络框架相结合,在基于对比学习思想的基础上对多角度视频数据进行编码。通过对比学习的思想搭建自监督卷积神经网络模型,充分抓取数据的动作特征与时间序列提取的特征相互补,使得网络模型可以达到高精度高效率的行为识别。
具体地,本发明选取NTU RGB+D行为识别数据集其中十种动作类别,数据集样本文件格式为:
S001C001P001R001A001_rgb
S001C001P001R001A007_rgb
S001C001P001R001A013_rgb
S001C001P001R001A019_rgb
S001C001P001R001A025_rgb
S001C001P001R001A031_rgb
S001C001P001R001A037_rgb
S001C001P001R001A043_rgb
S001C001P001R001A049_rgb
S001C001P001R001A055_rgb
S001C002P001R001A001_rgb
……
将其C001、C002两台相机拍摄的数据中同一行为视为正样本,C001、C002为两台垂直高度均相同,但水平角度不同的相机,例如两台相机同时拍摄到的喝水动作S001C001P001R001A001_rgb和S001C002P001R001A001_rgb为一对正样本。并可设置另一相机用于测试,使用开源视频动作分析库MMAction中视频提取图片帧的方法对其进行数据处理,处理后每一种类动作分别放置在文件夹中,命名0,……,10。将处理好的数据作为卷积神经网络的输入,图片输入尺寸大小裁减为227×227输入,经过特征提取后大小输出为1*2048的特征向量。最后,将分类后的结果发送给后台管理员。表1为本发明与现有的2D卷积方法评价指标对比,可以看出本发明的评价指标远远优于2D卷积方法。
表1本文方法与2D卷积方法在NTU-RGB+D数据集上各类评价指标的比较
方法 | 准确率 | 精确率 | 召回率 | F1值 |
2D卷积 | 7.43 | 36.22 | 62.95 | 43.39 |
本文方法 | 15.40 | 42.86 | 70.00 | 53.17 |
综上,本发明使用对比学习方法构建自监督模型对数据进行动作分类,有效增强数据特征提取的鲁棒性,使模型学习到更有利于行为分类的知识,并满足了在实际场景下对视频数据中目标行为分类的高准确度需求,为后续依据分类结果进行的其他操作提供良好基础。
以上,对本发明的具体实施方式做了具体描述,但是不应该认定本发明的具体实施只局限于这些说明。对于本发明所属领域的普通技术人员来说,在不脱离本发明构思和由权利要求书所限定的保护范围的前提之下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (7)
1.一种基于深度学习的高精度多角度行为识别方法,其特征在于,包括:
步骤1,以摄像设备作为边缘缓存节点,多台摄像设备同一时段从同一高度不同的水平角度收集同一行为的原始视频数据,并上传至服务器,对原始视频数据进行预处理,得到按时间顺序的图片帧;
步骤2,基于步骤1所得图片帧,应用对比学习思想搭建用于动作分类的卷积神经网络模型;
步骤3,使用训练好的卷积神经网络模型对预处理完的图片帧进行动作分类得到并反馈行为识别结果。
2.根据权利要求1所述基于深度学习的高精度多角度行为识别方法,其特征在于,所述步骤1中原始视频数据处理过程包括:首先,将视频按时间顺序切割成图片帧;其次,对得到的图片帧进行区别性命名;最后,将不同角度的图片帧放在同一文件夹中,图片帧的时序顺序不变。
3.根据权利要求2所述基于深度学习的高精度多角度行为识别方法,其特征在于,所述将不同角度的图片帧放在同一文件夹中是指:
以每个水平角度收集的原始视频数据得到的图片帧为一组,将每两组图片帧独立地放在一个文件夹中,每个文件夹中的每组图片帧中,图片帧的时序顺序不变。
4.根据权利要求1所述基于深度学习的高精度多角度行为识别方法,其特征在于,所述对比学习思想,是在欧氏空间中将正样本距离拉近,将正样本与负样本距离拉远,在视频数据中,以同一时间不同角度的任意两个图片帧数据x1和x2为一对正样本,经过神经网络编码后提取出一对特征表示对,分别最小化其负余弦相似性以达到拉近正样本距离的目的。
5.根据权利要求4所述基于深度学习的高精度多角度行为识别方法,其特征在于,所述卷积神经网络模型基于Siamese network孪生神经网络框架进行搭建,包括输入层、隐藏层和输出层,所述输入层的输入为若干对所述的正样本,所述隐藏层分别对所述一对正样本进行编码,处理后由输出层输出数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210103411.8A CN114565970A (zh) | 2022-01-27 | 2022-01-27 | 一种基于深度学习的高精度多角度行为识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210103411.8A CN114565970A (zh) | 2022-01-27 | 2022-01-27 | 一种基于深度学习的高精度多角度行为识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114565970A true CN114565970A (zh) | 2022-05-31 |
Family
ID=81713724
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210103411.8A Pending CN114565970A (zh) | 2022-01-27 | 2022-01-27 | 一种基于深度学习的高精度多角度行为识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114565970A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110532857A (zh) * | 2019-07-16 | 2019-12-03 | 杭州电子科技大学 | 基于多摄像头下的行为识别影像分析系统 |
CN112613480A (zh) * | 2021-01-04 | 2021-04-06 | 上海明略人工智能(集团)有限公司 | 一种人脸识别方法、系统、电子设备及存储介质 |
CN112633222A (zh) * | 2020-12-30 | 2021-04-09 | 民航成都电子技术有限责任公司 | 基于对抗网络的步态识别方法、装置、设备及介质 |
CN113239797A (zh) * | 2021-05-12 | 2021-08-10 | 中科视语(北京)科技有限公司 | 人体动作识别方法、装置及系统 |
CN113569687A (zh) * | 2021-07-20 | 2021-10-29 | 上海明略人工智能(集团)有限公司 | 基于双流网络的场景分类方法、系统、设备及介质 |
CN113743221A (zh) * | 2021-08-04 | 2021-12-03 | 清华大学 | 一种边缘计算架构下的多视角人行为识别方法与系统 |
-
2022
- 2022-01-27 CN CN202210103411.8A patent/CN114565970A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110532857A (zh) * | 2019-07-16 | 2019-12-03 | 杭州电子科技大学 | 基于多摄像头下的行为识别影像分析系统 |
CN112633222A (zh) * | 2020-12-30 | 2021-04-09 | 民航成都电子技术有限责任公司 | 基于对抗网络的步态识别方法、装置、设备及介质 |
CN112613480A (zh) * | 2021-01-04 | 2021-04-06 | 上海明略人工智能(集团)有限公司 | 一种人脸识别方法、系统、电子设备及存储介质 |
CN113239797A (zh) * | 2021-05-12 | 2021-08-10 | 中科视语(北京)科技有限公司 | 人体动作识别方法、装置及系统 |
CN113569687A (zh) * | 2021-07-20 | 2021-10-29 | 上海明略人工智能(集团)有限公司 | 基于双流网络的场景分类方法、系统、设备及介质 |
CN113743221A (zh) * | 2021-08-04 | 2021-12-03 | 清华大学 | 一种边缘计算架构下的多视角人行为识别方法与系统 |
Non-Patent Citations (3)
Title |
---|
XINLEI CHEN等: "Exploring Simple Siamese Representation Learning", 《ARXIV:2011.10566V1》, pages 1 - 3 * |
任国印等: "基于2D转3D骨架的多特征融合实时动作识别", 《激光与光电子学进展》, vol. 58, no. 24, pages 241 - 249 * |
张润秀等: "多视角边缘设备下的人体行为对比识别方法", 《软件导刊》, vol. 22, no. 09, pages 79 - 85 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11263435B2 (en) | Method for recognizing face from monitoring video data | |
CN109446923A (zh) | 基于训练特征融合的深度监督卷积神经网络行为识别方法 | |
CN108509854B (zh) | 一种基于投影矩阵约束结合判别字典学习的行人再识别方法 | |
CN107169117B (zh) | 一种基于自动编码器和dtw的手绘图人体运动检索方法 | |
CN109766873B (zh) | 一种混合可变形卷积的行人再识别方法 | |
CN109492610B (zh) | 一种行人重识别方法、装置及可读存储介质 | |
CN112597980B (zh) | 一种面向动态视觉传感器的类脑手势序列识别方法 | |
CN113205002B (zh) | 非受限视频监控的低清人脸识别方法、装置、设备及介质 | |
CN110287879A (zh) | 一种基于注意力机制的视频行为识别方法 | |
Lee | A study on classification and detection of small moths using CNN model. | |
Rehman et al. | Deep learning for video classification: A review | |
CN115063832A (zh) | 一种基于全局与局部特征的对抗学习跨模态行人重识别方法 | |
Mathur et al. | A brief survey of deep learning techniques for person re-identification | |
CN111898614A (zh) | 神经网络系统以及图像信号、数据处理的方法 | |
CN117333908A (zh) | 基于姿态特征对齐的跨模态行人重识别方法 | |
CN116612339B (zh) | 一种核性白内障图像分级模型的构建装置及分级装置 | |
Li | Parallel two-class 3D-CNN classifiers for video classification | |
CN113221683A (zh) | 教学场景下基于cnn模型的表情识别方法 | |
Shaikh et al. | MAiVAR-T: Multimodal Audio-image and Video Action Recognizer using Transformers | |
Zhao et al. | Research on human behavior recognition in video based on 3DCCA | |
CN102609732A (zh) | 基于泛化视觉词典图的物体识别方法 | |
CN114565970A (zh) | 一种基于深度学习的高精度多角度行为识别方法 | |
Li | Global face pose detection based on an improved PSO-SVM method | |
CN114169433A (zh) | 一种基于联邦学习+图学习+cnn的工业故障预测方法 | |
Li et al. | Blind image quality evaluation method based on cyclic generative adversarial network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |