CN112749671A - 一种基于视频的人体行为识别方法 - Google Patents

一种基于视频的人体行为识别方法 Download PDF

Info

Publication number
CN112749671A
CN112749671A CN202110066504.3A CN202110066504A CN112749671A CN 112749671 A CN112749671 A CN 112749671A CN 202110066504 A CN202110066504 A CN 202110066504A CN 112749671 A CN112749671 A CN 112749671A
Authority
CN
China
Prior art keywords
video
skeleton
behavior
point cloud
dimensional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110066504.3A
Other languages
English (en)
Inventor
任南琪
王爱杰
王旭
路璐
冯骁驰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lantogis Ecological Technology Group Co Ltd
Original Assignee
Lantogis Ecological Technology Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lantogis Ecological Technology Group Co Ltd filed Critical Lantogis Ecological Technology Group Co Ltd
Priority to CN202110066504.3A priority Critical patent/CN112749671A/zh
Publication of CN112749671A publication Critical patent/CN112749671A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30241Trajectory

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于视频的人体行为识别方法,包括如下步骤:获取或选择包含深度和骨骼信息的人体行为视频的数据集,选择重要信息视频片段作为输入;对数据预处理:将深度图序列转化为三维点云,仅保留重要部位附近点云;对人体行为序列进行动作片段的划分,将每个动作的重要部位三维点云每帧叠加得到运动轨迹;对运动轨迹进行三维卷积神经网络特征图提取,得到时空特征图,根据骨骼点位置信息生成对应的热图;对时空特征图与热图进行操作,得到所有骨骼点特征集合。本发明可以充分利用局部的时空特征,充分考虑局部决策对识别效果的影响,从而有效提升了行为识别效果,同时,能够提取的重要特征,对于人体行为识别具有较好的区分度。

Description

一种基于视频的人体行为识别方法
技术领域
本发明涉及计算机视觉和模式识别技术领域,尤其涉及一种基于视频的人体行为识别方法。
背景技术
人体行为识别作为计算机视觉中的一个基本问题,现在已经引起了业内的广泛关注。随着计算机智能技术的不断发展,在今后的生活中,人体动作识别具有广阔的应用前景。例如:智能监控、人机交互的体感游戏、视频检索等等。视频中的人体行为识别与静态图像中的对象识别有着相似的问题,这两项任务都必须处理显著的类内变化、背景杂乱和遮挡。但是,视频比图像多了一项额外的时间线索。对于视频时间线索的获取是一大难点。卷积神经网络(Convolutional Neural Network,CNN)应用于视频数据的方法主要有两种:一种是采用2D CNN结构,将基于图像的模型直接应用于视频的各个帧,但只能刻画视频的视觉外观。另一种方式是3D CNN,这样卷积核是三维的,可以同时提取空间和时间信息,但是网络参数量会激增,造成过拟合。
发明内容
基于背景技术存在的技术问题,本发明提出了一种基于视频的人体行为识别方法。
本发明提出的一种基于视频的人体行为识别方法,包括如下步骤:
S1获取或选择包含深度和骨骼信息的人体行为视频的数据集,选择重要信息视频片段作为输入;
S2对数据预处理:将深度图序列转化为三维点云,仅保留重要部位附近点云;
S3对人体行为序列进行动作片段的划分,将每个动作的重要部位三维点云每帧叠加得到运动轨迹;
S4对运动轨迹进行三维卷积神经网络特征图提取,得到时空特征图,根据骨骼点位置信息生成对应的热图;
S5对时空特征图与热图进行操作,得到所有骨骼点特征集合;
S6对每个骨骼点分别进行决策,得到局部决策集合;
S7将所有局部决策结果融合,得到最终的行为分类结果,建立识别模型;
S8根据识别模型,确定待识别人体行为的行为类别。
优选的,所述深度图中像素的xy坐标作为三维点的xy坐标,将代表深度数据的像素值作为三维点的z坐标,从而形成三维点云,三维点云也称点云。
优选的,所述重要部位附近点云,指以表示重要部位的一个或一组骨骼点为中心,取一适当大小的长方体,被该长方体包含的三维点云的集合即为该重要部位附近点云。
优选的,所述步骤S1获取或选择包含深度和骨骼信息的人体行为视频的数据集包括获取对应的骨架点坐标、骨架点帧间坐标差和骨架特征。
优选的,所述骨骼点坐标包括骨架的三维绝对坐标和中心点的相对坐标,所述骨架点帧间坐标差包括相邻帧间坐标差和间隔帧间坐标差,所述骨架特征包括骨架长度和骨架旋转角。
优选的,所述步骤S1选择重要信息视频片段作为输入包括提取单元,提取单元用于针对任一原始视频,将原始视频均分为T段,对每段使用三维卷积深度神经网络进行特征提取,得到第t段视频在深度神经网络模型第i个卷积层的特征图输出表示f(t),t=1,2,…,T;第一计算模块,用于计算各段视频的特征图平均值,得到视频特征图第二计算模块,用于根据所述视频特征图计算所述原始视频的空间特征图fθ:其中,其中,θ是嵌入函数,表示特征嵌入空间。
优选的,所述待识别人体包括注意力模块和识别模块。
优选的,所述注意力模块中包含图卷积模块和基于人体部位的注意力子模块,识别模块用于根据行为识别模型对待识别人体骨架进行识别,输出人体行为动作。
本发明中,所述一种基于视频的人体行为识别方法,可以充分利用局部的时空特征,充分考虑局部决策对识别效果的影响,从而有效提升了行为识别效果,同时,能够提取的重要特征,对于人体行为识别具有较好的区分度。
附图说明
图1为本发明提出的一种基于视频的人体行为识别方法的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
参照图1,一种基于视频的人体行为识别方法,包括如下步骤:
S1获取或选择包含深度和骨骼信息的人体行为视频的数据集,选择重要信息视频片段作为输入;
S2对数据预处理:将深度图序列转化为三维点云,仅保留重要部位附近点云;
S3对人体行为序列进行动作片段的划分,将每个动作的重要部位三维点云每帧叠加得到运动轨迹;
S4对运动轨迹进行三维卷积神经网络特征图提取,得到时空特征图,根据骨骼点位置信息生成对应的热图;
S5对时空特征图与热图进行操作,得到所有骨骼点特征集合;
S6对每个骨骼点分别进行决策,得到局部决策集合;
S7将所有局部决策结果融合,得到最终的行为分类结果,建立识别模型;
S8根据识别模型,确定待识别人体行为的行为类别。
本发明中,深度图中像素的xy坐标作为三维点的xy坐标,将代表深度数据的像素值作为三维点的z坐标,从而形成三维点云,三维点云也称点云。
本发明中,重要部位附近点云,指以表示重要部位的一个或一组骨骼点为中心,取一适当大小的长方体,被该长方体包含的三维点云的集合即为该重要部位附近点云。
本发明中,步骤S1获取或选择包含深度和骨骼信息的人体行为视频的数据集包括获取对应的骨架点坐标、骨架点帧间坐标差和骨架特征。
本发明中,骨骼点坐标包括骨架的三维绝对坐标和中心点的相对坐标,骨架点帧间坐标差包括相邻帧间坐标差和间隔帧间坐标差,骨架特征包括骨架长度和骨架旋转角。
本发明中,步骤S1选择重要信息视频片段作为输入包括提取单元,提取单元用于针对任一原始视频,将原始视频均分为T段,对每段使用三维卷积深度神经网络进行特征提取,得到第t段视频在深度神经网络模型第i个卷积层的特征图输出表示f(t),t=1,2,…,T;第一计算模块,用于计算各段视频的特征图平均值,得到视频特征图第二计算模块,用于根据视频特征图计算原始视频的空间特征图fθ:其中,其中,θ是嵌入函数,表示特征嵌入空间。
本发明中,待识别人体包括注意力模块和识别模块。
本发明中,注意力模块中包含图卷积模块和基于人体部位的注意力子模块,识别模块用于根据行为识别模型对待识别人体骨架进行识别,输出人体行为动作。
本发明:获取或选择包含深度和骨骼信息的人体行为视频的数据集,选择重要信息视频片段作为输入;对数据预处理:将深度图序列转化为三维点云,仅保留重要部位附近点云;对人体行为序列进行动作片段的划分,将每个动作的重要部位三维点云每帧叠加得到运动轨迹;对运动轨迹进行三维卷积神经网络特征图提取,得到时空特征图,根据骨骼点位置信息生成对应的热图;对时空特征图与热图进行操作,得到所有骨骼点特征集合;对每个骨骼点分别进行决策,得到局部决策集合;将所有局部决策结果融合,得到最终的行为分类结果,建立识别模型;根据识别模型,确定待识别人体行为的行为类别。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (8)

1.一种基于视频的人体行为识别方法,其特征在于,包括如下步骤:
S1获取或选择包含深度和骨骼信息的人体行为视频的数据集,选择重要信息视频片段作为输入;
S2对数据预处理:将深度图序列转化为三维点云,仅保留重要部位附近点云;
S3对人体行为序列进行动作片段的划分,将每个动作的重要部位三维点云每帧叠加得到运动轨迹;
S4对运动轨迹进行三维卷积神经网络特征图提取,得到时空特征图,根据骨骼点位置信息生成对应的热图;
S5对时空特征图与热图进行操作,得到所有骨骼点特征集合;
S6对每个骨骼点分别进行决策,得到局部决策集合;
S7将所有局部决策结果融合,得到最终的行为分类结果,建立识别模型;
S8根据识别模型,确定待识别人体行为的行为类别。
2.根据权利要求1所述的一种基于视频的人体行为识别方法,其特征在于,所述深度图中像素的xy坐标作为三维点的xy坐标,将代表深度数据的像素值作为三维点的z坐标,从而形成三维点云,三维点云也称点云。
3.根据权利要求1所述的一种基于视频的人体行为识别方法,其特征在于,所述重要部位附近点云,指以表示重要部位的一个或一组骨骼点为中心,取一适当大小的长方体,被该长方体包含的三维点云的集合即为该重要部位附近点云。
4.根据权利要求1所述的一种基于视频的人体行为识别方法,其特征在于,所述步骤S1获取或选择包含深度和骨骼信息的人体行为视频的数据集包括获取对应的骨架点坐标、骨架点帧间坐标差和骨架特征。
5.根据权利要求4所述的一种基于视频的人体行为识别方法,其特征在于,所述骨骼点坐标包括骨架的三维绝对坐标和中心点的相对坐标,所述骨架点帧间坐标差包括相邻帧间坐标差和间隔帧间坐标差,所述骨架特征包括骨架长度和骨架旋转角。
6.根据权利要求1所述的一种基于视频的人体行为识别方法,其特征在于,所述步骤S1选择重要信息视频片段作为输入包括提取单元,提取单元用于针对任一原始视频,将原始视频均分为T段,对每段使用三维卷积深度神经网络进行特征提取,得到第t段视频在深度神经网络模型第i个卷积层的特征图输出表示f(t),t=1,2,…,T;第一计算模块,用于计算各段视频的特征图平均值,得到视频特征图第二计算模块,用于根据所述视频特征图计算所述原始视频的空间特征图fθ:其中,其中,θ是嵌入函数,表示特征嵌入空间。
7.根据权利要求1所述的一种基于视频的人体行为识别方法,其特征在于,所述待识别人体包括注意力模块和识别模块。
8.根据权利要求7所述的一种基于视频的人体行为识别方法,其特征在于,所述注意力模块中包含图卷积模块和基于人体部位的注意力子模块,识别模块用于根据行为识别模型对待识别人体骨架进行识别,输出人体行为动作。
CN202110066504.3A 2021-01-19 2021-01-19 一种基于视频的人体行为识别方法 Pending CN112749671A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110066504.3A CN112749671A (zh) 2021-01-19 2021-01-19 一种基于视频的人体行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110066504.3A CN112749671A (zh) 2021-01-19 2021-01-19 一种基于视频的人体行为识别方法

Publications (1)

Publication Number Publication Date
CN112749671A true CN112749671A (zh) 2021-05-04

Family

ID=75652419

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110066504.3A Pending CN112749671A (zh) 2021-01-19 2021-01-19 一种基于视频的人体行为识别方法

Country Status (1)

Country Link
CN (1) CN112749671A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113378656A (zh) * 2021-05-24 2021-09-10 南京信息工程大学 一种基于自适应图卷积神经网络的动作识别方法和装置
CN114783066A (zh) * 2022-06-14 2022-07-22 深圳市第二人民医院(深圳市转化医学研究院) 基于动作捕捉无序点云的关节标签智能识别系统、方法
CN117746510A (zh) * 2024-02-19 2024-03-22 河海大学 一种基于点云特征图的实时三维行为识别方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103810496A (zh) * 2014-01-09 2014-05-21 江南大学 基于图像深度信息的3d高斯空间人体行为识别方法
CN104298974A (zh) * 2014-10-10 2015-01-21 北京工业大学 一种基于深度视频序列的人体行为识别方法
CN104598890A (zh) * 2015-01-30 2015-05-06 南京邮电大学 一种基于rgb-d视频的人体行为识别方法
CN105160310A (zh) * 2015-08-25 2015-12-16 西安电子科技大学 基于3d卷积神经网络的人体行为识别方法
CN105787469A (zh) * 2016-03-25 2016-07-20 广州市浩云安防科技股份有限公司 行人监控和行为识别的方法和系统
WO2018120964A1 (zh) * 2016-12-30 2018-07-05 山东大学 一种基于深度信息和骨骼信息的姿势矫正方法
CN111914796A (zh) * 2020-08-17 2020-11-10 四川大学 基于深度图和骨骼点的人体行为识别方法
CN111967379A (zh) * 2020-08-14 2020-11-20 西北工业大学 一种基于rgb视频和骨架序列的人体行为识别方法
US20200397345A1 (en) * 2019-06-19 2020-12-24 University Of Southern California Human activity recognition using magnetic induction-based motion signals and deep recurrent neural networks

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103810496A (zh) * 2014-01-09 2014-05-21 江南大学 基于图像深度信息的3d高斯空间人体行为识别方法
CN104298974A (zh) * 2014-10-10 2015-01-21 北京工业大学 一种基于深度视频序列的人体行为识别方法
CN104598890A (zh) * 2015-01-30 2015-05-06 南京邮电大学 一种基于rgb-d视频的人体行为识别方法
CN105160310A (zh) * 2015-08-25 2015-12-16 西安电子科技大学 基于3d卷积神经网络的人体行为识别方法
CN105787469A (zh) * 2016-03-25 2016-07-20 广州市浩云安防科技股份有限公司 行人监控和行为识别的方法和系统
WO2018120964A1 (zh) * 2016-12-30 2018-07-05 山东大学 一种基于深度信息和骨骼信息的姿势矫正方法
US20200397345A1 (en) * 2019-06-19 2020-12-24 University Of Southern California Human activity recognition using magnetic induction-based motion signals and deep recurrent neural networks
CN111967379A (zh) * 2020-08-14 2020-11-20 西北工业大学 一种基于rgb视频和骨架序列的人体行为识别方法
CN111914796A (zh) * 2020-08-17 2020-11-10 四川大学 基于深度图和骨骼点的人体行为识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
丰艳;李鸽;原春锋;王传旭;: "基于时空注意力深度网络的视角无关性骨架行为识别", 计算机辅助设计与图形学学报, no. 12 *
昝宝锋;孔军;蒋敏;: "基于判别协作表征分类器的人体行为识别", 激光与光电子学进展, no. 01 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113378656A (zh) * 2021-05-24 2021-09-10 南京信息工程大学 一种基于自适应图卷积神经网络的动作识别方法和装置
CN113378656B (zh) * 2021-05-24 2023-07-25 南京信息工程大学 一种基于自适应图卷积神经网络的动作识别方法和装置
CN114783066A (zh) * 2022-06-14 2022-07-22 深圳市第二人民医院(深圳市转化医学研究院) 基于动作捕捉无序点云的关节标签智能识别系统、方法
CN114783066B (zh) * 2022-06-14 2022-08-26 深圳市第二人民医院(深圳市转化医学研究院) 基于动作捕捉无序点云的关节标签智能识别系统、方法
CN117746510A (zh) * 2024-02-19 2024-03-22 河海大学 一种基于点云特征图的实时三维行为识别方法
CN117746510B (zh) * 2024-02-19 2024-05-28 河海大学 一种基于点云特征图的实时三维行为识别方法

Similar Documents

Publication Publication Date Title
CN111339903B (zh) 一种多人人体姿态估计方法
US11830230B2 (en) Living body detection method based on facial recognition, and electronic device and storage medium
WO2020108362A1 (zh) 人体姿态检测方法、装置、设备及存储介质
CN107808131B (zh) 基于双通路深度卷积神经网络的动态手势识别方法
CN109472198B (zh) 一种姿态鲁棒的视频笑脸识别方法
CN112749671A (zh) 一种基于视频的人体行为识别方法
CN105160310A (zh) 基于3d卷积神经网络的人体行为识别方法
CN112766159A (zh) 一种基于多特征融合的跨数据库微表情识别方法
CN114187665B (zh) 一种基于人体骨架热图的多人步态识别方法
CN110852182A (zh) 一种基于三维空间时序建模的深度视频人体行为识别方法
CN114220061B (zh) 一种基于深度学习的多目标跟踪方法
CN108846343B (zh) 基于三维视频的多任务协同分析方法
CN113343950B (zh) 一种基于多特征融合的视频行为识别方法
CN112528902B (zh) 一种基于3d人脸模型的视频监控动态人脸识别方法及装置
CN112257665A (zh) 图像内容的识别方法、图像识别模型的训练方法及介质
Gammulle et al. Coupled generative adversarial network for continuous fine-grained action segmentation
CN113191216B (zh) 基于姿态识别和c3d网络的多人实时动作识别方法和系统
CN112101344B (zh) 一种视频文本跟踪方法及装置
CN111353385B (zh) 一种基于掩膜对齐与注意力机制的行人再识别方法和装置
CN114973383A (zh) 一种微表情识别方法、装置、电子设备及存储介质
CN112508989A (zh) 一种图像处理方法、装置、服务器以及介质
CN117409476A (zh) 一种基于事件相机的步态识别的方法
CN113724273A (zh) 一种基于神经网络区域目标分割的边缘光影融合方法
CN113822134A (zh) 一种基于视频的实例跟踪方法、装置、设备及存储介质
CN117173792A (zh) 一种基于三维人体骨架的多人步态识别系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination