CN109086659B - 一种基于多模道特征融合的人体行为识别方法和装置 - Google Patents
一种基于多模道特征融合的人体行为识别方法和装置 Download PDFInfo
- Publication number
- CN109086659B CN109086659B CN201810607403.0A CN201810607403A CN109086659B CN 109086659 B CN109086659 B CN 109086659B CN 201810607403 A CN201810607403 A CN 201810607403A CN 109086659 B CN109086659 B CN 109086659B
- Authority
- CN
- China
- Prior art keywords
- frame
- skeleton
- sequence
- depth
- image channel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于多模道特征融合的人体行为识别方法和装置。该方法包括:1)针对输入的深度图像序列构建自适应分层结构;2)在自适应分层结构的每个层级提取DMM特征;3)串联每个层级的DMM特征,构建自适应深度运动图特征作为深度图像通道特征;4)针对输入的骨架图像序列选取相对稳定的骨架关节点作为参考关节点;5)计算每帧内的其余关节点与参考关节点的位移差,作为每帧内的特征表达;6)联合整个骨架图像序列,得到一个动作序列的特征表达作为骨架图像通道特征;7)通过特征融合并对融合后的特征进行分类,得到人体行为识别结果。本发明能够同时描述人体的时序运动信息以及空间结构信息,具有良好的识别效果和鲁棒性。
Description
技术领域
本发明涉及一种基于多模道特征融合的人体行为识别方法和装置,首先,从深度序列模道提出一个全新的描述子:自适应深度运动图,用于描述人体时序运动信息。然后,基于骨架序列模道提出关节点位移描述子用于描述人体的空间结构信息。最后采用两种融合策略:决策层融合方法和特征层融合方法将两个特征描述子融合用于人体行为的识别。
背景技术
人体行为识别是计算机视觉领域旳一个重要研究方向,有着重要的理论研究意义。其研究目的是对一个未知视频中的连续图像序列自动分析其正在进行的活动。人体行为识别在智能监控、人机交互、智能机器人、虚拟现实和运动分析等领域有着广泛的应用。传统行为识别大都作用在RGB图像序列上,然而,由于颜色成像传感器固有的局限性,人体行为识别依然存在很多难点,比如光照变化、动态背景、相似前景背景等。近年来,随着深度摄像机的普及(微软Kinect等),获得深度信息的代价急速下降,人体行为识别进入了新的发展方向。相比于RGB彩色数据,深度数据具有对光照变化不敏感,以及提供人体的空间三维信息等优点。
目前基于深度数据的方法大多数基于单一数据模道,如基于深度图像的深度运动图(DMM,Depth Motion Maps)方法,基于骨架图像的本征关节点(EigenJoints)方法。然而单一模道存在固有的缺陷,深度图像难以描述人体的空间结构,骨架图像仅仅有关节点位置信息而丢失很多细节。这使得从单一数据模道中提取更具描述性和判别性的行为描述子仍具有挑战性。其中DMM见文献“X.Yang,C.Zhang,and Y.Tian,“Recognizing actionsusing depth motion maps-based histograms of oriented gradients,”in.ACM MM,pp.1057–1060,2012.”,EigenJoints见文献“Yang X,Tian Y。Eigenjoints-based actionrecognition using naive-bayes-nearest-neighbor[C]//Computer vision andpattern recognition workshops(CVPRW),2012”。
发明内容
针对上述问题,本发明提出了一种基于多模道特征融合的人体行为识别方法和装置,该方法考虑到深度图像特征与骨架特征各自优势以及互相弥补的作用,能够同时描述人体的时序运动信息以及空间结构信息,具有良好的识别效果和鲁棒性。
一种基于多模道特征融合的人体行为识别方法,包括以下步骤:
1)针对输入的深度图像序列,构建自适应分层结构;
2)在自适应分层结构的每个层级,对输入的深度图像序列提取DMM特征;
3)串联每个层级的DMM特征,构建自适应深度运动图特征(AdaptiveHierarchical Depth Motion Maps,AH-DMMs),此特征作为深度图像通道特征;
4)针对输入的骨架图像序列,选取相对稳定的骨架关节点作为参考关节点;
5)计算每帧内的其余关节点与参考关节点的位移差,作为每帧内的特征表达;
6)联合整个骨架图像序列,得到一个动作序列的特征表达,此特征作为骨架图像通道特征;
7)对深度图像通道特征和骨架图像通道特征进行融合,并采用分类器对融合后的特征进行分类,得到人体行为识别结果。
进一步地,步骤7)采用两种融合策略:决策层融合方法和特征层融合方法,将两个特征描述子融合。
进一步地,步骤7)采用协同表示分类器(Collaborative RepresentationClassifier,CRC)进行分类。
一种基于多模道特征融合的人体行为识别装置,其包括:
深度图像通道特征提取模块,负责针对输入的深度图像序列,构建自适应分层结构;然后在自适应分层结构的每个层级,对输入的深度图像序列提取DMM特征;然后串联每个层级的DMM特征,构建自适应深度运动图特征,作为深度图像通道特征;
骨架图像通道特征提取模块,负责针对输入的骨架图像序列,选取相对稳定的骨架关节点作为参考关节点;然后计算每帧内的其余关节点与参考关节点的位移差,作为每帧内的特征表达;然后联合整个骨架图像序列,得到一个动作序列的特征表达,作为骨架图像通道特征;
特征融合及分类模块,负责对深度图像通道特征和骨架图像通道特征进行融合,并采用分类器对融合后的特征进行分类,得到人体行为识别结果。
进一步地,所述特征融合及分类模块采用决策层融合方法和特征层融合方法对深度图像通道特征和骨架图像通道特征进行融合,采用协同表示分类器进行分类。
本发明的有益效果是:
本发明基于深度图像模道所提出的自适应层级深度运动图描述子采用多尺度时序窗采样方法用于编码时序运动信息,能保留更丰富的人体运动信息与形状信息。而且基于能量采样的自适应时间结构使得本方法对被试者的速度变化具有鲁棒性。其次本发明基于骨架关节点提取相对位移特征,能更有效地描述人体的结构和局部形状信息。通过将两个模道的时序运动特征与空间结构特征融合,能够充分利用互补优势,有效提高行为识别正确率。
附图说明
图1是本发明方法的步骤流程图;
图2是自适应分层模型示意图。
具体实施方式
下面通过具体实施例和附图,对本发明作进一步说明。
图1为基于多模道特征融合的人体行为识别方法流程图,包括以下几个步骤:
步骤1:提取AH-DMMs特征
第一步:给定一个具有N帧深度图像的人体行为视频序列S=[I1,I2,…,Ii,…,IN],Ii表示第i帧深度图像。为了充分利用深度信息,把每一帧的深度值向三个正交方向投影即:
Ii→{mapf,maps,mapt}
得到正投影mapf,侧投影maps和俯视投影mapt。然后在这三个方向上,将t与t-1帧之间的深度图进行比较,去找出他们的运动区域,再按时间排序把他们三个累加起来,构成三个方向上的运动特征。数学表达式如下:
其中i表示第i帧,i=2,3,…,N,ε表示阈值,N为视频序列的总帧数。
第二步:对视频序列的每一帧计算其能量,本实施使用帧间运动区域面积的累计值作为运动能量估计,对于一个有N帧的视频序列,其第i帧的累积能量定义为:
其中,num(·)返回的是二值图像中的非0元素个数,v={1,2,3}表示三个投影面。得到视频序列每一帧的能量之后,按照能量进行分分层,构建自适应分层模型,如图2所示。第1层为不分割的整个视频,窗口大小为N,包含的能量为ME(N);在第二层,每个窗口大小所包含的能量为1/2ME(N),按照步长为1/4ME(N)沿着视频序列滑动;图2中Hlj表示第l层第j个窗口;
第三步:在每层的每个子序列窗口,分别提取特征DMMi,,最后将其串联,得到最终的自适应层级深度运动图(Adaptive Hierarchical Depth Motion Maps,AH-DMM)描述子,具体公式为:AH-DMMs=[DMM1,DMM2,...,DMML]
步骤2:本发明采用Gabor滤波器进行纹理信息增强,将得到的AH-DMMs与Gabor核函数进行卷积操作,得到更为紧凑的直方图特征向量。
步骤3:提取骨架关节点特征
即为参考关节点相对位移特征(Reference Joint Based Distance Feature,RDF)。
第三步:计算m个关节点的相对位移特征作为一帧骨架图的特征描述,串联整个骨架序列,得到一个动作序列的特征表达。
步骤4:特征融合。为了探究不同融合方法对实验结果的影响,本实施采用特征层融合和决策层融合两种融合方法,这两种融合方法是相互独立的。
1)特征层融合:基于深度图像模道的特征向量为AH-DMMs,基于骨架图像模道的特征向量为RDF,则融合得到的特征为:
F=[AH-DMMs,RDF]
将融合后的特征F输入到协同表示分类器中进行训练和分类,为了修饰特征值的大小,通常会在特征融合之前将两个特征进行归一化处理。
2)决策层融合。将基于深度图像模道的AH-DMMs特征和基于骨架图像模道的RDF特征分别输入两个分类器中进行模型训练,每个测试序列的单个分类器输出结果为{p(1),p(2),…,p(C)},p(j)表示该分类器将测试序列分类为类别j的概率。本实施采用对数意见池规则,将多个分类器的概率融合输出最后的决策结果,即人体行为识别结果。
本发明另一实施例提供一种基于多模道特征融合的人体行为识别装置,其包括:
深度图像通道特征提取模块,负责针对输入的深度图像序列,构建自适应分层结构;然后在自适应分层结构的每个层级,对输入的深度图像序列提取DMM特征;然后串联每个层级的DMM特征,构建自适应深度运动图特征,作为深度图像通道特征;
骨架图像通道特征提取模块,负责针对输入的骨架图像序列,选取相对稳定的骨架关节点作为参考关节点;然后计算每帧内的其余关节点与参考关节点的位移差,作为每帧内的特征表达;然后联合整个骨架图像序列,得到一个动作序列的特征表达,作为骨架图像通道特征;
特征融合及分类模块,负责对深度图像通道特征和骨架图像通道特征进行融合,并采用分类器对融合后的特征进行分类,得到人体行为识别结果。
其中,所述特征融合及分类模块采用决策层融合方法和特征层融合方法对深度图像通道特征和骨架图像通道特征进行融合,采用协同表示分类器进行分类。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求书所述为准。
Claims (6)
1.一种基于多模道特征融合的人体行为识别方法,其特征在于,包括以下步骤:
1)针对输入的深度图像序列,构建自适应分层结构;
2)在自适应分层结构的每个层级,对输入的深度图像序列提取特征DMMi;
3)串联每个层级的DMMi特征,构建自适应深度运动图特征AH-DMM,作为深度图像通道特征;
4)针对输入的骨架图像序列,选取相对稳定的骨架关节点作为参考关节点;
5)计算每帧内的其余关节点与参考关节点的位移差,作为每帧内的特征表达;
6)联合整个骨架图像序列,得到一个动作序列的特征表达,作为骨架图像通道特征;
7)对深度图像通道特征和骨架图像通道特征进行融合,并采用分类器对融合后的特征进行分类,得到人体行为识别结果;
其中,步骤1)包括:
1.1)给定一个具有N帧深度图像的人体行为视频序列S=[I1,I2,…,Ii,…,IN],Ii表示第i帧深度图像,把每一帧的深度值向三个正交方向投影,得到正投影mapf,侧投影maps和俯视投影mapt;然后在这三个方向上,将t与t-1帧之间的深度图进行比较,找出运动区域,再按时间排序累加起来,构成三个方向上的运动特征;所述三个方向上的运动特征为:
其中i表示第i帧,i=2,3,…,N,ε表示阈值,N为视频序列的总帧数;
1.2)对视频序列的每一帧计算其能量,使用帧间运动区域面积的累计值作为运动能量估计,得到视频序列每一帧的能量之后,按照能量进行分层,得到自适应分层结构;
采用以下步骤提取所述骨架图像通道特征:
即为参考关节点相对位移特征;
c)计算m个关节点的相对位移特征作为一帧骨架图的特征描述,串联整个骨架序列,得到一个动作序列的特征表达,作为骨架图像通道特征;
其中,步骤7)采用决策层融合方法和特征层融合方法对深度图像通道特征和骨架图像通道特征进行融合。
3.根据权利要求1所述的方法,其特征在于,采用Gabor滤波器进行纹理信息增强,将得到的自适应深度运动图特征与Gabor核函数进行卷积操作,得到更为紧凑的直方图特征向量。
4.根据权利要求1所述的方法,其特征在于,步骤7)采用协同表示分类器进行分类。
5.一种采用权利要求1~4中任一权利要求所述方法的基于多模道特征融合的人体行为识别装置,其特征在于,包括:
深度图像通道特征提取模块,负责针对输入的深度图像序列,构建自适应分层结构;然后在自适应分层结构的每个层级,对输入的深度图像序列提取DMM特征;然后串联每个层级的DMM特征,构建自适应深度运动图特征,作为深度图像通道特征;
骨架图像通道特征提取模块,负责针对输入的骨架图像序列,选取相对稳定的骨架关节点作为参考关节点;然后计算每帧内的其余关节点与参考关节点的位移差,作为每帧内的特征表达;然后联合整个骨架图像序列,得到一个动作序列的特征表达,作为骨架图像通道特征;
特征融合及分类模块,负责对深度图像通道特征和骨架图像通道特征进行融合,并采用分类器对融合后的特征进行分类,得到人体行为识别结果。
6.根据权利要求5所述的装置,其特征在于,所述特征融合及分类模块采用决策层融合方法和特征层融合方法对深度图像通道特征和骨架图像通道特征进行融合,采用协同表示分类器进行分类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810607403.0A CN109086659B (zh) | 2018-06-13 | 2018-06-13 | 一种基于多模道特征融合的人体行为识别方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810607403.0A CN109086659B (zh) | 2018-06-13 | 2018-06-13 | 一种基于多模道特征融合的人体行为识别方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109086659A CN109086659A (zh) | 2018-12-25 |
CN109086659B true CN109086659B (zh) | 2023-01-31 |
Family
ID=64839530
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810607403.0A Active CN109086659B (zh) | 2018-06-13 | 2018-06-13 | 一种基于多模道特征融合的人体行为识别方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109086659B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109857175B (zh) * | 2019-01-23 | 2020-11-03 | 南京邮电大学 | 一种非侵入式人体热舒适的ai感知方法 |
CN109902729B (zh) * | 2019-02-18 | 2020-10-16 | 清华大学 | 基于序列状态演进的行为预测方法及装置 |
CN110929637B (zh) * | 2019-11-20 | 2023-05-16 | 中国科学院上海微系统与信息技术研究所 | 一种图像识别方法、装置、电子设备及存储介质 |
CN115775347A (zh) * | 2021-11-04 | 2023-03-10 | 中国科学院深圳先进技术研究院 | 基于融合信息的太极拳识别方法、终端设备及存储介质 |
CN116434335B (zh) * | 2023-03-30 | 2024-04-30 | 东莞理工学院 | 动作序列识别和意图推断方法、装置、设备及存储介质 |
CN116434339B (zh) * | 2023-04-13 | 2023-10-27 | 江南大学 | 基于骨架数据时空特征差异性和相关性的行为识别方法 |
CN116766213B (zh) * | 2023-08-24 | 2023-11-03 | 烟台大学 | 一种基于图像处理的仿生手控制方法、系统和设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102622606A (zh) * | 2010-02-03 | 2012-08-01 | 北京航空航天大学 | 基于测地模型的人体骨骼提取和朝向判定方法 |
CN107392939A (zh) * | 2017-08-01 | 2017-11-24 | 南京华捷艾米软件科技有限公司 | 基于体感技术的室内运动观测装置、方法及存储介质 |
CN108108699A (zh) * | 2017-12-25 | 2018-06-01 | 重庆邮电大学 | 融合深度神经网络模型和二进制哈希的人体动作识别方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100745981B1 (ko) * | 2006-01-13 | 2007-08-06 | 삼성전자주식회사 | 보상적 특징에 기반한 확장형 얼굴 인식 방법 및 장치 |
US9489570B2 (en) * | 2013-12-31 | 2016-11-08 | Konica Minolta Laboratory U.S.A., Inc. | Method and system for emotion and behavior recognition |
CN106156714A (zh) * | 2015-04-24 | 2016-11-23 | 北京雷动云合智能技术有限公司 | 基于骨骼关节特征和表面特征融合的人体行为识别方法 |
KR20160147448A (ko) * | 2015-06-15 | 2016-12-23 | 한국전자통신연구원 | 컬러 영상정보를 이용한 깊이영상 부호화 방법 및 컬러 영상정보를 이용한 깊이정보 복원 방법 |
CN106445138A (zh) * | 2016-09-21 | 2017-02-22 | 中国农业大学 | 基于3d关节点坐标的一种人体姿态特征提取方法 |
CN106815578A (zh) * | 2017-01-23 | 2017-06-09 | 重庆邮电大学 | 一种基于深度运动图‑尺度不变特征变换的手势识别方法 |
-
2018
- 2018-06-13 CN CN201810607403.0A patent/CN109086659B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102622606A (zh) * | 2010-02-03 | 2012-08-01 | 北京航空航天大学 | 基于测地模型的人体骨骼提取和朝向判定方法 |
CN107392939A (zh) * | 2017-08-01 | 2017-11-24 | 南京华捷艾米软件科技有限公司 | 基于体感技术的室内运动观测装置、方法及存储介质 |
CN108108699A (zh) * | 2017-12-25 | 2018-06-01 | 重庆邮电大学 | 融合深度神经网络模型和二进制哈希的人体动作识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109086659A (zh) | 2018-12-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109086659B (zh) | 一种基于多模道特征融合的人体行为识别方法和装置 | |
Zhang et al. | Unsupervised discovery of object landmarks as structural representations | |
CN111339903B (zh) | 一种多人人体姿态估计方法 | |
CN109508654B (zh) | 融合多任务和多尺度卷积神经网络的人脸分析方法及系统 | |
CN106682598B (zh) | 一种基于级联回归的多姿态的人脸特征点检测方法 | |
CN110263720B (zh) | 基于深度图像和骨骼信息的动作识别方法 | |
CN112800903B (zh) | 一种基于时空图卷积神经网络的动态表情识别方法及系统 | |
CN113408492B (zh) | 一种基于全局-局部特征动态对齐的行人重识别方法 | |
Murphy-Chutorian et al. | Head pose estimation in computer vision: A survey | |
WO2016110005A1 (zh) | 基于灰度和深度信息的多层融合的多模态人脸识别装置及方法 | |
CN110555481A (zh) | 一种人像风格识别方法、装置和计算机可读存储介质 | |
CN112530019B (zh) | 三维人体重建方法、装置、计算机设备和存储介质 | |
CN112163498B (zh) | 前景引导和纹理聚焦的行人重识别模型建立方法及其应用 | |
CN109472198A (zh) | 一种姿态鲁棒的视频笑脸识别方法 | |
CN109190561B (zh) | 一种视频播放中的人脸识别方法及系统 | |
CN112329525A (zh) | 一种基于时空图卷积神经网络的手势识别方法和装置 | |
CN111460976B (zh) | 一种数据驱动的基于rgb视频的实时手部动作评估方法 | |
Yang et al. | Facial expression recognition based on dual-feature fusion and improved random forest classifier | |
CN112036260B (zh) | 一种自然环境下多尺度子块聚合的表情识别方法及系统 | |
CN112446322B (zh) | 眼球特征检测方法、装置、设备及计算机可读存储介质 | |
CN110110603A (zh) | 一种基于面部生理信息的多模态唇读方法 | |
CN113298018A (zh) | 基于光流场和脸部肌肉运动的假脸视频检测方法及装置 | |
CN115862120B (zh) | 可分离变分自编码器解耦的面部动作单元识别方法及设备 | |
CN114419732A (zh) | 基于注意力机制优化的HRNet人体姿态识别方法 | |
Zhuang et al. | Appearance-based gaze estimation using separable convolution neural networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |