CN112784736A - 一种多模态特征融合的人物交互行为识别方法 - Google Patents
一种多模态特征融合的人物交互行为识别方法 Download PDFInfo
- Publication number
- CN112784736A CN112784736A CN202110082101.8A CN202110082101A CN112784736A CN 112784736 A CN112784736 A CN 112784736A CN 202110082101 A CN202110082101 A CN 202110082101A CN 112784736 A CN112784736 A CN 112784736A
- Authority
- CN
- China
- Prior art keywords
- interaction
- model
- rgb
- information
- action
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 67
- 238000000034 method Methods 0.000 title claims abstract description 44
- 230000004927 fusion Effects 0.000 title claims abstract description 30
- 230000009471 action Effects 0.000 claims abstract description 58
- 230000006399 behavior Effects 0.000 claims abstract description 33
- 230000002452 interceptive effect Effects 0.000 claims abstract description 22
- 238000012549 training Methods 0.000 claims abstract description 15
- 238000012216 screening Methods 0.000 claims abstract description 10
- 230000008859 change Effects 0.000 claims abstract description 9
- 238000013135 deep learning Methods 0.000 claims abstract description 7
- 239000013598 vector Substances 0.000 claims description 22
- 230000033001 locomotion Effects 0.000 claims description 17
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000013527 convolutional neural network Methods 0.000 claims description 8
- 210000000988 bone and bone Anatomy 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 5
- 230000005484 gravity Effects 0.000 claims description 4
- 239000013589 supplement Substances 0.000 claims description 3
- 230000006870 function Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 210000001503 joint Anatomy 0.000 description 6
- 230000004913 activation Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000007500 overflow downdraw method Methods 0.000 description 2
- 230000036544 posture Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000035622 drinking Effects 0.000 description 1
- 239000003651 drinking water Substances 0.000 description 1
- 235000020188 drinking water Nutrition 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000010355 oscillation Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000009469 supplementation Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/23—Recognition of whole body movements, e.g. for sport training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/017—Gesture based interaction, e.g. based on a set of recognized hand gestures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/80—Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Probability & Statistics with Applications (AREA)
- Human Computer Interaction (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种多模态特征融合的人物交互行为识别方法,具体按照以下步骤实施:1、在现有3D骨骼数据集中筛选人、物交互动作类别,通过算法标定获取交互物信息;2、通过对步骤1获取的交互物信息基于深度学习的交互物判断算法对步骤1中3D骨骼数据集中人、物是否存在交互进行判断;3、对步骤2存在交互的动作类别,进行骨骼、RGB信息网络框架模型的搭建,并对模型进行训练;4、对步骤2存在交互的动作类别,考虑人与物时空关系变化规律,搭建人、物空间关系网络模型;5、对步骤3,步骤4模型整体进行优化,将骨骼、RGB、人物空间关系多模态信息特征进行融合,最后使用已训练好的模型对交互动作进行识别分类。
Description
技术领域
本发明属于计算机视觉和行为识别技术领域,涉及一种多模态特征融合的人物交互行为识别方法。
背景技术
随着人工智能技术的不断发展和应用,人体行为识别是目前计算机视觉与模式识别领域的一个热门研究方向,其广泛应用于智能视频监控、运动行为分析、人机智能交互、虚拟现实等领域。因深度传感器可有效的避免受到光照、遮挡,环境变化等因素的影响,基于骨骼数据的行为识别方法得到了越来越多的研究。传统的基于骨架的动作识别通常人为设计特征来表示骨架,现有的基于深度学习的方法分为三种:递归神经网络模型(RNN)、卷积神经网络模型(CNN)、图卷积网络模型(GCN),其中连接点信息分别被表示成向量序列、伪图像、图。基于序列的方法将骨架信息表示成有着设计好的遍历规则的骨架序列,然后用RNN进行动作识别;基于图像的方法通常把骨架信息表示成伪图像;基于图的方法用图来表示骨架信息,天然地保留了人体骨架信息。最近,将人体骨骼建模为时空图的图卷积网络(GCN)取得了优越的性能,但现有的方法中依然存在着如下问题:
(1)特征选择过于单一,不能更有效更丰富的反应运动变化信息对动作视频进行理解分类;
(2)对于场景中人与物存在交互的动作相互错分概率较高,识别准确率低;
(3)数据集存在一部分无法准确追踪到骨骼点的负样本,影响最终识别结果。
发明内容
本发明的目的是提供一种多模态特征融合的人物交互行为识别方法,解决了现有技术中存在的场景中人与物存在交互时动作相互错分概率较高,识别准确率低的问题。
本发明所采用的技术方案是,一种多模态特征融合的人物交互行为识别方法,具体按照以下步骤实施:
步骤1、在现有3D骨骼数据集NTU RGB+D中筛选人、物交互动作类别,通过算法标定获取交互物信息;
步骤2、通过对步骤1获取的交互物信息基于深度学习的交互物判断算法对步骤1中3D骨骼数据集NTU RGB+D中人、物是否存在交互进行判断;
步骤3、对步骤2存在交互的动作类别,进行骨骼、RGB信息网络框架模型的搭建,并对模型进行训练;
步骤4、对步骤2存在交互的动作类别,考虑人与物时空关系变化规律,搭建人、物空间关系网络模型;
步骤5、对步骤3,步骤4模型整体进行优化,将骨骼、RGB、人物空间关系多模态信息特征进行融合,最后使用已训练好的模型对交互动作进行识别分类。。
本发明的特点还在于:
步骤1具体按照以下步骤实施:
步骤1.1、在NTU RGB+D数据集60类动作中筛选存在人物交互动作类别;
步骤1.2、利用跟踪算法Siam RPN对步骤1.1筛选动作类别物体进行跟踪以获取物体位置(xmin,ymin,w,h);
步骤1.3、每个动作序列物体位置信息以.txt格式保存方便数据的读入与预处理;
步骤1.4、对NTU RGB+D数据集动作场景进行正负样本标定,正样本为存在人物交互,标为1,负样本为不存在人物交互,标为0。
步骤2具体按照以下步骤实施:
步骤2.1、根据人、物重心进行连接,形成特征向量对;
步骤2.2、将特征向量对以时间维度排列编码形成二维矩阵;
步骤2.3、上述二维矩阵以图像形式输入到交互判断网络中进行训练;
步骤2.4、调整网络结构和参数,使模型能准确的判断动作序列是否存在人物交互。
步骤3具体按照以下步骤实施:
步骤3.1、基于3D骨骼数据的行为识别,采用图卷积网络建模有效的获取空间运动信息;
步骤3.2、对图卷积中邻接矩阵重新定义,使模型参数具有权重和注意力,更形象的反映空间连接关系;
步骤3.3、基于RGB特征的行为识别,以不同高度和宽度裁剪动作序列中单帧图片,然后尺度归一化调整到相同大小;
步骤3.4、对裁剪后的动作序列中RGB信息,使用在ImageNet和Kinetics上预先训练的ResNeXt3D-101模型进行训练;
步骤3.5、通过参数调整优化以上模型识别分类性能。
步骤4具体按照以下步骤实施:
步骤4.1、利用关节点位置与物体位置变化关系进行空间建模;
步骤4.2、选取多个关节点与物体进行向量连接,向量方向由关节指向物体;
步骤4.3、以动作序列时间t为行,不同关节点向量为列构建像素矩阵作为输入,采用卷积神经网络进行特征学习并完成动作的分类;
步骤4.4、根据人、物空间关系特征,选择合适网络结构并进行参数调整使性能达到最好。
步骤5具体按照以下步骤实施:
步骤5.1、考虑到特征选择融合互补性,将三支流模型在相同条件下进行融合;
步骤5.2、相同实验基准下,融合各模型对比平均准确率,判断各支流运动信息对最终动作分类是否有补充;
步骤5.3、对数据集中骨骼关节点追踪不准确的负样本进行筛选,以提高模型整体性能;
步骤5.4、将动作序列输入到搭建好的多模态融合网络模型中,计算输出预测分类结果对应的标签。
本发明的有益效果是:
1、本发明多模态特征融合的人物交互行为识别方法使用多特征融合策略使行为数据样本更具表征能力,并改变了原有的深度网络结构与特征编码方式,相比于传统的单一特征提取网络,能更好的对动作进行识别;
2、本发明多模态特征融合的人物交互行为识别方法针对使用的样本数据,通过骨骼关节点可视化发现负样本,误差分析对其进行剔除能更有效的完成网络对数据样本的学习,从而达到更好的分类和识别效果;
3、对于场景中人与物存在交互的动作相互错分概率较高,识别准确率低的问题。分析原因在这些动作都集中在相同身体部位,但用骨骼节点数据表示这些局部细粒度的动作,类间相似度会较高。本发明多模态特征融合的人物交互行为识别方法提出的多模态的融合策略对存在交互的动作引入交互物的RGB信息进行融合能更有效的区分这些动作,解决以上人、物交互动作识别存在的问题。
附图说明
图1是本发明一种多模态特征融合的人物交互行为识别方法的结构框图;
图2是本发明一种多模态特征融合的人物交互行为识别方法人物交互标定示意图;
图3是本发明一种多模态特征融合的人物交互行为识别方法人物交互判断网络结构示意图;
图4是本发明一种多模态特征融合的人物交互行为识别方法人物交互问题示意图;
图5是本发明一种多模态特征融合的人物交互行为识别方法数据预处理前后对比示意图;
图6是本发明一种多模态特征融合的人物交互行为识别方法第三支流(人、物、空间关系建模)示意图;
图7是本发明一种多模态特征融合的人物交互行为识别方法负样本数据示意图.
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明一种多模态特征融合的人物交互行为识别方法,如图1所示,具体按照以下步骤实施:
步骤1、在现有3D骨骼数据集NTU RGB+D中筛选人、物交互动作类别,通过算法标定获取交互物信息;如图2所示,具体按照以下步骤实施:
步骤1.1、NTU RGB+D动作识别数据集由56,880个动作样本组成,包含每个样本的RGB视频,深度图序列,3D骨架数据和红外视频,在NTU RGB+D数据集60类动作中筛选存在人物交互动作类别,喝水,吃东西,阅读,写字等;
步骤1.2、利用基于孪生网络的跟踪算法Siam RPN对步骤1.1筛选动作类别物体进行逐帧跟踪,对丢帧或跟踪失败样本采取手工标注的方式以获取物体位置(xmin,ymin,w,h);
步骤1.3、每个动作序列物体位置信息以.txt格式逐帧保存,方便数据的读入与预处理;
步骤1.4、为解决样本中人与物体是否存在交互的问题,对NTU RGB+D数据集动作场景进行正负样本标定,正样本为存在人物交互,标为1。负样本为不存在人物交互,标为0;
步骤2、通过对步骤1获取的交互物信息基于深度学习的交互物判断算法对步骤1中3D骨骼数据集NTU RGB+D中人、物是否存在交互进行判断,如图3所示,具体按照以下步骤实施:
步骤2.1、根据人、物重心进行连接,形成特征向量对,人、物重心x以及两点间的距离d计算公式如下:
d=(y2-y1)2+(x2-x1)2 (2)
其中(xmin,ymin),(xmax,ymax)分别为所标定物体框左上角和右下角坐标,(x1,y1),(x2,y2)为人和物体的重心坐标位置;
步骤2.2、将特征向量对以空间位置坐标(x,y)和距离d进行排列,时间维度视频进行等间隔采样排列,编码形成二维矩阵;
步骤2.3、编码好的2D图像依次进行卷积、归一化、激活操作,输出图像,具体先用CNN前五层提特征,得到特征向量,再在行(时间上)做池化,池化核6*1,这实现时域上的信息融合,将正负样本输入到网络中进行训练,实现交互判断的功能;
步骤2.4、调整网络结构和参数,包括卷积层数与卷积核大小,非线性激活函数的选用,BatchNorm层的加入,以及损失函数和正则化项的定义,使模型能稳定的判断动作序列是否存在交互情况;
损失函数具体采用交叉熵损失函数,具体计算为:
人物交互动作判断主要问题在于一些动作姿态在骨骼的角度上十分相似,基于骨骼信息的方法无法很好的区分,如图4所示,左边“喝水”和“吃东西”的动作与右边“玩手机”和“敲键盘”的动作姿态极为相似难以区分,导致识别率低,以下步骤解决了这个问题;
步骤3、对步骤2存在交互的动作类别,进行骨骼、RGB信息网络框架模型的搭建,并对模型进行训练,具体按照以下步骤实施:
步骤3.1、基于3D骨骼行为识别,输入时间序列的骨骼数据xt={p1j,p2j,p3j,…,ptj},t∈N表示动作的类别数,pj=(x,y,z)表示第j帧关节的三维坐标(欧几里德空间),采用图卷积网络(GCN)建模获取更多的空间运动信息;
为了使数据表达的更加精确,预处理阶段将每个样本归一化以统一每个通道的数据分布,“脊柱关节”作为坐标原点,每个关节的坐标都减去“脊柱关节”以获得新坐标,最后将身体关节的原始3D位置从相机坐标系转换为身体坐标。对于每个样本执行3D旋转将与向量平行的X轴从“右肩”(第5个关节)固定到“左肩”(第9个关节),并将Y轴固定到“脊柱基部”,如图5所示;
具体地,对于第j帧,空间坐标系的平移参数αj,βj,γj分别表示逆时针旋转空间坐标系x轴,y轴,z轴。因此,第j帧的第k个骨架关节经过旋转移位后坐标可表示为p′j,k=[x′j,k,y′j,k,z′j,k]T=Rj×(pj,k-dj)。其中Rj可表示为:
步骤3.2、对于图的定义,G=(V,E),V为节点集合,E为边的集合,对于每个节点i,均有其特征Xi,可以用矩阵XN*D表示,其中N表示节点数,D表示每个节点的特征数,也可以说是特征向量的维度,图卷积公式如下:
其中f表示特征图,V表示图形的顶点,Bi表示Vi卷积的采样区域,其定义为目标顶点Vi的1个距离的相邻顶点Vj,W是类似于传统卷积运算的加权函数,基于给定的输入提供加权向量,卷积的权重向量的数量是固定的,而Bi中的顶点的数量是变化的,因此,需要一个映射函数li来将所有相邻顶点映射到一个固定编号的子集中,每个子集都与唯一的权重向量相关联;
步骤3.3、原始动作视频帧像素为1920x1080,为了减轻背景的干扰,本发明从原始图像和裁剪人物部分,裁剪位置是从四个角和一个中心随机选择的,根据裁切率[1、0.75、0.5]裁切每个图像,然后尺度归一化调整到相同大小;
步骤3.4、对裁剪后的动作序列中RGB信息,使用4块GTX 2080Ti GPU在ImageNet和Kinetics上预先训练的ResNeXt3D-101模型进行微调训练,batch设置为32;
步骤3.5、学习率以0.01初始化,并在精度达到饱和后乘以0.1,随机梯度下降法SGD用作优化器,权重衰减设置为0.0005。网络迭代60次,通过参数调整使以上模型识别分类性能达到最优;
步骤4、对步骤2存在交互的动作类别,考虑人与物时空关系变化规律,搭建人、物空间关系网络模型;具体按照以下步骤实施:
步骤4.1、步骤1中已得到存在交互动作中物体的空间位置,利用关节点位置与物体位置变化关系进行空间建模;
步骤4.2、如图6所示,选取多个关节点与物体进行向量连接,向量方向由关节指向物体,形成多个向量对;
步骤4.3、以动作序列时间t为行,不同关节点向量为列构建像素矩阵作为输入,采用卷积神经网络进行特征学习并完成动作的分类;
步骤4.4、根据选取特征,特征图输入维度10×10,其结构依次包括输入层、批量归一化层(BN)、激活函数、全局平均池化层、全连接层和Softmax输出层,为防止数据给网络带来的过拟合情况,将数据进行标准化处理,并加入正则化项来重新定义损失函数使网络达到最好收敛:
其中yi是训练数据的真实标签,是模型预测的标签,C是动作类别数,第一项是模型的对数似然函数,该函数模型用来拟合训练数据的概率分布,||w||2代表模型参数W的二范数惩罚项,λ是相应的正则化系数,第二项是模型的参数正则化,可减少过度拟合;
步骤5、对步骤3,步骤4模型整体进行优化,将骨骼、RGB、人物空间关系多模态信息特征进行融合,最后使用已训练好的模型对交互动作进行识别分类;具体按照以下步骤实施:
步骤5.1、考虑到特征选择融合互补性,分别训练测试三支流模型交互动作分类准确率,并将三支流模型在相同条件下进行融合;
步骤5.2、在深度学习中,最基本的融合方法:(1)按点逐位相加(point-wiseaddition)和(2)进行向量拼接(concatenate),而应用在输出层常用的有平均分数融合、最大分数融合,多重积分融合,本发明在平均分数融合的基础上设置加权因子,使融合效果更为出色,最后在相同实验基准下,加入各支流模型对比平均准确率,达到模型整体性能的提升;
步骤5.3、如图7所示,用kinect V2算法采集的NTU RGB+D数据中存在追踪不准确的关节点,为减少这些数据对网络训练的影响,手动筛选负样本以提高模型整体性能;
步骤5.4、所有实验都是在Pytorch深度框架下进行的,warm up epoch设置为5,防止模型出现振荡,学习率设置为0.1,并在第20次迭代和第40次迭代除以10,迭代次数共设置为60,通过多次参数调整使准确率趋于稳定和最高,将动作序列输入到搭建好的多模态融合网络模型中,计算输出预测分类结果对应的标签。
本发明一种多模态特征融合的人物交互行为识别方法通过判断视频中人与物是否存在交互若存在交互,此时利用场景中人的交互物可以对信息进行有效补充从而达到动作分类。现有基于3D行为识别方法所存在的问题,对于场景中人与物存在交互的动作相互错分概率较高,识别准确率低。原因在于人与物产生交互,这些动作都集中在相同身体部位,但用骨骼节点数据表示这些局部细粒度的动作,类间相似度会较高。本发明考虑到人、物交互动作中RGB信息以及物体的时空信息对3D行为识别的互补性,在现有数据集上进行了特征信息的融合来达到更好的识别效果,并且手动剔除了一部分负样本。这种情况下本方法可以有更强的鲁棒性,识别结果可靠性高。
下表是相同实验条件下对NTU RGB+D数据集中13类存在交互问题的动作数据在各模型上的测试结果:
从表中可看出,这13类动作在前3种经典方法中识别率低于整个数据集,实验中单加入RGB信息的2s+TSN(13)2和2s+3D-RS(13)2的方法识别率上有所提升。而本发明多模态融合方法,达到了更好的识别率,说明对于人、物交互问题有效信息的补充能够提高网络模型性能,减少因交互产生错分类情况的影响。
下表是相同实验条件下对NTU RGB+D数据集所有60类动作在各模型上的测试结果。
从表中可以看出该数据集上最经典,最新方法包括传统算法lie Group,基于深度学习递归神经网络(RNN),卷积神经网络(CNN),图卷积网络(GCN)的多种方法,本发明遵循文献中的标准做法,以top1的准确率记录跨对象(X-Sub)和跨视角(X-View)的识别性能,均高于其他方法,证明了该方法的有效性。
Claims (6)
1.一种多模态特征融合的人物交互行为识别方法,其特征在于,具体按照以下步骤实施:
步骤1、在现有3D骨骼数据集NTU RGB+D中筛选人、物交互动作类别,通过算法标定获取交互物信息;
步骤2、通过对步骤1获取的交互物信息基于深度学习的交互物判断算法对步骤1中3D骨骼数据集NTU RGB+D中人、物是否存在交互进行判断;
步骤3、对步骤2存在交互的动作类别,进行骨骼、RGB信息网络框架模型的搭建,并对模型进行训练;
步骤4、对步骤2存在交互的动作类别,考虑人与物时空关系变化规律,搭建人、物空间关系网络模型;
步骤5、对步骤3,步骤4模型整体进行优化,将骨骼、RGB、人物空间关系多模态信息特征进行融合,最后使用已训练好的模型对交互动作进行识别分类。
2.根据权利要求1所述的一种多模态特征融合的人物交互行为识别方法,其特征在于,所述步骤1具体按照以下步骤实施:
步骤1.1、在NTU RGB+D数据集60类动作中筛选存在人物交互动作类别;
步骤1.2、利用跟踪算法Siam RPN对步骤1.1筛选动作类别物体进行跟踪以获取物体位置(xmin,ymin,w,h);
步骤1.3、每个动作序列物体位置信息以.txt格式保存方便数据的读入与预处理;
步骤1.4、对NTU RGB+D数据集动作场景进行正负样本标定,正样本为存在人物交互,标为1,负样本为不存在人物交互,标为0。
3.根据权利要求1所述的一种多模态特征融合的人物交互行为识别方法,其特征在于,所述步骤2具体按照以下步骤实施:
步骤2.1、根据人、物重心进行连接,形成特征向量对;
步骤2.2、将特征向量对以时间维度排列编码形成二维矩阵;
步骤2.3、上述二维矩阵以图像形式输入到交互判断网络中进行训练;
步骤2.4、调整网络结构和参数,使模型能准确的判断动作序列是否存在人物交互。
4.根据权利要求1所述的一种多模态特征融合的人物交互行为识别方法,其特征在于,所述步骤3具体按照以下步骤实施:
步骤3.1、基于3D骨骼数据的行为识别,采用图卷积网络建模有效的获取空间运动信息;
步骤3.2、对图卷积中邻接矩阵重新定义,使模型参数具有权重和注意力,更形象的反映空间连接关系;
步骤3.3、基于RGB特征的行为识别,以不同高度和宽度裁剪动作序列中单帧图片,然后尺度归一化调整到相同大小;
步骤3.4、对裁剪后的动作序列中RGB信息,使用在ImageNet和Kinetics上预先训练的ResNeXt3D-101模型进行训练;
步骤3.5、通过参数调整优化以上模型识别分类性能。
5.根据权利要求1所述的一种多模态特征融合的人物交互行为识别方法,其特征在于,所述步骤4具体按照以下步骤实施:
步骤4.1、利用关节点位置与物体位置变化关系进行空间建模;
步骤4.2、选取多个关节点与物体进行向量连接,向量方向由关节指向物体;
步骤4.3、以动作序列时间t为行,不同关节点向量为列构建像素矩阵作为输入,采用卷积神经网络进行特征学习并完成动作的分类;
步骤4.4、根据人、物空间关系特征,选择合适网络结构并进行参数调整使性能达到最好。
6.根据权利要求1所述的一种多模态特征融合的人物交互行为识别方法,其特征在于,所述步骤5具体按照以下步骤实施:
步骤5.1、考虑到特征选择融合互补性,将三支流模型在相同条件下进行融合;
步骤5.2、相同实验基准下,融合各模型对比平均准确率,判断各支流运动信息对最终动作分类是否有补充;
步骤5.3、对数据集中骨骼关节点追踪不准确的负样本进行筛选,以提高模型整体性能;
步骤5.4、将动作序列输入到搭建好的多模态融合网络模型中,计算输出预测分类结果对应的标签。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110082101.8A CN112784736B (zh) | 2021-01-21 | 2021-01-21 | 一种多模态特征融合的人物交互行为识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110082101.8A CN112784736B (zh) | 2021-01-21 | 2021-01-21 | 一种多模态特征融合的人物交互行为识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112784736A true CN112784736A (zh) | 2021-05-11 |
CN112784736B CN112784736B (zh) | 2024-02-09 |
Family
ID=75758228
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110082101.8A Active CN112784736B (zh) | 2021-01-21 | 2021-01-21 | 一种多模态特征融合的人物交互行为识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112784736B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113255514A (zh) * | 2021-05-24 | 2021-08-13 | 西安理工大学 | 基于局部场景感知图卷积网络的行为识别方法 |
CN113327284A (zh) * | 2021-05-27 | 2021-08-31 | 北京百度网讯科技有限公司 | 图像识别方法、装置、电子设备和存储介质 |
CN113378676A (zh) * | 2021-06-01 | 2021-09-10 | 上海大学 | 基于多特征融合的图像中人物交互检测方法 |
CN113469018A (zh) * | 2021-06-29 | 2021-10-01 | 中北大学 | 基于rgb与三维骨骼的多模态交互行为识别方法 |
CN113643241A (zh) * | 2021-07-15 | 2021-11-12 | 北京迈格威科技有限公司 | 交互关系检测方法、交互关系检测模型训练方法及装置 |
CN113961067A (zh) * | 2021-09-28 | 2022-01-21 | 广东新王牌智能信息技术有限公司 | 基于深度学习的非接触式涂鸦绘制方法与识别交互系统 |
CN114170688A (zh) * | 2022-02-11 | 2022-03-11 | 北京世纪好未来教育科技有限公司 | 人物交互关系识别方法、装置、电子设备 |
CN114578963A (zh) * | 2022-02-23 | 2022-06-03 | 华东理工大学 | 一种基于特征可视化和多模态融合的脑电身份识别方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017133009A1 (zh) * | 2016-02-04 | 2017-08-10 | 广州新节奏智能科技有限公司 | 一种基于卷积神经网络的深度图像人体关节定位方法 |
CN111310707A (zh) * | 2020-02-28 | 2020-06-19 | 山东大学 | 基于骨骼的图注意力网络动作识别方法及系统 |
CN111652124A (zh) * | 2020-06-02 | 2020-09-11 | 电子科技大学 | 一种基于图卷积网络的人体行为识别模型的构建方法 |
CN112084934A (zh) * | 2020-09-08 | 2020-12-15 | 浙江工业大学 | 基于骨骼数据双通道深度可分离卷积的行为识别方法 |
US20210000404A1 (en) * | 2019-07-05 | 2021-01-07 | The Penn State Research Foundation | Systems and methods for automated recognition of bodily expression of emotion |
-
2021
- 2021-01-21 CN CN202110082101.8A patent/CN112784736B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017133009A1 (zh) * | 2016-02-04 | 2017-08-10 | 广州新节奏智能科技有限公司 | 一种基于卷积神经网络的深度图像人体关节定位方法 |
US20210000404A1 (en) * | 2019-07-05 | 2021-01-07 | The Penn State Research Foundation | Systems and methods for automated recognition of bodily expression of emotion |
CN111310707A (zh) * | 2020-02-28 | 2020-06-19 | 山东大学 | 基于骨骼的图注意力网络动作识别方法及系统 |
CN111652124A (zh) * | 2020-06-02 | 2020-09-11 | 电子科技大学 | 一种基于图卷积网络的人体行为识别模型的构建方法 |
CN112084934A (zh) * | 2020-09-08 | 2020-12-15 | 浙江工业大学 | 基于骨骼数据双通道深度可分离卷积的行为识别方法 |
Non-Patent Citations (4)
Title |
---|
张继凯;顾兰君;: "基于骨架信息的人体动作识别与实时交互技术", 内蒙古科技大学学报, no. 03 * |
管珊珊;张益农;: "基于残差时空图卷积网络的3D人体行为识别", 计算机应用与软件, no. 03 * |
董安;左?;孙频捷;: "基于图卷积的骨架行为识别", 现代计算机, no. 02 * |
韩敏捷;: "基于深度学习框架的多模态动作识别", 计算机与现代化, no. 07 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113255514A (zh) * | 2021-05-24 | 2021-08-13 | 西安理工大学 | 基于局部场景感知图卷积网络的行为识别方法 |
CN113327284B (zh) * | 2021-05-27 | 2022-08-26 | 北京百度网讯科技有限公司 | 图像识别方法、装置、电子设备和存储介质 |
CN113327284A (zh) * | 2021-05-27 | 2021-08-31 | 北京百度网讯科技有限公司 | 图像识别方法、装置、电子设备和存储介质 |
CN113378676A (zh) * | 2021-06-01 | 2021-09-10 | 上海大学 | 基于多特征融合的图像中人物交互检测方法 |
CN113469018A (zh) * | 2021-06-29 | 2021-10-01 | 中北大学 | 基于rgb与三维骨骼的多模态交互行为识别方法 |
CN113469018B (zh) * | 2021-06-29 | 2024-02-23 | 中北大学 | 基于rgb与三维骨骼的多模态交互行为识别方法 |
CN113643241A (zh) * | 2021-07-15 | 2021-11-12 | 北京迈格威科技有限公司 | 交互关系检测方法、交互关系检测模型训练方法及装置 |
CN113961067A (zh) * | 2021-09-28 | 2022-01-21 | 广东新王牌智能信息技术有限公司 | 基于深度学习的非接触式涂鸦绘制方法与识别交互系统 |
CN113961067B (zh) * | 2021-09-28 | 2024-04-05 | 广东新王牌智能信息技术有限公司 | 基于深度学习的非接触式涂鸦绘制方法与识别交互系统 |
CN114170688A (zh) * | 2022-02-11 | 2022-03-11 | 北京世纪好未来教育科技有限公司 | 人物交互关系识别方法、装置、电子设备 |
CN114170688B (zh) * | 2022-02-11 | 2022-04-19 | 北京世纪好未来教育科技有限公司 | 人物交互关系识别方法、装置、电子设备 |
CN114578963A (zh) * | 2022-02-23 | 2022-06-03 | 华东理工大学 | 一种基于特征可视化和多模态融合的脑电身份识别方法 |
CN114578963B (zh) * | 2022-02-23 | 2024-04-05 | 华东理工大学 | 一种基于特征可视化和多模态融合的脑电身份识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112784736B (zh) | 2024-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112784736B (zh) | 一种多模态特征融合的人物交互行为识别方法 | |
CN111798475B (zh) | 一种基于点云深度学习的室内环境3d语义地图构建方法 | |
US11830246B2 (en) | Systems and methods for extracting and vectorizing features of satellite imagery | |
CN109544677B (zh) | 基于深度图像关键帧的室内场景主结构重建方法及系统 | |
CN111462120B (zh) | 一种基于语义分割模型缺陷检测方法、装置、介质及设备 | |
CN108416266B (zh) | 一种利用光流提取运动目标的视频行为快速识别方法 | |
CN105869178B (zh) | 一种基于多尺度组合特征凸优化的复杂目标动态场景无监督分割方法 | |
CN107273905B (zh) | 一种结合运动信息的目标主动轮廓跟踪方法 | |
CN109410321A (zh) | 基于卷积神经网络的三维重建方法 | |
CN112258618A (zh) | 基于先验激光点云与深度图融合的语义建图与定位方法 | |
CN112766160A (zh) | 基于多级属性编码器和注意力机制的人脸替换方法 | |
CN108470354A (zh) | 视频目标跟踪方法、装置和实现装置 | |
CN106469465A (zh) | 一种基于灰度和深度信息的三维人脸重建方法 | |
CN110060273B (zh) | 基于深度神经网络的遥感影像滑坡测图方法 | |
CN110852182A (zh) | 一种基于三维空间时序建模的深度视频人体行为识别方法 | |
CN113657414B (zh) | 一种物体识别方法 | |
CN114758288A (zh) | 一种配电网工程安全管控检测方法及装置 | |
CN105574545B (zh) | 街道环境图像多视角语义切割方法及装置 | |
CN112396655B (zh) | 一种基于点云数据的船舶目标6d位姿估计方法 | |
CN109063549A (zh) | 基于深度神经网络的高分辨率航拍视频运动目标检测方法 | |
CN113255514B (zh) | 基于局部场景感知图卷积网络的行为识别方法 | |
CN107609571A (zh) | 一种基于lark特征的自适应目标跟踪方法 | |
CN104463962B (zh) | 基于gps信息视频的三维场景重建方法 | |
CN111428555A (zh) | 一种分关节的手部姿态估计方法 | |
CN111080754A (zh) | 一种头部肢体特征点连线的人物动画制作方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |