CN110555387B - 骨架序列中基于局部关节点轨迹时空卷的行为识别方法 - Google Patents
骨架序列中基于局部关节点轨迹时空卷的行为识别方法 Download PDFInfo
- Publication number
- CN110555387B CN110555387B CN201910711578.0A CN201910711578A CN110555387B CN 110555387 B CN110555387 B CN 110555387B CN 201910711578 A CN201910711578 A CN 201910711578A CN 110555387 B CN110555387 B CN 110555387B
- Authority
- CN
- China
- Prior art keywords
- skeleton
- joint point
- joint
- ljtv
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/245—Classification techniques relating to the decision surface
- G06F18/2451—Classification techniques relating to the decision surface linear, e.g. hyperplane
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/50—Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
Abstract
本发明属于人工智能技术领域,公开了一种骨架序列中基于局部关节点轨迹时空卷的行为识别方法,自输入的RGB视频数据和骨架关节点数据中提取局部关节点轨迹时空卷;利用基于RGB视频数据集的预训练模型提取图像特征;对训练集中每个关节点的每一种不同的特征分别构建码本并且分别进行编码,将n个关节点的特征串联为特征向量;利用SVM分类器进行行为分类与识别。本发明将手工特征以及深度学习特征融合,并使用深度学习方法提取局部特征,多种特征的融合可以达到一个稳定且准确的识别率;本发明使用姿态估计算法估计的2D人体骨架以及RGB视频序列提取特征,成本较低,且精度较高,应用于真实场景有着重要的意义。
Description
技术领域
本发明属于人工智能技术领域,尤其涉及一种骨架序列中基于局部关节点轨迹时空卷的行为识别方法。具体为一种RGB和2D骨架序列中基于局部关节点轨迹时空卷的行为识别方法。
背景技术
目前,业内常用的现有技术是这样的:
随着人工智能技术的发展,以及政府和产业界的投入增多,人工智能产业蓬勃发展,成为当今科学研究的热点。人工智能应用的普及对社会的影响日益凸显,在智能交通、智能家居、智能医疗等民生领域都有着积极的影响。人工智能作为新一轮科技革命的核心力量,推动着国家的进步。行为识别作为人工智能领域的一个分支,同样起着重要的作用。
由于监控设备的普及,产生了大量的视频数据,依赖人工分析海量数据变得尤为困难,行为识别技术的出现,可以快速以及准确的分析视频中人物动作以及突发事件,并快速反馈。因此,很大程度的节省了人力资源,避免紧急情况发生和事态恶化。行为识别关键技术在于如何准确定位目标区域,如何获取鲁棒的行为特征以及准确分类。目前已经提出许多方法,这些方法可以分为基于RGB视频数据,基于深度数据方法,基于骨架数据以及基于多种数据融合的方法。基于骨架数据的方法可以实现目标的快速定位,免去目标定位的步骤,大大提高了算法的效率。并且,随着深度传感器的普及以及一些实时姿态估计算法的出现,基于骨架数据的方法引起了广泛的关注。
首先,在许多基于骨架的行为识别方法中,使用深度信息解决该问题是主流方法。这种方法将人体骨架关节点置于三维空间中,因此骨架具有水平,垂直和深度三个方向的坐标。在视频的每一帧中,每一个关节点都有其对应的三维坐标。人体骨架关节点位置随着时间的变化而变化。许多方法通过分析关节点之间的相对位置,帧间同一关节点的相对位置或者关节点夹角变化对行为进行建模。尽管使用深度数据取得了较好的识别精度,但是由于深度探测器成本较高,并且应用于场景复杂的真实户外场景准确率较低,导致这些方法难以应用于真实场景。
近来,实时人体姿态估计算法的出现,使得从RGB图像序列中直接提取骨架信息变得可能,使用RGB图像序列和2D骨架信息也可以构建紧凑高效的特征。这对行为识别技术应用于真实场景有着重要的意义。
其次,大部分基于骨架的方法使用全局关节点轨迹计算特征,全局的关节点轨迹记录了关节点位置在完整视频中的变化。但是全局特征会受视角变化,动作执行速率变化等因素的影响严重,因此难以对时间信息进行建模。
目前,improved dense trajectory(iDT)方法与本发明较为相似,iDT方法首先在人体区域,通过划分网格的方式在图片的多个尺度上分别密集采样兴趣点并逐帧跟踪点来获取关键点轨迹,为了避免跟踪时出现漂移现象,每隔L帧进行重新采样和跟踪。对于某个特征点在连续的L帧图像上的位置即构成了一段轨迹,后续的特征提取沿着各个轨迹在各个尺度上分别进行。轨迹本身可以构成轨迹形状特征描述子,因此轨迹的位置也作为特征之一。此外,还使用了表征运动信息和表观信息的HOG,HOF,MBH特征,特征是由沿着每一个特征点长度为L的轨迹计算得到。对于一段视频,存在着大量的轨迹,每段轨迹都对应着一组特征(trajectory,HOG,HOF,MBH),之后再对所有关键点轨迹的特征进行编码,得到编码后的特征向量,最后进行的视频分类。
综上所述,现有技术存在的问题是:
(1)利用深度信息的基于骨架的行为识别方法由于深度探测器成本较高,并且应用于场景复杂的真实户外场景准确率较低,难以应用于真实场景。
(2)使用全局关节点轨迹计算特征的骨架识别方法难以对时间信息进行建模。
(3)iDT方法需要密集采样并且跟踪人体区域的兴趣点,大量的采样使得轨迹冗余。不仅消耗内存,而且算法的时间复杂度急剧上升。
(4)现有的技术对全部轨迹点的特征进行编码,但事实上,同一类动作的相同关节点的分布应该一致,对关节点轨迹特征单独编码更加合理。
解决上述技术问题的难度:
(1)基于全局的关节点轨迹特征会受到行为执行的速率,视角变换以及交互物体的影响,能否判断交互物体,对识别准确率也有较大的影响。
(2)由于特征的维度取决于视频的长度而且视频长度各不相同,这就导致了每个视频的关节点轨迹长度和其特征维度不相同。但是,后续的特征分类要求每个视频样本的特征维度相同。
解决上述技术问题的意义:
行为识别广泛应用于智慧医疗,智能视频监控,异常事件检测,病人监护系统,虚拟现实,智能安防,运动员辅助训练等多个领域。准确且高效的进行行为识别是以上应用的关键技术。
本发明解决以上技术问题带来以下意义:首先,RGB视频数据方便获取,骨架数据由于姿态估计算法的成熟也容易得到,因此本方法在数据获取方面成本较低。其次,使用人体关节点作为关键点,降低了算法的时间复杂度。最后,使用分关节编码特征的方式提高了准确率。对实现真实场景中的行为识别有着重要的意义。
发明内容
针对现有技术存在的问题,本发明提供了一种骨架序列中基于关节点轨迹时空卷的行为识别方法。
本发明是这样实现的,一种RGB和2D骨架序列中基于关节点轨迹时空卷的行为识别方法,所述RGB和2D骨架序列中基于关节点轨迹时空卷的行为识别方法包括以下步骤:
步骤一,自输入的RGB视频数据和2D骨架序列中提取局部关节点轨迹时空卷。
步骤二,利用基于RGB视频数据集的预训练模型提取图像梯度直方图特征(HOG),光流直方图特征(HOF),运动边界直方图特征(MBH),以及3D卷积神经网络特征(C3D)四种特征。
步骤三,对训练集中每个关节点的每一种不同的特征分别构建码本并且分别进行编码,将n个关节点的四种特征串联为骨架关节点的特征向量。关节点特征的维度是2*C*(Lhog+Lhof+Lmbh+Lc3d)*n,其中,n是骨架关节点的数量。
步骤四,训练线性SVM分类器,进行行为分类与识别。
进一步,步骤一中,所述自输入的RGB视频数据和2D骨架序列中提取局部关节点轨迹时空卷具体包括:
(1)将输入的RGB视频序列以及2D人体骨架序列数据表示为帧-关节点数据对:D={<f1,s1>,<f2,s2>,…,<fT,sT>}。
(2)将视频中每个关节点Ji的轨迹定义为关节点位置在时间上变化的序列,在视频的每一帧中,提取以关节点为中心的局部图像区域。对于任一关节点i,都有一个局部图像的时间序列,其中是第i个关节点在视频的第t帧周围的图像区域,大小为64*64。
(3)图像时间序列Vi拆分为几个相同长度的短片段,称为LJTV。
(4)输入数据转换为n个LJTV的集合,n个关节点对应于这n个集合,则输入数据可以定义为:
D={V1,V2,…,Vi,…,Vn}
Vi={vi1,vi2,…,vi1,…,vim}
进一步,步骤二中,所述特征提取具体包括:
将LJTV拆分为nt*nx*ny个单元体,nt是LJTV在时间方向上划分的数量,nx和ny是LJTV在图像坐标系下水平和垂直方向上划分的数量;nt=3,nx=2,ny=2;
在每一个细胞体中计算HOG,HOF,MBH和C3D特征;然后将LJTV中的细胞体串联,得到LJTV的特征。
进一步,步骤四中,所述行为分类与识别具体包括:
本发明的另一目的在于提供一种实施所述RGB和2D骨架序列中基于关节点轨迹时空卷的行为识别方法的RGB和2D骨架序列中基于关节点轨迹时空卷的行为识别系统。
本发明的另一目的在于提供一种RGB和2D骨架序列中基于关节点轨迹时空卷的行为识别程序,所述RGB和2D骨架序列中基于关节点轨迹时空卷的行为识别程序实现所述的RGB和2D骨架序列中基于关节点轨迹时空卷的行为识别方法。
本发明的另一目的在于提供一种实现所述RGB和2D骨架序列中基于关节点轨迹时空卷的行为识别方法的信息数据处理终端。
本发明的另一目的在于提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行所述的RGB和2D骨架序列中基于关节点轨迹时空卷的行为识别方法。
综上所述,本发明的优点及积极效果为:
本发明将手工特征(HOG,HOF,MBH)以及深度学习特征(C3D)融合,并且创造性的使用深度学习方法提取局部特征,多种特征的融合可以达到一个稳定且准确的识别率。
本发明与iDT方法有以下区别:
(1)iDT方法需要密集采样并且跟踪人体区域的兴趣点,而本发明LJTV使用骨架关节点作为兴趣点,骨架数据已给出视频中每帧的关节点位置。因此,本发明无需频繁大量的采样,也无需逐帧跟踪关键点获取轨迹。
(2)本发明结合传统手工特征和深度学习特征。
(3)iDT方法的特征编码方式是将所有兴趣点轨迹的特征进行编码,本发明对关节点分别编码。
本发明与现有技术的对比:
(1)由于三维骨架信息的获取需要深度探测器,但是深度探测器成本较高,且真实场景的背景和目标较为复杂,因此将深度探测器应用于真实场景极为困难,识别准确率也无法保证。而本发明使用姿态估计算法估计的2D人体骨架以及RGB视频序列提取特征,成本较低,且精度较高。这对行为识别技术应用于真实场景有着重要的意义。
(2)基于全局的关节点轨迹特征会受到行为执行的速率,视角变换以及交互物体的影响,在图7(a)中,执行动作都是“喝水”,但是,由于视频长度的不同和动作执行速率的不同导致了手部关节点轨迹的长度和频率存在差异。图7(b)中,执行动作相同,由于相机相对于两个执行者的角度不同,所有相同关节点的轨迹仍然存在差异。此外,在图7(c)中,执行动作分别为“喝水”和“打电话”,但是手部关节点轨迹却极为相似,所以判别这两个动作的关键信息是与手部交互的物体,因此能否判断交互物体,对识别准确率也有较大的影响。
为了克服上述问题,本发明设计了一种基于人体骨架的鲁棒的行为表示方法。本发明将2D骨架关节点作为兴趣点,提出了基于2D骨架的局部关节点轨迹时空卷(LJTV)。局部的关节点轨迹是短时的动作片段,是由全局轨迹拆分而成,在每一个短时的动作片段中,动作执行速率和视角的变化相对微弱。采用这样的局部特征,因此对识别带来的影响将会极大的减少。另外,为了获取关节点的表观特征和运动特征以及获取可以判别交互物体的关键信息,对于每一个局部的短时轨迹,在视频的每一帧中抽取关节点周围的图像区域,随后在LJTV中,提取特征。
(3)由于特征的维度取决于视频的长度而且视频长度各不相同,这就导致了每个视频的关节点轨迹长度和其特征维度不相同。但是,后续的特征分类要求每个视频样本的特征维度相同。
而本发明在提取特征后,通过局部特征编码的方法将特征进一步量化为统一的,固定维度的行为特征,解决了上述问题。
(4)已有的方法将全部关键点的轨迹进行编码。但在fisher编码中,fisher向量表示在某些概率模型上特征集的信息分布。由于对于同种动作的同一关节点,他们运动的变化模式相同,所以同种动作同种关节点应该服从同种分布。分别对关节点进行特征编码可以更准确和高效的表示行为。另一方面,许多方法证明,通过一定的策略选择判别力关键点会得到更好的结果,本发明使用分关节点编码便于后续选择判别力关节点。
(5)现有的许多方法,通过采样大量的兴趣点和其轨迹来获得关键判别力信息,这些方法类似于穷举,因此大部分信息是冗余的。关节点运动轨迹可以很好的反映人体行为,是人体行为的一个精简表示。
而本发明仅仅使用15-25个人体骨架关节点作为兴趣点,极大减少了轨迹的数量。因此本发明在减少算法复杂度,时间复杂度的同时保持较高的准确率。
本发明的优点还包括:
(1)本发明使用骨架关节点而非密集采样的关键点,本发明识别准确率为73.75%,密集采样方法的准确率为68.13%,由此可知,本发明使用的特征更紧凑,高效。
(2)多种特征融合的结果如表1所示,表中列出了本发明单独使用手工特征以及融合多种手工特征的结果,编码方式为所有关节点整体编码。HF表示手工特征。融合后的特征与单特征相比都有较大的提升。
表1
方法 | 准确率(%) |
LJTV+HOG | 43.13 |
LJTV+HOF | 60.00 |
LJTV+MBH | 59.38 |
LJTV+HF | 73.75 |
(3)本发明采用分关节点编码的方式,因此可以后续选择判别力关节点以达到更好的结果。表2列出了使用手工特征的一些对比实验,首先对比了分关节点特征以及整体编码特征的结果。其中,分关节的编码准确率为75.63%,整体关节点编码的准确率为73.75%,可以看出分关节点编码的方式远比整体编码的结果好。其次,对比了选择关节点策略不同带来的结果差异,选择上半身关节点分类最好结果为80%,C为码本聚类数量。
表2
(4)单独使用C3D特征,整体编码的准确率为61.88%,使用分关节点编码准确率最高为为70.63%,表3列出了使用不同预训练模型的结果对比。
表3
(5)使用四种手工特征及C3D特征,采用分关节编码的方式结果如表4。最好结果为使用Sport1M作为C3D特征提取模型,使用上半身关节点分类的结果,84.38%。
表4
LJTV+WholeJoints+HF | 75.63 |
LJTV+UpperJoints+HF | 79.38 |
LJTV+WholeJoints+FusionFeature(UCF101) | 79.38 |
LJTV+UpperJoints+FusionFeature(UCF101) | 83.13 |
LJTV+WholeJoints+FusionFeature(Sprort1M) | 80.63 |
LJTV+UpperJoints+FusionFeature(Sprort1M) | 84.38 |
(5)本发明与其它方法对比结果如表5所示,表中列举了不同模态数据输入的方法准确率。
本发明还具备以下积极效果:
本发明使用2D人体骨架以及RGB视频数据,而非使用深度数据,避免了使用深度探测器带来的高成本,更利于本发明应用于真实场景。
本发明使用10个骨架关节点轨迹即可完成行为识别,极大减少了算法的时间复杂度,以及运算量,
本发明采用局部特征,解决了行为识别中遇到的视角变换等问题,同时获取了判别交互物体的关键信息。
本发明结合三种手工特征及一种深度学习特征得到鲁棒的行为特征,四种特征可以很好的表征轨迹的表观信息和行为信息。因此,可以得到稳定,准确的识别率。
本发明对关节点分别进行特征编码,这种编码方式理论上更合理,也便于后续选择判别力关节点。实验结果也证明识别准确率比所有特征全部编码的准确率高。因此可以更准确和高效的表示行为。
附图说明
图1是本发明实施例提供的RGB和2D骨架序列中基于关节点轨迹时空卷的行为识别方法流程图。
图2是本发明实施例提供的RGB和2D骨架序列中基于关节点轨迹时空卷的行为识别方法原理图。
图3是本发明实施例提供的fishervector对每个关节点编码过程示意图。
图4是本发明实施例提供的计算手工特征流程图。
图5是本发明实施例提供的人体骨架结构示意图。
图6是本发明实施例提供的C3D架构图。
图7是本发明实施例提供的基于骨架的行为识别面临的问题效果示意图。
图中:(a)动作相同,执行速率不同;(b)动作相同,视角不同;(c)动作不同,轨迹相似。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
利用深度信息的基于骨架的行为识别方法由于深度探测器成本较高,并且应用于场景复杂的真实户外场景准确率较低,难以应用于真实场景。使用全局关节点轨迹计算特征的骨架识别方法难以对时间信息进行建模。iDT方法需要密集采样并且跟踪人体区域的兴趣点。
为解决上述问题,下面结合附图对本发明的技术方案作详细说明。
如图1所示,本发明实施例提供的RGB和2D骨架序列中基于关节点轨迹时空卷的行为识别方法包括以下步骤:
S101,自输入的RGB视频数据和2D骨架序列中提取局部关节点轨迹时空卷。
S102,利用基于RGB视频数据集的预训练模型提取图像梯度直方图特征(HOG),光流直方图特征(HOF),运动边界直方图特征(MBH),以及3D卷积神经网络特征(C3D)四种特征。
S103,对训练集中每个关节点的每一种不同的特征分别构建码本并且分别进行编码,将n个关节点的四种特征串联为骨架关节点的特征向量;关节点特征的维度是2*C*(Lhog+Lhof+Lmbh+Lc3d)*n,其中,n是骨架关节点的数量。
S104,训练线性SVM分类器,进行行为分类与识别。
步骤S101中,本发明实施例提供的自输入的RGB视频数据中提取局部关节点轨迹时空卷具体包括:
(1)将输入的RGB视频序列以及2D人体骨架序列数据表示为帧-关节点数据对:D={<f1,s1>,<f2,s2>,…,<fT,sT>}。
(2)将视频中每个关节点Ji的轨迹定义为关节点位置在时间上变化的序列,在视频的每一帧中,提取以关节点为中心的局部图像区域;对于任一关节点i,都有一个局部图像的时间序列,其中是第i个关节点在视频的第t帧周围的图像区域,大小为64*64。
(3)图像时间序列Vi拆分为几个相同长度的短片段,称为LJTV。
(4)输入数据转换为n个LJTV的集合,n个关节点对应于这n个集合,则输入数据可以定义为:
D={V1,V2,…,Vi,…,Vn}
Vi={vi1,vi2,…,vi1,…,vim}
图2是本发明实施例提供的RGB和2D骨架序列中基于关节点轨迹时空卷的行为识别方法原理图。
图3是本发明实施例提供的fisher vector对每个关节点编码过程示意图。
如图4所示,步骤S102中,本发明实施例提供的特征提取具体包括:
将LJTV拆分为nt*nx*ny个单元体,nt是LJTV在时间方向上划分的数量,nx和ny是LJTV在图像坐标系下水平和垂直方向上划分的数量;nt=3,nx=2,ny=2;
在每一个细胞体中计算HOG,HOF,MBH和C3D特征;然后将LJTV中的细胞体串联,得到LJTV的特征。
步骤S104中,本发明实施例提供的行为分类与识别具体包括:
下面结合具体实施例对本发明的技术方案作进一步说明。
实施例1:
本发明使用RGB视频数据以及2D人体骨架数据进行行为识别。本发明提出的方法流程沿袭经典的基于局部特征的行为识别流程:检测时空兴趣点,特征提取,构建词袋模型,以及分类。具体分为四个步骤:提取局部关节点轨迹时空卷(LJTV),特征提取,特征编码,行为分类。原理图如图2所示,下面详细介绍每一个步骤:
步骤1,提取局部关节点轨迹时空卷:
人体骨架包含15-25个关节点,不同的数据有不同的关节点数量,但是本发明算法不受关节点数量的约束。
本发明以20个关节点的人体骨架为例,结构如图5所示。2D人体骨架在图像坐标系中,有水平和垂直两个方向的坐标。人体行为可以看作是骨架关节点位置在随着时间的变化而变化,也就是在视频的每一帧中,骨架关节点都有不同的二维坐标。
因此,可以将输入的RGB视频序列以及2D人体骨架序列数据表示为帧-关节点数据对:D={<f1,s1>,<f2,s2>,…,〈fT,sT>}。其中,ft是视频中的第t帧,在第t帧的人体骨架表示为st,T代表视频的总帧数。
基于以上定义,视频中每个关节点Ji的轨迹可以定义为关节点位置在时间上变化的序列,在视频的每一帧中,提取以关节点为中心的局部图像区域。因此对于任一关节点i,都有一个局部图像的时间序列,这里,是第i个关节点在视频的第t帧周围的图像区域,大小为64*64。最后,图像时间序列Vi拆分为几个相同长度的短片段,叫做LJTV。最后,输入数据转换为n个LJTV的集合,n个关节点对应于这n个集合,因此,输入数据可以定义为:
D={V1,V2,…,Vi,…,Vn}
Vi={vi1,vi2,…,vi1,…,vim}。
步骤2,提取特征:
得到LJTV后,提取特征的步骤在LJTV中进行。主要提取四种特征:图像梯度直方图特征(HOG),光流直方图特征(HOF),运动边界直方图特征(MBH),以及3D卷积神经网络特征(C3D)。
HOG特征是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子,它通过计算和统计图像局部区域的梯度方向直方图来构成特征;HOF特征与HOG特征类似,是对光流方向进行加权统计,得到光流方向信息直方图,他对尺度和运动方向不敏感,通常用于动作识别中;MBH特征将x方向和y方向上的光流图像视作两张灰度图像,然后提取这些灰度图像的梯度直方图。即MBH特征是分别在图像的x和y方向光流图像上计算HOG特征;C3D特征基于深度学习,使用3D卷积神经网络学习视频的行为特征。C3D的架构如图6所示。C3D有8个卷积层,5个最大池化层,以及两个全连接层。
在计算手工特征的过程中,将LJTV拆分为nt*nx*ny的单元体,流程如图4所示其中,nt是LJTV在时间方向上划分的数量,nx和ny是LJTV在图像坐标系下水平和垂直方向上划分的数量;nt=3,nx=2,ny=2;
在每一个细胞体中计算HOG,HOF,MBH特征,最后将LJTV中的单元体串联,得到LJTV的手工特征。
由于LJTV是视频的局部特征,所以没有对应的动作标签,本发明使用类似UCF101或者Sport1M的基于RGB视频数据集的预训练模型来提取深度特征。在实验中,使用最后一层卷积层的特征作为LJTV的特征,最后将手工特征和深度特征融合作为LJTV的特征。
步骤3,特征编码:
提取LJTV特征后,将每一个LJTV特征集合编码为特征向量。
fisher vector的使用高斯混合模型计算特征集合的码本。Fisher Vector利用的是多个高斯分布对于权重、均值、方差求偏导数得来的。Fisher Vector的维度为2CL,C是高斯聚类的个数。为了减少Fisher Vector的维度,使用主成分分析(PCA)进行降维,L是原始特征降维后的维度,表示为L=r*Lo,其中,Lo是原始特征的维度,r是降维的比例。最后,使用L2正则化处理Fisher vector。
本发明对训练集中每个关节点的每一种不同的特征分别构建码本并且分别进行编码,最终将n个关节点的四种特征串联为骨架关节点的特征向量。关节点特征的维度是2*C*(Lhog+Lhof+Lmbh+Lc3d)*n,具体过程如图3所示,n是骨架关节点的数量。
步骤4,行为分类:
使用以上步骤提取的特征,训练线性SVM分类器,完成行为识别。完整算法流程如算法1所示。
下面结合实验结果对本发明作进一步。
1)本发明使用骨架关节点而非密集采样的关键点,本发明识别准确率为73.75%,密集采样方法的准确率为68.13%,由此可知,本发明使用的特征更紧凑,高效。
2)多种特征融合的结果如表1所示,表中列出了本发明单独使用手工特征以及融合多种手工特征的结果,编码方式为所有关节点整体编码。HF表示手工特征。融合后的特征与单特征相比都有较大的提升。
表1
方法 | 准确率(%) |
LJTV+HOG | 43.13 |
LJTV+HOF | 60.00 |
LJTV+MBH | 59.38 |
LJTV+HF | 73.75 |
3)本发明采用分关节点编码的方式,因此可以后续选择判别力关节点以达到更好的结果。表2列出了使用手工特征的一些对比实验,首先对比了分关节点特征以及整体编码特征的结果。其中,分关节的编码准确率为75.63%,整体关节点编码的准确率为73.75%,可以看出分关节点编码的方式远比整体编码的结果好。其次,对比了选择关节点策略不同带来的结果差异,选择上半身关节点分类最好结果为80%,C为码本聚类数量。
表2
4)单独使用C3D特征,整体编码的准确率为61.88%,使用分关节点编码准确率最高为为70.63%,表3列出了使用不同预训练模型的结果对比。
表3
5)C3D特征与手工特征融合的最好结果为82.50%,比手工特征融合的方法提高2.5个百分点,选择上半身关节点训练准确率达到84.38%,对于选择关节点,本发明只进行了简单的尝试,如使用更有效的关节点选择方法,必定可以达到更好的效果。结果对比如表4所示。
表4
6)本发明的实验结果表明,特征融合以及对关节点分别编码的方式是有效的。
本发明与其它方法对比结果如表5所示,表中列举了不同模态数据输入的方法准确率。
表5
在本发明实施例中,图7是本发明实施例提供的基于骨架的行为识别面临的问题效果。
图中(a)动作相同,执行速率不同;(b)动作相同,视角不同;(c)动作不同,轨迹相似。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种RGB和2D骨架序列中基于局部关节点轨迹时空卷的行为识别方法,其特征在于,所述RGB和2D骨架序列中基于局部关节点轨迹时空卷的行为识别方法包括以下步骤:
步骤一,自输入的RGB视频数据和2D的骨架序列中提取局部关节点轨迹时空卷;
步骤二,利用基于RGB视频数据集的预训练模型提取图像梯度直方图特征HOG,光流直方图特征HOF,运动边界直方图特征MBH,以及3D卷积神经网络特征C3D四种特征;
步骤三,对训练集中每个关节点的每一种不同的特征分别构建码本并且分别进行编码,将n个关节点的四种特征串联为骨架关节点的特征向量;关节点特征的维度是2*C*(Lhog+Lhof+Lmbh+Lc3d)*n,其中,n是骨架关节点的数量,C为码本聚类数量;
步骤四,训练线性SVM分类器,进行行为分类与识别;
步骤一中,所述自输入的RGB视频数据和2D骨架序列中提取局部关节点轨迹时空卷具体包括:
(1)将输入的RGB视频序列以及2D人体骨架序列数据表示为帧-关节点数据对:D={<f1,s1>,<f2,s2>,…,<fT,sT>};
(2)将视频中每个关节点Ji的轨迹定义为关节点位置在时间上变化的序列,在视频的每一帧中,提取以关节点为中心的局部图像区域;对于任一关节点i,都有一个局部图像的时间序列,其中是第i个关节点在视频的第t帧周围的图像区域,大小为64*64;
(3)图像时间序列Vi拆分为若干个相同长度的短片段,称为LJTV;
(4)输入数据转换为n个LJTV的集合,n个关节点对应于这n个集合,则输入数据定义为:
D={V1,V2,…,Vi,…,Vn}
Vi={vi1,vi2,…,vi1,…,vim}
2.如权利要求1所述RGB和2D骨架序列中基于局部关节点轨迹时空卷的行为识别方法,其特征在于,步骤二中,特征提取具体包括:
将LJTV拆分为nt*nx*ny个单元体,nt是LJTV在时间方向上划分的数量,nx和ny是LJTV在图像坐标系下水平和垂直方向上划分的数量;nt=3,nx=2,ny=2;
在每一个单元体中计算HOG,HOF,MBH和C3D特征;然后将LJTV中的单元体串联,得到LJTV的特征。
3.如权利要求1所述RGB和2D骨架序列中基于局部关节点轨迹时空卷的行为识别方法,其特征在于,步骤四中,所述行为分类与识别具体包括:
训练阶段:
输入:视频序列,2D骨架序列
输出:码本列表,行为分类结果
身体骨架中的每个关节定义为训练LJTV的特征集Vi,i=1,2,…,n
repeat
for骨架中每一个关节点i do
从视频和2D骨架数据中提取LJTV特征集合eVi
将eVi加入Vi
end
until遍历训练集中的全部数据
for关节点i
对训练集中每一个关节点的LJTV特征集合Vi构建码本Ci
end
for训练集的数据输入
for骨架中每一个关节点i do
基于eVi和Ci计算fisher向量
end
串联关节点的fisher向量得到行为特征
end
训练线性SVM分类器
测试阶段
输入:视频序列,2D骨架序列
输出:行为类别标签
for骨架中的每个关节点i do
从视频和2D骨架数据中提取LJTV特征集合eVi
基于eVi和Ci计算fisher向量
end
串联关节点fisher向量作为行为特征
分类并预测行为类别标签。
4.一种实施权利要求1所述RGB和2D骨架序列中基于局部关节点轨迹时空卷的行为识别方法的RGB和2D骨架序列中基于局部关节点轨迹时空卷的行为识别系统。
5.一种实现权利要求1~3任意一项所述RGB和2D骨架序列中基于局部关节点轨迹时空卷的行为识别方法的信息数据处理终端。
6.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1-3任意一项所述的RGB和2D骨架序列中基于局部关节点轨迹时空卷的行为识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910711578.0A CN110555387B (zh) | 2019-08-02 | 2019-08-02 | 骨架序列中基于局部关节点轨迹时空卷的行为识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910711578.0A CN110555387B (zh) | 2019-08-02 | 2019-08-02 | 骨架序列中基于局部关节点轨迹时空卷的行为识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110555387A CN110555387A (zh) | 2019-12-10 |
CN110555387B true CN110555387B (zh) | 2022-07-19 |
Family
ID=68736850
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910711578.0A Active CN110555387B (zh) | 2019-08-02 | 2019-08-02 | 骨架序列中基于局部关节点轨迹时空卷的行为识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110555387B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111242068B (zh) * | 2020-01-17 | 2021-03-02 | 科大讯飞(苏州)科技有限公司 | 基于视频的行为识别方法、装置、电子设备和存储介质 |
CN111325253B (zh) * | 2020-02-12 | 2023-05-05 | 杭州涂鸦信息技术有限公司 | 一种基于深度学习的双流法行为识别方法及系统 |
CN111291695B (zh) * | 2020-02-17 | 2023-05-23 | 全球能源互联网研究院有限公司 | 人员违章行为识别模型训练方法、识别方法及计算机设备 |
CN111310689B (zh) * | 2020-02-25 | 2023-04-07 | 陕西科技大学 | 潜在信息融合的家庭安防系统中的人体行为识别的方法 |
CN111401230B (zh) * | 2020-03-13 | 2023-11-28 | 深圳市商汤科技有限公司 | 姿态估计方法及装置、电子设备和存储介质 |
CN111898571A (zh) * | 2020-08-05 | 2020-11-06 | 北京华捷艾米科技有限公司 | 动作识别系统及方法 |
CN111967379B (zh) * | 2020-08-14 | 2022-04-08 | 西北工业大学 | 一种基于rgb视频和骨架序列的人体行为识别方法 |
CN111914798B (zh) * | 2020-08-17 | 2022-06-07 | 四川大学 | 基于骨骼关节点数据的人体行为识别方法 |
CN117253196B (zh) * | 2023-11-17 | 2024-02-02 | 本溪钢铁(集团)信息自动化有限责任公司 | 钢铁行业中基于视频的安全风险监控方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105787458A (zh) * | 2016-03-11 | 2016-07-20 | 重庆邮电大学 | 基于人工设计特征和深度学习特征自适应融合的红外行为识别方法 |
CN105912985A (zh) * | 2016-04-01 | 2016-08-31 | 上海理工大学 | 基于能量函数的人体骨架关节点的行为动作表示方法 |
CN106778854A (zh) * | 2016-12-07 | 2017-05-31 | 西安电子科技大学 | 基于轨迹和卷积神经网络特征提取的行为识别方法 |
CN107169415A (zh) * | 2017-04-13 | 2017-09-15 | 西安电子科技大学 | 基于卷积神经网络特征编码的人体动作识别方法 |
CN109508684A (zh) * | 2018-11-21 | 2019-03-22 | 中山大学 | 一种视频中人体行为识别的方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10242266B2 (en) * | 2016-03-02 | 2019-03-26 | Mitsubishi Electric Research Laboratories, Inc. | Method and system for detecting actions in videos |
-
2019
- 2019-08-02 CN CN201910711578.0A patent/CN110555387B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105787458A (zh) * | 2016-03-11 | 2016-07-20 | 重庆邮电大学 | 基于人工设计特征和深度学习特征自适应融合的红外行为识别方法 |
CN105912985A (zh) * | 2016-04-01 | 2016-08-31 | 上海理工大学 | 基于能量函数的人体骨架关节点的行为动作表示方法 |
CN106778854A (zh) * | 2016-12-07 | 2017-05-31 | 西安电子科技大学 | 基于轨迹和卷积神经网络特征提取的行为识别方法 |
CN107169415A (zh) * | 2017-04-13 | 2017-09-15 | 西安电子科技大学 | 基于卷积神经网络特征编码的人体动作识别方法 |
CN109508684A (zh) * | 2018-11-21 | 2019-03-22 | 中山大学 | 一种视频中人体行为识别的方法 |
Non-Patent Citations (3)
Title |
---|
3D skeleton-based human action classification: A survey;Liliana Lo Presti et al.;《Pattern Recognition》;20151202;第130-147页 * |
基于关节点运动轨迹的人体动作识别;王松 等;《宁夏大学学报(自然科学版)》;20170630;第38卷(第2期);第147-152页 * |
基于深度图像序列的人体动作识别方法研究;姬晓鹏;《中国优秀博硕士学位论文全文数据库(博士) 信息科技辑》;20190215(第02期);论文第29-34页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110555387A (zh) | 2019-12-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110555387B (zh) | 骨架序列中基于局部关节点轨迹时空卷的行为识别方法 | |
WO2020108362A1 (zh) | 人体姿态检测方法、装置、设备及存储介质 | |
CN107145862B (zh) | 一种基于霍夫森林的多特征匹配多目标跟踪方法 | |
CN110717411A (zh) | 一种基于深层特征融合的行人重识别方法 | |
CN106203423B (zh) | 一种融合上下文探测的弱结构感知视觉目标跟踪方法 | |
CN109190561B (zh) | 一种视频播放中的人脸识别方法及系统 | |
CN107818307B (zh) | 一种基于lstm网络的多标签视频事件检测方法 | |
CN113378600B (zh) | 一种行为识别方法及系统 | |
CN110827312B (zh) | 一种基于协同视觉注意力神经网络的学习方法 | |
CN108764019A (zh) | 一种基于多源深度学习的视频事件检测方法 | |
CN112784756B (zh) | 人体识别跟踪方法 | |
CN111881731A (zh) | 基于人体骨架的行为识别方法、系统、装置及介质 | |
Hammam et al. | Real-time multiple spatiotemporal action localization and prediction approach using deep learning | |
CN112906520A (zh) | 一种基于姿态编码的动作识别方法及装置 | |
CN111723667A (zh) | 基于人体关节点坐标的智慧灯杆人群行为识别方法和装置 | |
CN110348492A (zh) | 一种基于上下文信息及多特征融合的相关滤波目标跟踪方法 | |
CN115577768A (zh) | 半监督模型训练方法和装置 | |
CN113657414B (zh) | 一种物体识别方法 | |
Zhai et al. | Pgmanet: Pose-guided mixed attention network for occluded person re-identification | |
Zheng et al. | Attention assessment based on multi‐view classroom behaviour recognition | |
CN113283334A (zh) | 一种课堂专注度分析方法、装置和存储介质 | |
CN107220597B (zh) | 一种基于局部特征和词袋模型人体动作识别过程的关键帧选取方法 | |
CN115797827A (zh) | 一种基于双流网络架构的ViT的人体行为识别方法 | |
Ma et al. | Convolutional transformer network for fine-grained action recognition | |
Yoon et al. | Spatio-temporal representation matching-based open-set action recognition by joint learning of motion and appearance |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |