CN111783711B - 基于身体部件层面的骨架行为识别方法及装置 - Google Patents

基于身体部件层面的骨架行为识别方法及装置 Download PDF

Info

Publication number
CN111783711B
CN111783711B CN202010658060.8A CN202010658060A CN111783711B CN 111783711 B CN111783711 B CN 111783711B CN 202010658060 A CN202010658060 A CN 202010658060A CN 111783711 B CN111783711 B CN 111783711B
Authority
CN
China
Prior art keywords
skeleton
matrix
dimensional coordinate
behavior recognition
output characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010658060.8A
Other languages
English (en)
Other versions
CN111783711A (zh
Inventor
王亮
黄岩
黄林江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202010658060.8A priority Critical patent/CN111783711B/zh
Publication of CN111783711A publication Critical patent/CN111783711A/zh
Application granted granted Critical
Publication of CN111783711B publication Critical patent/CN111783711B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及计算机视觉技术领域,具体涉及一种基于身体部件层面的骨架行为识别方法及装置。为了解决现有技术行为识别的准确率较低,无法满足实际使用过程的需要的问题,本发明提出一种基于身体部件层面的骨架行为识别方法及装置,该方法包括获取待识别视频中目标对象的第一骨架三维坐标,其中,第一骨架三维坐标包括第一差值三维坐标、第一相对三维坐标以及第一关节点三维坐标;基于第一骨架三维坐标,通过预先训练好的骨架行为识别模型,确定目标对象处于多个预设骨架行为类型的概率;将概率大于预设阈值的预设骨架行为类型作为目标对象对应的骨架行为类型。利用本发明的方法能够有效提高行为识别准确率。

Description

基于身体部件层面的骨架行为识别方法及装置
技术领域
本发明涉及计算机视觉技术领域,具体涉及一种基于身体部件层面的骨架行为识别方法及装置。
背景技术
行为识别是计算机视觉任务中重要且具有挑战性的任务,在安防监控、智能视频分析、人机交互等领域具有广泛的应用。随着人体姿态估计技术的发展,基于人体骨架的行为识别在近几年的研究中受到广泛的关注。
由于人体骨架天然具有的图结构,现有的人体骨架行为识别方法主要采用图卷积网络作为主要框架,但是其行为识别的准确率较低,无法满足实际使用过程的需要。
因此,如何提出一种提高行为识别准确率的方法是本领域技术人员需要解决的技术问题。
发明内容
为了解决现有技术中的上述问题,本发明的第一方面提供了一种基于身体部件层面的骨架行为识别方法,所述方法包括:
获取待识别视频中目标对象的第一骨架三维坐标,其中,所述第一骨架三维坐标包括第一差值三维坐标、第一相对三维坐标以及第一关节点三维坐标,所述第一差值三维坐标为所述待识别视频中相邻两帧同一目标对象的骨架三维坐标差,所述第一相对三维坐标为所述目标对象的各个关节点相对于所述目标对象的人体中心的三维坐标,所述第一关节点三维坐标为所述目标对象的各个关节点相对于预设坐标中心的三维坐标;
基于所述第一骨架三维坐标,通过预先训练好的骨架行为识别模型,确定所述目标对象处于多个预设骨架行为类型的概率,其中,所述骨架行为识别模型是基于图卷积神经网络构建的模型,并且基于预设的训练样本进行骨架行为识别优化;
将概率大于预设阈值的预设骨架行为类型作为所述目标对象对应的骨架行为类型。
优选地,所述训练样本包括多个预设对象的第一骨架三维坐标,“基于预设的训练样本进行骨架行为识别优化”,其方法包括:
将所述第一骨架三维坐标输入待训练的骨架行为识别模型的图卷积层,获得第一输出特征;
将所述第一骨架三维坐标输入待训练的骨架行为识别模型的卷积层,获得第二输出特征,其中,所述第二输出特征的数据维度与预设的人体部件数量相同;
对所述第二输出特征进行第一归一化操作,获得第一矩阵,其中,所述第一归一化操作包括soft-max操作以及L2归一化操作;
根据所述第一矩阵、待训练的骨架行为识别模型的图卷积层以及所述第一矩阵的转置矩阵,对所述第一骨架三维坐标依次进行池化操作,图卷积操作以及反池化操作,获得第三输出特征,其中,所述第三输出特征的数据维度与预设的人体关节图的大小相同;
将所述第一骨架三维坐标输入待训练的骨架行为识别模型的卷积层,获得第四输出特征,其中,所述第四输出特征的数据维度与预设的人体部件数量相同;
对所述第四输出特征进行第一归一化操作,获得第二矩阵;
将所述第一骨架三维坐标输入待训练的骨架行为识别模型的卷积层,获得第五输出特征,其中,所述第五输出特征的数据维度与预设的人体部件数量相同;
对所述第五输出特征进行第二归一化操作,获得第三矩阵,其中,所述第二归一化操作包括soft-max操作;
根据所述第二矩阵、第三矩阵对所述第一骨架三维坐标依次进行池化操作、反池化操作,获得第六输出特征,其中,所述第六输出特征的数据维度与预设的人体关节图的大小相同;
将所述第一输出特征、所述第三输出特征以及所述第六输出特征相加,并进行全局平均池化操作,获得第七输出特征向量;
根据所述第七输出特征向量,通过反向传播算法以及随机梯度下降算法训练所述待训练的骨架行为识别模型,以使所述待训练的骨架行为识别模型的预测结果满足预设的误差条件。
优选地,所述第一矩阵对应的损失函数包括:
Figure GDA0003784495460000031
其中,
Figure GDA0003784495460000032
表示所述第一矩阵对应的损失函数的值,Pr表示所述第一矩阵,
Figure GDA0003784495460000033
表示所述第一矩阵的转置矩阵,1表示矩阵元素全为1的矩阵,I表示单位矩阵。
优选地,所述第二矩阵对应的损失函数包括:
Figure GDA0003784495460000034
其中,
Figure GDA0003784495460000035
表示所述第二矩阵对应的损失函数的值,Pa表示所述第二矩阵,
Figure GDA0003784495460000036
表示所述第二矩阵的转置矩阵,1表示矩阵元素全为1的矩阵,I表示单位矩阵。
优选地,所述第七输出特征向量对应的损失函数包括:
Figure GDA0003784495460000037
其中,
Figure GDA0003784495460000038
表示所述第七输出特征向量对应的损失函数的值,C表示行为类别数量,yc表示行为类别c所对应的真实概率,
Figure GDA0003784495460000039
表示行为类别c所对应的预测概率。
优选地,在“获得第七输出特征向量”的步骤之后,“通过反向传播算法以及随机梯度下降算法训练所述待训练的骨架行为识别模型”的步骤之前,所述方法还包括按照如下公式所示的方法,获取所述待训练的骨架行为识别模型的全局损失:
Figure GDA00037844954600000310
其中,
Figure GDA00037844954600000311
表示所述待训练的骨架行为识别模型的全局损失,
Figure GDA00037844954600000312
表示所述第七输出特征向量对应的损失函数的值,λr和λa表示调节参数,用于调节损失函数的权重的比值,S表示所述骨架行为识别模型的网络层数,
Figure GDA00037844954600000313
表示预先获取的第一矩阵对应的损失函数的值,
Figure GDA00037844954600000314
表示预先获取的第二矩阵对应的损失函数的值。
本发明的第二方面提供了一种基于身体部件层面的骨架行为识别装置,所述装置包括:
坐标获取模块,用于获取待识别视频中目标对象的第一骨架三维坐标,其中,所述第一骨架三维坐标包括第一差值三维坐标、第一相对三维坐标以及第一关节点三维坐标,所述第一差值三维坐标为所述待识别视频中相邻两帧同一目标对象的骨架三维坐标差,所述第一相对三维坐标为所述目标对象的各个关节点相对于所述目标对象的人体中心的三维坐标,所述第一关节点三维坐标为所述目标对象的各个关节点相对于预设坐标中心的三维坐标;
行为识别模块,用于基于所述第一骨架三维坐标,通过预先训练好的骨架行为识别模型,确定所述目标对象处于多个预设骨架行为类型的概率,其中,所述骨架行为识别模型是基于图卷积神经网络构建的模型,并且基于预设的训练样本进行骨架行为识别优化;
将概率大于预设阈值的预设骨架行为类型作为所述目标对象对应的骨架行为类型。
优选地,所述训练样本包括多个预设对象的第一骨架三维坐标,所述行为识别模块还用于:
将所述第一骨架三维坐标输入待训练的骨架行为识别模型的图卷积层,获得第一输出特征;
将所述第一骨架三维坐标输入待训练的骨架行为识别模型的卷积层,获得第二输出特征,其中,所述第二输出特征的数据维度与预设的人体部件数量相同;
对所述第二输出特征进行第一归一化操作,获得第一矩阵,其中,所述第一归一化操作包括soft-max操作以及L2归一化操作;
根据所述第一矩阵、待训练的骨架行为识别模型的图卷积层以及所述第一矩阵的转置矩阵,对所述第一骨架三维坐标依次进行池化操作,图卷积操作以及反池化操作,获得第三输出特征,其中,所述第三输出特征的数据维度与预设的人体关节图的大小相同;
将所述第一骨架三维坐标输入待训练的骨架行为识别模型的卷积层,获得第四输出特征,其中,所述第四输出特征的数据维度与预设的人体部件数量相同;
对所述第四输出特征进行第一归一化操作,获得第二矩阵;
将所述第一骨架三维坐标输入待训练的骨架行为识别模型的卷积层,获得第五输出特征,其中,所述第五输出特征的数据维度与预设的人体部件数量相同;
对所述第五输出特征进行第二归一化操作,获得第三矩阵,其中,所述第二归一化操作包括soft-max操作;
根据所述第二矩阵、第三矩阵对所述第一骨架三维坐标依次进行池化操作、反池化操作,获得第六输出特征,其中,所述第六输出特征的数据维度与预设的人体关节图的大小相同;
将所述第一输出特征、所述第三输出特征以及所述第六输出特征相加,并进行全局平均池化操作,获得第七输出特征向量;
根据所述第七输出特征向量,通过反向传播算法以及随机梯度下降算法训练所述待训练的骨架行为识别模型,以使所述待训练的骨架行为识别模型的预测结果满足预设的误差条件。
优选地,所述第一矩阵对应的损失函数包括:
Figure GDA0003784495460000051
其中,
Figure GDA0003784495460000052
表示所述第一矩阵对应的损失函数的值,Pr表示所述第一矩阵,
Figure GDA0003784495460000053
表示所述第一矩阵的转置矩阵,1表示矩阵元素全为1的矩阵,I表示单位矩阵。
优选地,所述第二矩阵对应的损失函数包括:
Figure GDA0003784495460000054
其中,
Figure GDA0003784495460000055
表示所述第二矩阵对应的损失函数的值,Pa表示所述第二矩阵,
Figure GDA0003784495460000056
表示所述第二矩阵的转置矩阵,1表示矩阵元素全为1的矩阵,I表示单位矩阵。
优选地,所述第三矩阵对应的损失函数包括:
Figure GDA0003784495460000057
其中,
Figure GDA0003784495460000058
表示所述第三矩阵对应的损失函数的值,C表示行为类别数量,yc表示行为类别c所对应的真实概率,
Figure GDA0003784495460000059
表示行为类别c所对应的预测概率。
优选地,所述装置还包括全局损失获取模块,所述全局损失获取模块用于:
按照如下公式所示的方法,获取所述待训练的骨架行为识别模型的全局损失:
Figure GDA00037844954600000510
其中,
Figure GDA00037844954600000511
表示所述待训练的骨架行为识别模型的全局损失,
Figure GDA00037844954600000512
表示所述第七输出特征向量对应的损失函数的值,λr和λa表示调节参数,用于调节损失函数的权重的比值,S表示所述骨架行为识别模型的网络层数,
Figure GDA0003784495460000061
表示预先获取的第一矩阵对应的损失函数的值,
Figure GDA0003784495460000062
表示预先获取的第二矩阵对应的损失函数的值。
本发明提供的方法能够利用从待识别视频中获取的目标对象的第一骨架三维坐标,并基于第一骨架三维坐标,通过骨架行为识别模型确定目标对象处于多个预设骨架行为类型的概率,一方面骨架行为识别模型能够进行端到端的学习,另一方面可以根据人体关节点与人体部件的对应关系,使骨架行为识别模型学习到适合于不同行为的关节点划分,能够有效提高行为识别准确率。
附图说明
图1是本发明的基于身体部件层面的骨架行为识别方法的流程示意图;
图2是本发明的基于身体部件层面的骨架行为识别装置的结构示意图。
具体实施方式
为使本发明的实施例、技术方案和优点更加明显,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所述的实施例是本发明的一部分实施例,而不是全部实施例。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
参照图1,图1示例性地示出了本发明的基于身体部件层面的骨架行为识别方法的流程示意图。
本发明提供的基于身体部件层面的骨架行为识别方法包括如下步骤:
S101、获取待识别视频中目标对象的第一骨架三维坐标。
在一种可能的实现方式中,所述第一骨架三维坐标包括第一差值三维坐标、第一相对三维坐标以及第一关节点三维坐标,所述第一差值三维坐标为所述待识别视频中相邻两帧同一目标对象的骨架三维坐标差,所述第一相对三维坐标为所述目标对象的各个关节点相对于所述目标对象的人体中心的三维坐标,所述第一关节点三维坐标为所述目标对象的各个关节点相对于预设坐标中心的三维坐标。
示例性地,以大型行为识别数据库为例,数据库可以包括56880个视频及其对应的人体骨架关节点三维坐标。实际应用中,可以获取数据库中待识别视频的目标对象的人体关节点三维坐标,人体关节点三维坐标的大小可以为300*25*3,其中,300可以表示视频帧数,25可以表示人体关节点的个数,3可以表示坐标维度。
示例性地,其中,第一差值三维坐标可以是关节点三维坐标的帧间差,第一相对三维坐标可以是相对于人体中心的相对坐标,第一关节点三维坐标可以是相对于预设坐标中心的三维坐标,需要说明的是,本申请实施例对第一骨架三维坐标的类型不进行限定。
通过第一差值三维坐标、第一相对三维坐标以及第一关节点三维坐标可以构成九通道的输入数据。
S102、基于所述第一骨架三维坐标,通过预先训练好的骨架行为识别模型,确定所述目标对象处于多个预设骨架行为类型的概率。
在一种可能的实现方式中,可以将第一骨架三维坐标输入预先训练好的骨架行为识别模型,确定所述目标对象处于多个预设骨架行为类型的概率。
其中,所述骨架行为识别模型是基于图卷积神经网络构建的模型,并且基于预设的训练样本进行骨架行为识别优化。
示例性地,训练样本可以包括多个预设对象的第一骨架三维坐标,在一种可能的实现方式中,在步骤S102之前,“基于预设的训练样本进行骨架行为识别优化”,其方法包括:
将所述第一骨架三维坐标输入待训练的骨架行为识别模型的图卷积层,获得第一输出特征;
将所述第一骨架三维坐标输入待训练的骨架行为识别模型的卷积层,获得第二输出特征,其中,所述第二输出特征的数据维度与预设的人体部件数量相同;
对所述第二输出特征进行第一归一化操作,获得第一矩阵,其中,所述第一归一化操作包括soft-max操作以及L2归一化操作;
根据所述第一矩阵、待训练的骨架行为识别模型的图卷积层以及所述第一矩阵的转置矩阵,对所述第一骨架三维坐标依次进行池化操作,图卷积操作以及反池化操作,获得第三输出特征,其中,所述第三输出特征的数据维度与预设的人体关节图的大小相同;
将所述第一骨架三维坐标输入待训练的骨架行为识别模型的卷积层,获得第四输出特征,其中,所述第四输出特征的数据维度与预设的人体部件数量相同;
对所述第四输出特征进行第一归一化操作,获得第二矩阵;
将所述第一骨架三维坐标输入待训练的骨架行为识别模型的卷积层,获得第五输出特征,其中,所述第五输出特征的数据维度与预设的人体部件数量相同;
对所述第五输出特征进行第二归一化操作,获得第三矩阵,其中,所述第二归一化操作包括soft-max操作;
根据所述第二矩阵、第三矩阵对所述第一骨架三维坐标依次进行池化操作、反池化操作,获得第六输出特征,其中,所述第六输出特征的数据维度与预设的人体关节图的大小相同;
将所述第一输出特征、所述第三输出特征以及所述第六输出特征相加,并进行全局平均池化操作,获得第七输出特征向量;
根据所述第七输出特征向量,通过反向传播算法以及随机梯度下降算法训练所述待训练的骨架行为识别模型,以使所述待训练的骨架行为识别模型的预测结果满足预设的误差条件。
示例性地,可以将第一骨架三维坐标送入到骨架行为识别模型的批量归一化层中,然后还可以将第一骨架三维坐标送入到1*1的卷积层中,对第一骨架三维坐标进行数据维度变换,得到第一输出特征,其中,第一输出特征的数据维度与预设的人体部件数量相同。
对第一输出特征进行第一归一化操作,获得第一矩阵,其中,第一归一化操作可以包括soft-max操作以及L2归一化操作。其中,第一矩阵对应的损失函数如下公式(1)所示:
公式(1):
Figure GDA0003784495460000081
其中,
Figure GDA0003784495460000082
表示所述第一矩阵对应的损失函数的值,Pr表示所述第一矩阵,
Figure GDA0003784495460000083
表示所述第一矩阵的转置矩阵,1表示矩阵元素全为1的矩阵,I表示单位矩阵。
其中,第二矩阵对应的损失函数如下公式(2)所示:
公式(2):
Figure GDA0003784495460000084
其中,
Figure GDA0003784495460000091
表示所述第二矩阵对应的损失函数的值,Pa表示所述第二矩阵,
Figure GDA0003784495460000092
表示所述第二矩阵的转置矩阵,1表示矩阵元素全为1的矩阵,I表示单位矩阵。
根据所述第一矩阵对应的特征向量以及所述第一矩阵的转置矩阵,通过所述待训练的骨架行为识别模型的卷积层对所述第一矩阵对应的特征向量进行反池化操作,获得第二输出特征,其中,所述第二输出特征的数据维度与预设的人体关节数量相同。
示例性地,可以通过前述第一矩阵、待训练的骨架行为识别模型的图卷积层以及所述第一矩阵的转置矩阵,对所述第一骨架三维坐标依次进行池化操作,图卷积操作以及反池化操作,获得第三输出特征,其中,所述第三输出特征的数据维度与预设的人体关节图的大小相同。
将所述第一骨架三维坐标输入待训练的骨架行为识别模型的卷积层,获得第四输出特征,其中,所述第四输出特征的数据维度与预设的人体部件数量相同。
对所述第四输出特征进行第一归一化操作,获得第二矩阵。
具体地,可以将第四输出特征经过一个1*1的卷积层,将数据维度变换到预设的人体部件个数,然后经过节点维度进行soft-max操作,得到图池化矩阵,即第二矩阵。
根据所述第二矩阵、第三矩阵对所述第一骨架三维坐标依次进行池化操作、反池化操作,获得第六输出特征,其中,所述第六输出特征的数据维度与预设的人体关节图的大小相同。
将所述第一输出特征、所述第三输出特征以及所述第六输出特征相加,并进行全局平均池化操作,获得第七输出特征向量。
根据所述第七输出特征向量,通过反向传播算法以及随机梯度下降算法训练所述待训练的骨架行为识别模型,以使所述待训练的骨架行为识别模型的预测结果满足预设的误差条件。
具体地,可以根据所得到的图池化矩阵得到图池化后的特征,也即,第一矩阵和第二矩阵对应的图池化后的特征,将图池化后的特征反池化到人体关节图的大小,经过一层卷积层对时间信息进行建模。
得到多个维度的第七输出特征向量后,可以将第七输出特征向量送入全局平均池化层,并连接一个与训练集行为数大小相同的60维度的全连接层,并通过soft-max分类器计算其与真实值的偏差,其中,第七输出特征向量对应的损失函数可以如下公式(3)所示:
公式(3):
Figure GDA0003784495460000101
其中,
Figure GDA0003784495460000102
表示所述第三矩阵对应的损失函数的值,C表示行为类别数量,yc表示行为类别c所对应的真实概率,
Figure GDA0003784495460000103
表示行为类别c所对应的预测概率。
在一种可能的实现方式中,在“获得第七输出特征向量”的步骤之后,“通过反向传播算法以及随机梯度下降算法训练所述待训练的骨架行为识别模型”的步骤之前,所述方法还包括按照如下公式(4)所示的方法,获取所述待训练的骨架行为识别模型的全局损失:
公式(4):
Figure GDA0003784495460000104
其中,
Figure GDA0003784495460000105
表示所述待训练的骨架行为识别模型的全局损失,
Figure GDA0003784495460000106
表示所述第七输出特征向量对应的损失函数的值,λr和λa表示调节参数,用于调节损失函数的权重的比值,S表示所述骨架行为识别模型的网络层数,
Figure GDA0003784495460000107
表示预先获取的第一矩阵对应的损失函数的值,
Figure GDA0003784495460000108
表示预先获取的第二矩阵对应的损失函数的值。
示例性地,λa与λr的值可以分别设置为0.1和0.1,S表示所述骨架行为识别模型的网络层数,可以设置为9。
在一种可能的实现方式中,还可以采用反向传播算法和随机梯度下降算法来减小预测整体误差以训练该模型,经过多次迭代训练后可以得到训练好的骨架行为识别模型,通常需要在整个数据集上迭代80次,当损失不再收敛时停止训练。
S103、将概率大于预设阈值的预设骨架行为类型作为所述目标对象对应的骨架行为类型。
在一种可能的实现方式中,可以利用训练好的骨架行为识别模型进行测试。首先可以将测试的16560个视频的骨架点三维坐标及对应的关节点三维坐标的帧间差、关节点三维坐标相对人体中心的相对坐标构造为九通道的输入数据,送入到训练好的骨架行为识别模型,分类分数最高的即为视频中发生的行为类别。
本发明提供的方法能够利用从待识别视频中获取的目标对象的第一骨架三维坐标,并基于第一骨架三维坐标,通过骨架行为识别模型确定目标对象处于多个预设骨架行为类型的概率,一方面骨架行为识别模型能够进行端到端的学习,另一方面可以根据人体关节点与人体部件的对应关系,使骨架行为识别模型学习到适合于不同行为的关节点划分,能够有效提高行为识别准确率。
参照图2,图2示例性地示出了本发明的基于身体部件层面的骨架行为识别装置的结构示意图。
本发明提供的基于身体部件层面的骨架行为识别装置包括:
坐标获取模块1,用于获取待识别视频中目标对象的第一骨架三维坐标,其中,所述第一骨架三维坐标包括第一差值三维坐标、第一相对三维坐标以及第一关节点三维坐标,所述第一差值三维坐标为所述待识别视频中相邻两帧同一目标对象的骨架三维坐标差,所述第一相对三维坐标为所述目标对象的各个关节点相对于所述目标对象的人体中心的三维坐标,所述第一关节点三维坐标为所述目标对象的各个关节点相对于预设坐标中心的三维坐标;
行为识别模块2,用于基于所述第一骨架三维坐标,通过预先训练好的骨架行为识别模型,确定所述目标对象处于多个预设骨架行为类型的概率,其中,所述骨架行为识别模型是基于图卷积神经网络构建的模型,并且基于预设的训练样本进行骨架行为识别优化;
将概率大于预设阈值的预设骨架行为类型作为所述目标对象对应的骨架行为类型。
在一种可能的实现方式中,所述行为识别模块2还用于:
将所述第一骨架三维坐标输入待训练的骨架行为识别模型的图卷积层,获得第一输出特征;
将所述第一骨架三维坐标输入待训练的骨架行为识别模型的卷积层,获得第二输出特征,其中,所述第二输出特征的数据维度与预设的人体部件数量相同;
对所述第二输出特征进行第一归一化操作,获得第一矩阵,其中,所述第一归一化操作包括soft-max操作以及L2归一化操作;
根据所述第一矩阵、待训练的骨架行为识别模型的图卷积层以及所述第一矩阵的转置矩阵,对所述第一骨架三维坐标依次进行池化操作,图卷积操作以及反池化操作,获得第三输出特征,其中,所述第三输出特征的数据维度与预设的人体关节图的大小相同;
将所述第一骨架三维坐标输入待训练的骨架行为识别模型的卷积层,获得第四输出特征,其中,所述第四输出特征的数据维度与预设的人体部件数量相同;
对所述第四输出特征进行第一归一化操作,获得第二矩阵;
将所述第一骨架三维坐标输入待训练的骨架行为识别模型的卷积层,获得第五输出特征,其中,所述第五输出特征的数据维度与预设的人体部件数量相同;
对所述第五输出特征进行第二归一化操作,获得第三矩阵,其中,所述第二归一化操作包括soft-max操作;
根据所述第二矩阵、第三矩阵对所述第一骨架三维坐标依次进行池化操作、反池化操作,获得第六输出特征,其中,所述第六输出特征的数据维度与预设的人体关节图的大小相同;
将所述第一输出特征、所述第三输出特征以及所述第六输出特征相加,并进行全局平均池化操作,获得第七输出特征向量;
根据所述第七输出特征向量,通过反向传播算法以及随机梯度下降算法训练所述待训练的骨架行为识别模型,以使所述待训练的骨架行为识别模型的预测结果满足预设的误差条件。
在一种可能的实现方式中,所述第一矩阵对应的损失函数包括:
Figure GDA0003784495460000121
其中,
Figure GDA0003784495460000122
表示所述第一矩阵对应的损失函数的值,Pr表示所述第一矩阵,
Figure GDA0003784495460000123
表示所述第一矩阵的转置矩阵,1表示矩阵元素全为1的矩阵,I表示单位矩阵。
在一种可能的实现方式中,所述第二矩阵对应的损失函数包括:
Figure GDA0003784495460000131
其中,
Figure GDA0003784495460000132
表示所述第二矩阵对应的损失函数的值,Pa表示所述第二矩阵,
Figure GDA0003784495460000133
表示所述第二矩阵的转置矩阵,1表示矩阵元素全为1的矩阵,I表示单位矩阵。
在一种可能的实现方式中,所述第七输出特征向量对应的损失函数包括:
Figure GDA0003784495460000134
其中,
Figure GDA0003784495460000135
表示所述第七输出特征向量对应的损失函数的值,V表示行为类别数量,yc表示行为类别c所对应的真实概率,
Figure GDA0003784495460000136
表示行为类别c所对应的预测概率。
在一种可能的实现方式中,所述装置还包括全局损失获取模块,所述全局损失获取模块用于:
按照如下公式所示的方法,获取所述待训练的骨架行为识别模型的全局损失:
Figure GDA0003784495460000137
其中,
Figure GDA0003784495460000138
表示所述待训练的骨架行为识别模型的全局损失,
Figure GDA0003784495460000139
表示所述第七输出特征向量对应的损失函数的值,λr和λa表示调节参数,用于调节损失函数的权重的比值,S表示所述骨架行为识别模型的网络层数,
Figure GDA00037844954600001310
表示预先获取的第一矩阵对应的损失函数的值,
Figure GDA00037844954600001311
表示预先获取的第二矩阵对应的损失函数的值。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
综上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (9)

1.一种基于身体部件层面的骨架行为识别方法,其特征在于,所述方法包括:
获取待识别视频中目标对象的第一骨架三维坐标,其中,所述第一骨架三维坐标包括第一差值三维坐标、第一相对三维坐标以及第一关节点三维坐标,所述第一差值三维坐标为所述待识别视频中相邻两帧同一目标对象的骨架三维坐标差,所述第一相对三维坐标为所述目标对象的各个关节点相对于所述目标对象的人体中心的三维坐标,所述第一关节点三维坐标为所述目标对象的各个关节点相对于预设坐标中心的三维坐标;
基于所述第一骨架三维坐标,通过预先训练好的骨架行为识别模型,确定所述目标对象处于多个预设骨架行为类型的概率,其中,所述骨架行为识别模型是基于图卷积神经网络构建的模型,并且基于预设的训练样本进行骨架行为识别优化;
将概率大于预设阈值的预设骨架行为类型作为所述目标对象对应的骨架行为类型;
其中,所述训练样本包括多个预设对象的第一骨架三维坐标,基于预设的训练样本进行骨架行为识别优化,其方法包括:
将所述第一骨架三维坐标输入待训练的骨架行为识别模型的图卷积层,获得第一输出特征;
将所述第一骨架三维坐标输入待训练的骨架行为识别模型的卷积层,获得第二输出特征,其中,所述第二输出特征的数据维度与预设的人体部件数量相同;
对所述第二输出特征进行第一归一化操作,获得第一矩阵,其中,所述第一归一化操作包括soft-max操作以及L2归一化操作;
根据所述第一矩阵、待训练的骨架行为识别模型的图卷积层以及所述第一矩阵的转置矩阵,对所述第一骨架三维坐标依次进行池化操作,图卷积操作以及反池化操作,获得第三输出特征,其中,所述第三输出特征的数据维度与预设的人体关节图的大小相同;
将所述第一骨架三维坐标输入待训练的骨架行为识别模型的卷积层,获得第四输出特征,其中,所述第四输出特征的数据维度与预设的人体部件数量相同;
对所述第四输出特征进行第一归一化操作,获得第二矩阵;
将所述第一骨架三维坐标输入待训练的骨架行为识别模型的卷积层,获得第五输出特征,其中,所述第五输出特征的数据维度与预设的人体部件数量相同;
对所述第五输出特征进行第二归一化操作,获得第三矩阵,其中,所述第二归一化操作包括soft-max操作;
根据所述第二矩阵、第三矩阵对所述第一骨架三维坐标依次进行池化操作、反池化操作,获得第六输出特征,其中,所述第六输出特征的数据维度与预设的人体关节图的大小相同;
将所述第一输出特征、所述第三输出特征以及所述第六输出特征相加,并进行全局平均池化操作,获得第七输出特征向量;
根据所述第七输出特征向量,通过反向传播算法以及随机梯度下降算法训练所述待训练的骨架行为识别模型,以使所述待训练的骨架行为识别模型的预测结果满足预设的误差条件。
2.根据权利要求1所述的方法,其特征在于,所述第一矩阵对应的损失函数包括:
Figure FDA0003784495450000021
其中,
Figure FDA0003784495450000022
表示所述第一矩阵对应的损失函数的值,Pr表示所述第一矩阵,
Figure FDA0003784495450000023
表示所述第一矩阵的转置矩阵,1表示矩阵元素全为1的矩阵,I表示单位矩阵。
3.根据权利要求1所述的方法,其特征在于,所述第七输出特征向量对应的损失函数包括:
Figure FDA0003784495450000024
其中,
Figure FDA0003784495450000025
表示所述第七输出特征向量对应的损失函数的值,C表示行为类别数量,yc表示行为类别c所对应的真实概率,
Figure FDA0003784495450000026
表示行为类别c所对应的预测概率。
4.根据权利要求1所述的方法,其特征在于,在“获得第七输出特征向量”的步骤之后,“通过反向传播算法以及随机梯度下降算法训练所述待训练的骨架行为识别模型”的步骤之前,所述方法还包括按照如下公式所示的方法,获取所述待训练的骨架行为识别模型的全局损失:
Figure FDA0003784495450000031
其中,
Figure FDA0003784495450000032
表示所述待训练的骨架行为识别模型的全局损失,
Figure FDA0003784495450000033
表示所述第七输出特征向量对应的损失函数的值,λr和λa表示调节参数,用于调节损失函数的权重的比值,S表示所述骨架行为识别模型的网络层数,
Figure FDA0003784495450000034
表示预先获取的第一矩阵对应的损失函数的值,
Figure FDA0003784495450000035
表示预先获取的第二矩阵对应的损失函数的值。
5.一种基于身体部件层面的骨架行为识别装置,其特征在于,所述装置包括:
坐标获取模块,用于获取待识别视频中目标对象的第一骨架三维坐标,其中,所述第一骨架三维坐标包括第一差值三维坐标、第一相对三维坐标以及第一关节点三维坐标,所述第一差值三维坐标为所述待识别视频中相邻两帧同一目标对象的骨架三维坐标差,所述第一相对三维坐标为所述目标对象的各个关节点相对于所述目标对象的人体中心的三维坐标,所述第一关节点三维坐标为所述目标对象的各个关节点相对于预设坐标中心的三维坐标;
行为识别模块,用于基于所述第一骨架三维坐标,通过预先训练好的骨架行为识别模型,确定所述目标对象处于多个预设骨架行为类型的概率,其中,所述骨架行为识别模型是基于图卷积神经网络构建的模型,并且基于预设的训练样本进行骨架行为识别优化;
将概率大于预设阈值的预设骨架行为类型作为所述目标对象对应的骨架行为类型。
6.根据权利要求5所述的装置,其特征在于,所述训练样本包括多个预设对象的第一骨架三维坐标,所述行为识别模块还用于:
将所述第一骨架三维坐标输入待训练的骨架行为识别模型的图卷积层,获得第一输出特征;
将所述第一骨架三维坐标输入待训练的骨架行为识别模型的卷积层,获得第二输出特征,其中,所述第二输出特征的数据维度与预设的人体部件数量相同;
对所述第二输出特征进行第一归一化操作,获得第一矩阵,其中,所述第一归一化操作包括soft-max操作以及L2归一化操作;
根据所述第一矩阵、待训练的骨架行为识别模型的图卷积层以及所述第一矩阵的转置矩阵,对所述第一骨架三维坐标依次进行池化操作,图卷积操作以及反池化操作,获得第三输出特征,其中,所述第三输出特征的数据维度与预设的人体关节图的大小相同;
将所述第一骨架三维坐标输入待训练的骨架行为识别模型的卷积层,获得第四输出特征,其中,所述第四输出特征的数据维度与预设的人体部件数量相同;
对所述第四输出特征进行第一归一化操作,获得第二矩阵;
将所述第一骨架三维坐标输入待训练的骨架行为识别模型的卷积层,获得第五输出特征,其中,所述第五输出特征的数据维度与预设的人体部件数量相同;
对所述第五输出特征进行第二归一化操作,获得第三矩阵,其中,所述第二归一化操作包括soft-max操作;
根据所述第二矩阵、第三矩阵对所述第一骨架三维坐标依次进行池化操作、反池化操作,获得第六输出特征,其中,所述第六输出特征的数据维度与预设的人体关节图的大小相同;
将所述第一输出特征、所述第三输出特征以及所述第六输出特征相加,并进行全局平均池化操作,获得第七输出特征向量;
根据所述第七输出特征向量,通过反向传播算法以及随机梯度下降算法训练所述待训练的骨架行为识别模型,以使所述待训练的骨架行为识别模型的预测结果满足预设的误差条件。
7.根据权利要求6所述的装置,其特征在于,所述第一矩阵对应的损失函数包括:
Figure FDA0003784495450000041
其中,
Figure FDA0003784495450000042
表示所述第一矩阵对应的损失函数的值,Pr表示所述第一矩阵,
Figure FDA0003784495450000051
表示所述第一矩阵的转置矩阵,1表示矩阵元素全为1的矩阵,I表示单位矩阵。
8.根据权利要求6所述的装置,其特征在于,所述第三矩阵对应的损失函数包括:
Figure FDA0003784495450000052
其中,
Figure FDA0003784495450000053
表示所述第三矩阵对应的损失函数的值,C表示行为类别数量,yc表示行为类别c所对应的真实概率,
Figure FDA0003784495450000054
表示行为类别c所对应的预测概率。
9.根据权利要求6所述的装置,其特征在于,所述装置还包括全局损失获取模块,所述全局损失获取模块用于:
按照如下公式所示的方法,获取所述待训练的骨架行为识别模型的全局损失:
Figure FDA0003784495450000055
其中,
Figure FDA0003784495450000056
表示所述待训练的骨架行为识别模型的全局损失,
Figure FDA0003784495450000057
表示所述第七输出特征向量对应的损失函数的值,λr和λa表示调节参数,用于调节损失函数的权重的比值,S表示所述骨架行为识别模型的网络层数,
Figure FDA0003784495450000058
表示预先获取的第一矩阵对应的损失函数的值,
Figure FDA0003784495450000059
表示预先获取的第二矩阵对应的损失函数的值。
CN202010658060.8A 2020-07-09 2020-07-09 基于身体部件层面的骨架行为识别方法及装置 Active CN111783711B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010658060.8A CN111783711B (zh) 2020-07-09 2020-07-09 基于身体部件层面的骨架行为识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010658060.8A CN111783711B (zh) 2020-07-09 2020-07-09 基于身体部件层面的骨架行为识别方法及装置

Publications (2)

Publication Number Publication Date
CN111783711A CN111783711A (zh) 2020-10-16
CN111783711B true CN111783711B (zh) 2022-11-08

Family

ID=72759358

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010658060.8A Active CN111783711B (zh) 2020-07-09 2020-07-09 基于身体部件层面的骨架行为识别方法及装置

Country Status (1)

Country Link
CN (1) CN111783711B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104615983A (zh) * 2015-01-28 2015-05-13 中国科学院自动化研究所 基于递归神经网络和人体骨架运动序列的行为识别方法
CN104850846A (zh) * 2015-06-02 2015-08-19 深圳大学 一种基于深度神经网络的人体行为识别方法及识别系统
WO2017133009A1 (zh) * 2016-02-04 2017-08-10 广州新节奏智能科技有限公司 一种基于卷积神经网络的深度图像人体关节定位方法
CN108764107A (zh) * 2018-05-23 2018-11-06 中国科学院自动化研究所 基于人体骨架序列的行为与身份联合识别方法及装置
CN110222653A (zh) * 2019-06-11 2019-09-10 中国矿业大学(北京) 一种基于图卷积神经网络的骨架数据行为识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104615983A (zh) * 2015-01-28 2015-05-13 中国科学院自动化研究所 基于递归神经网络和人体骨架运动序列的行为识别方法
CN104850846A (zh) * 2015-06-02 2015-08-19 深圳大学 一种基于深度神经网络的人体行为识别方法及识别系统
WO2017133009A1 (zh) * 2016-02-04 2017-08-10 广州新节奏智能科技有限公司 一种基于卷积神经网络的深度图像人体关节定位方法
CN108764107A (zh) * 2018-05-23 2018-11-06 中国科学院自动化研究所 基于人体骨架序列的行为与身份联合识别方法及装置
CN110222653A (zh) * 2019-06-11 2019-09-10 中国矿业大学(北京) 一种基于图卷积神经网络的骨架数据行为识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于骨架模型的人体行为分析;朱凌飞等;《电子测量技术》;20190423(第08期);74-79 *

Also Published As

Publication number Publication date
CN111783711A (zh) 2020-10-16

Similar Documents

Publication Publication Date Title
CN111523621B (zh) 图像识别方法、装置、计算机设备和存储介质
CN114398961B (zh) 一种基于多模态深度特征融合的视觉问答方法及其模型
CA3066029A1 (en) Image feature acquisition
CN110765882B (zh) 一种视频标签确定方法、装置、服务器及存储介质
CN112328715B (zh) 视觉定位方法及相关模型的训练方法及相关装置、设备
EP4322056A1 (en) Model training method and apparatus
CN113067653B (zh) 一种频谱感知方法、装置、电子设备及介质
CN115100574A (zh) 基于融合图卷积网络与Transformer网络的动作识别方法及系统
CN112163637B (zh) 基于非平衡数据的图像分类模型训练方法、装置
CN113095370A (zh) 图像识别方法、装置、电子设备及存储介质
CN114155397B (zh) 一种小样本图像分类方法及系统
CN116580257A (zh) 特征融合模型训练及样本检索方法、装置和计算机设备
CN114897136A (zh) 多尺度注意力机制方法及模块和图像处理方法及装置
CN113705596A (zh) 图像识别方法、装置、计算机设备和存储介质
WO2023020214A1 (zh) 检索模型的训练和检索方法、装置、设备及介质
CN111062428A (zh) 一种高光谱图像的聚类方法、系统及设备
CN111310918B (zh) 一种数据处理方法、装置、计算机设备及存储介质
CN113987236B (zh) 基于图卷积网络的视觉检索模型的无监督训练方法和装置
CN115761888A (zh) 基于nl-c3d模型的塔吊操作人员异常行为检测方法
CN113469091B (zh) 人脸识别方法、训练方法、电子设备及存储介质
CN110135428A (zh) 图像分割处理方法和装置
CN111814804B (zh) 基于ga-bp-mc神经网络的人体三维尺寸信息预测方法及装置
CN111783711B (zh) 基于身体部件层面的骨架行为识别方法及装置
CN114445692B (zh) 图像识别模型构建方法、装置、计算机设备及存储介质
CN113971737A (zh) 用于机器人的物体识别方法、电子设备、介质和程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant